Исследовательский анализ данных

В этом примере показано, как исследовать распределение данных с помощью описательной статистики.

Сгенерируйте выборочные данные.

Сгенерируйте вектор, содержащий случайным образом сгенерированные выборочные данные.

rng default  % For reproducibility
x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];

Постройте гистограмму.

Постройте гистограмму выборочных данных с подгонкой нормальной плотности. Это обеспечивает визуальное сравнение выборочных данных и нормальное распределение, подобранное к данным.

histfit(x)

Figure contains an axes. The axes contains 2 objects of type bar, line.

Распределение данных, по-видимому, остается искривленным. Нормальное распределение не выглядит хорошей подгонкой для этих выборочных данных.

Получите нормальный график вероятности.

Получите нормальный график вероятности. Этот график предоставляет другой способ визуального сравнения выборочных данных с нормальным распределением, подобранным к данным.

probplot('normal',x)

Figure contains an axes. The axes with title Probability plot for Normal distribution contains 2 objects of type line.

График вероятности также показывает отклонение данных от нормальности.

Вычислите квантили.

Вычислите квантования выборочных данных.

p = 0:0.25:1;
y = quantile(x,p);
z = [p;y]
z = 2×5

         0    0.2500    0.5000    0.7500    1.0000
    1.0557    4.7375    5.6872    6.1526    7.5784

Создайте прямоугольный график, чтобы визуализировать статистику.

boxplot(x)

Figure contains an axes. The axes contains 7 objects of type line.

На прямоугольном графике показаны 0,25, 0,5 и 0,75 квантилей. Длинный нижний хвост и знаки плюс показывают отсутствие симметрии в значениях выборочных данных.

Вычислите описательную статистику.

Вычислите среднее и среднее значения данных.

y = [mean(x),median(x)]
y = 1×2

    5.3438    5.6872

Среднее и среднее значения кажутся близкими друг другу, но среднее значение, меньше медианы, обычно указывает, что данные остаются искривленными.

Вычислите перекос и куртоз данных.

y = [skewness(x),kurtosis(x)]
y = 1×2

   -1.0417    3.5895

Отрицательное значение перекоса означает, что данные остаются искривленными. Данные имеют большую пик, чем нормальное распределение, потому что значение куртоза больше 3.

Вычислите z-оценки.

Идентифицируйте возможные выбросы путем вычисления z-оценок и нахождения значений, которые больше 3 или меньше -3.

Z = zscore(x);
find(abs(Z)>3);

Основываясь на z-оценках, 3-е и 35-е наблюдения могут быть выбросами.

См. также

| | | | | | |

Похожие темы