exponenta event banner

Исследовательский анализ данных

В этом примере показано, как исследовать распределение данных с помощью описательной статистики.

Создать образец данных.

Создайте вектор, содержащий произвольно сгенерированные данные выборки.

rng default  % For reproducibility
x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];

Постройте гистограмму.

Постройте график гистограммы данных образца с нормальной посадкой по плотности. Это обеспечивает визуальное сравнение данных выборки и нормальное распределение, соответствующее данным.

histfit(x)

Figure contains an axes. The axes contains 2 objects of type bar, line.

Распределение данных, по-видимому, остается искаженным. Нормальное распределение не выглядит подходящим для этих данных образца.

Получить график нормальной вероятности.

Получить график нормальной вероятности. Этот график обеспечивает другой способ визуального сравнения данных выборки с нормальным распределением, соответствующим данным.

probplot('normal',x)

Figure contains an axes. The axes with title Probability plot for Normal distribution contains 2 objects of type line.

График вероятности также показывает отклонение данных от нормальности.

Вычислите квантили.

Вычислите квантили данных выборки.

p = 0:0.25:1;
y = quantile(x,p);
z = [p;y]
z = 2×5

         0    0.2500    0.5000    0.7500    1.0000
    1.0557    4.7375    5.6872    6.1526    7.5784

Создайте рамочный график для визуализации статистики.

boxplot(x)

Figure contains an axes. The axes contains 7 objects of type line.

Прямоугольный график показывает квантили 0,25, 0,5 и 0,75. Длинный нижний хвост и знаки плюс показывают отсутствие симметрии в данных выборки.

Вычислить описательную статистику.

Вычислите среднее и среднее значение данных.

y = [mean(x),median(x)]
y = 1×2

    5.3438    5.6872

Среднее и среднее значения кажутся близкими друг к другу, но среднее, меньшее, чем среднее, обычно указывает на то, что данные остаются скошенными.

Вычислите перекос и куртоз данных.

y = [skewness(x),kurtosis(x)]
y = 1×2

   -1.0417    3.5895

Отрицательное значение перекоса означает, что данные остаются скошенными. Данные имеют большую пики, чем нормальное распределение, потому что значение куртоза больше 3.

Вычислите z-оценки.

Определите возможные отклонения, вычислив z-оценки и найдя значения, которые больше 3 или меньше -3.

Z = zscore(x);
find(abs(Z)>3);

Основываясь на z-баллах, 3-е и 35-е наблюдения могут быть отклонениями.

См. также

| | | | | | |

Связанные темы