Исследовательский анализ данных

В этом примере показано, как исследовать распределение данных с помощью описательной статистики.

Сгенерируйте выборочные данные.

Сгенерируйте вектор, содержащий случайным образом сгенерированные выборочные данные.

rng default  % For reproducibility
x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];

Постройте гистограмму.

Постройте гистограмму выборочных данных с нормальной подгонкой плотности. Это обеспечивает визуальное сравнение выборочных данных и нормального распределения, адаптированного к данным.

histfit(x)

Figure contains an axes object. The axes object contains 2 objects of type bar, line.

Распределение данных, кажется, оставляют скошенным. Нормальное распределение не похоже на подходящий вариант для этих выборочных данных.

Получите график нормального распределения.

Получите график нормального распределения. Этот график обеспечивает иначе, чтобы визуально сравнить выборочные данные с нормальным распределением, адаптированным к данным.

probplot('normal',x)

Figure contains an axes object. The axes object with title Probability plot for Normal distribution contains 2 objects of type line.

График вероятности также показывает отклонение данных из нормальности.

Вычислите квантили.

Вычислите квантили выборочных данных.

p = 0:0.25:1;
y = quantile(x,p);
z = [p;y]
z = 2×5

         0    0.2500    0.5000    0.7500    1.0000
    1.0557    4.7375    5.6872    6.1526    7.5784

Создайте диаграмму визуализировать статистику.

boxplot(x)

Figure contains an axes object. The axes object contains 7 objects of type line.

Диаграмма показывает 0.25, 0.5, и 0,75 квантиля. Длинный более низкий хвост и знаки "плюс" показывают отсутствие симметрии в значениях выборочных данных.

Вычислите описательную статистику.

Вычислите среднее значение и медиану данных.

y = [mean(x),median(x)]
y = 1×2

    5.3438    5.6872

Средние и средние значения кажутся друг близко к другу, но среднее значение, меньшее, чем медиана обычно, указывает, что данные оставляют скошенными.

Вычислите скошенность и эксцесс данных.

y = [skewness(x),kurtosis(x)]
y = 1×2

   -1.0417    3.5895

Отрицательное значение скошенности означает, что данные оставляют скошенными. Данные имеют большую островершинность, чем нормальное распределение, потому что значение эксцесса больше 3.

Вычислите z-баллы.

Идентифицируйте возможные выбросы путем вычисления z-баллов и нахождения значений, которые больше 3 или меньше, чем-3.

Z = zscore(x);
find(abs(Z)>3);

На основе z-баллов 3-и и 35-е наблюдения могут быть выбросами.

Смотрите также

| | | | | | |

Похожие темы