В этом примере показано, как исследовать распределение данных с помощью описательной статистики.
Сгенерируйте вектор, содержащий случайным образом сгенерированные выборочные данные.
rng default % For reproducibility x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];
Постройте гистограмму выборочных данных с нормальной подгонкой плотности. Это обеспечивает визуальное сравнение выборочных данных и нормального распределения, адаптированного к данным.
histfit(x)
Распределение данных, кажется, оставляют скошенным. Нормальное распределение не похоже на подходящий вариант для этих выборочных данных.
Получите график нормального распределения. Этот график обеспечивает иначе, чтобы визуально сравнить выборочные данные с нормальным распределением, адаптированным к данным.
probplot('normal',x)
График вероятности также показывает отклонение данных из нормальности.
Вычислите квантили выборочных данных.
p = 0:0.25:1; y = quantile(x,p); z = [p;y]
z = 2×5
0 0.2500 0.5000 0.7500 1.0000
1.0557 4.7375 5.6872 6.1526 7.5784
Создайте диаграмму визуализировать статистику.
boxplot(x)
Диаграмма показывает 0.25, 0.5, и 0,75 квантиля. Длинный более низкий хвост и знаки "плюс" показывают отсутствие симметрии в значениях выборочных данных.
Вычислите среднее значение и медиану данных.
y = [mean(x),median(x)]
y = 1×2
5.3438 5.6872
Средние и средние значения кажутся друг близко к другу, но среднее значение, меньшее, чем медиана обычно, указывает, что данные оставляют скошенными.
Вычислите скошенность и эксцесс данных.
y = [skewness(x),kurtosis(x)]
y = 1×2
-1.0417 3.5895
Отрицательное значение скошенности означает, что данные оставляют скошенными. Данные имеют большую островершинность, чем нормальное распределение, потому что значение эксцесса больше 3.
Идентифицируйте возможные выбросы путем вычисления z-баллов и нахождения значений, которые больше 3 или меньше, чем-3.
Z = zscore(x); find(abs(Z)>3);
На основе z-баллов 3-и и 35-е наблюдения могут быть выбросами.
boxplot
| histfit
| kurtosis
| mean
| median
| prctile
| quantile
| skewness