В этом примере показано, как исследовать распределение данных с помощью описательной статистики.
Сгенерируйте вектор, содержащий случайным образом сгенерированные выборочные данные.
rng default % For reproducibility x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];
Постройте гистограмму выборочных данных с подгонкой нормальной плотности. Это обеспечивает визуальное сравнение выборочных данных и нормальное распределение, подобранное к данным.
histfit(x)
Распределение данных, по-видимому, остается искривленным. Нормальное распределение не выглядит хорошей подгонкой для этих выборочных данных.
Получите нормальный график вероятности. Этот график предоставляет другой способ визуального сравнения выборочных данных с нормальным распределением, подобранным к данным.
probplot('normal',x)
График вероятности также показывает отклонение данных от нормальности.
Вычислите квантования выборочных данных.
p = 0:0.25:1; y = quantile(x,p); z = [p;y]
z = 2×5
0 0.2500 0.5000 0.7500 1.0000
1.0557 4.7375 5.6872 6.1526 7.5784
Создайте прямоугольный график, чтобы визуализировать статистику.
boxplot(x)
На прямоугольном графике показаны 0,25, 0,5 и 0,75 квантилей. Длинный нижний хвост и знаки плюс показывают отсутствие симметрии в значениях выборочных данных.
Вычислите среднее и среднее значения данных.
y = [mean(x),median(x)]
y = 1×2
5.3438 5.6872
Среднее и среднее значения кажутся близкими друг другу, но среднее значение, меньше медианы, обычно указывает, что данные остаются искривленными.
Вычислите перекос и куртоз данных.
y = [skewness(x),kurtosis(x)]
y = 1×2
-1.0417 3.5895
Отрицательное значение перекоса означает, что данные остаются искривленными. Данные имеют большую пик, чем нормальное распределение, потому что значение куртоза больше 3.
Идентифицируйте возможные выбросы путем вычисления z-оценок и нахождения значений, которые больше 3 или меньше -3.
Z = zscore(x); find(abs(Z)>3);
Основываясь на z-оценках, 3-е и 35-е наблюдения могут быть выбросами.
boxplot
| histfit
| kurtosis
| mean
| median
| prctile
| quantile
| skewness