Исследовательский анализ данных

Этот пример показывает, как исследовать распределение данных с помощью описательной статистики.

Сгенерируйте выборочные данные.

Сгенерируйте вектор, содержащий случайным образом сгенерированные выборочные данные.

rng default  % For reproducibility
x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];

Постройте гистограмму.

Постройте гистограмму выборочных данных с нормальной подгонкой плотности. Это обеспечивает визуальное сравнение выборочных данных и нормального распределения, адаптированного к данным.

histfit(x)

Распределение данных, кажется, оставляют скошенным. Нормальное распределение не похоже на подходящий вариант для этих выборочных данных.

Получите график нормального распределения.

Получите график нормального распределения. Этот график обеспечивает иначе, чтобы визуально сравнить выборочные данные с нормальным распределением, адаптированным к данным.

probplot('normal',x)

График вероятности также показывает отклонение данных из нормальности.

Вычислите квантили.

Вычислите квантили выборочных данных.

p = 0:0.25:1;
y = quantile(x,p);
z = [p;y]

z = 2×5

         0    0.2500    0.5000    0.7500    1.0000
    1.0557    4.7375    5.6872    6.1526    7.5784

Создайте диаграмму визуализировать статистику.

boxplot(x)

Диаграмма показывает 0.25, 0.5, и 0,75 квантиля. Длинный более низкий хвост и знаки "плюс" показывают отсутствие симметрии в значениях выборочных данных.

Вычислите описательную статистику.

Вычислите среднее значение и медиану данных.

y = [mean(x),median(x)]

y = 1×2

    5.3438    5.6872

Средние и средние значения кажутся друг близко к другу, но среднее значение, меньшее, чем медиана обычно, указывает, что данные оставляют скошенными.

Вычислите скошенность и эксцесс данных.

y = [skewness(x),kurtosis(x)]

y = 1×2

   -1.0417    3.5895

Отрицательное значение скошенности означает, что данные оставляют скошенными. Данные имеют большую островершинность, чем нормальное распределение, потому что значение эксцесса больше, чем 3.

Вычислите z-очки.

Идентифицируйте возможные выбросы путем вычисления z-очков и нахождения значений, которые больше, чем 3 или меньше, чем-3.

Z = zscore(x);
find(abs(Z)>3);

На основе z-очков 3-и и 35-е наблюдения могут быть выбросами.

Документация