Графики распределения

Графики распределения визуально оценивают распределение выборочных данных путем сравнения эмпирического распределения данных с теоретическими значениями, ожидаемыми от заданного распределения. Используйте графики распределения в дополнение к более формальным тестам гипотезы, чтобы определить, прибывают ли выборочные данные из заданного распределения. Чтобы узнать о тестах гипотезы, см., что Гипотеза Тестирует.

Statistics and Machine Learning Toolbox™ предлагает несколько опций графика распределения:

Графики нормального распределения — Использование normplot, чтобы оценить, прибывают ли выборочные данные из нормального распределения. Используйте probplot, чтобы создать Графики Вероятности для дистрибутивов кроме нормального, или исследовать распределение подвергнутых цензуре данных.
Графики квантиля квантиля — Использование qqplot, чтобы оценить, происходят ли два набора выборочных данных из той же семьи распределения. Этот график устойчив относительно различий в местоположении и шкале.
Графики Кумулятивного распределения — Использование cdfplot или ecdf, чтобы отобразить эмпирическую кумулятивную функцию распределения (cdf) выборочных данных для визуального сравнения с теоретическим cdf заданного распределения.

Графики нормального распределения

Скрипт Open Live Script

Используйте графики нормального распределения, чтобы оценить, прибывают ли данные из нормального распределения. Много статистических процедур делают предположение, что базовое распределение нормально. Графики нормального распределения могут обеспечить некоторое обеспечение, чтобы выровнять по ширине это предположение или предоставить предупреждению проблем с предположением. Анализ нормальности обычно комбинирует графики нормального распределения с тестами гипотезы для нормальности.

Этот пример генерирует выборку данных 25 случайных чисел от нормального распределения со средним значением 10 и стандартное отклонение 1 и создает график нормального распределения данных.

rng('default');  % For reproducibility
x = normrnd(10,1,[25,1]);
normplot(x)

Знаки "плюс" строят эмпирическую вероятность по сравнению со значением данных для каждой точки в данных. Сплошная линия соединяет 25-е и 75-е процентили в данных, и пунктирная линия расширяет его к концам данных. Значения оси Y являются вероятностями от нуля до одного, но шкала не линейна. Расстояние между отметками деления на оси Y совпадает с расстоянием между квантилями нормального распределения. Квантили близко друг к другу около медианы (50-я процентиль) и растягиваются симметрично, когда вы переезжаете от медианы.

В графике нормального распределения, если все точки данных падают около строки, предположение о нормальности разумно. В противном случае предположение о нормальности не выравнивается по ширине. Например, следующее генерирует выборку данных 100 случайных чисел от экспоненциального распределения со средним значением 10 и создает график нормального распределения данных.

x = exprnd(10,100,1);
normplot(x)

График является убедительными доказательствами, что базовое распределение не нормально.

Графики вероятности

График вероятности, как график нормального распределения, является только эмпирическим графиком cdf, масштабируемым к конкретному распределению. Значения оси Y являются вероятностями от нуля до одного, но шкала не линейна. Расстояние между отметками деления является расстоянием между квантилями распределения. В графике линия проведена между первыми и третьими квартилями в данных. Если данные падают около строки, разумно выбрать распределение в качестве модели для данных. Анализ распределения обычно построил графики вероятности с тестами гипотезы для конкретного распределения.

Создайте график вероятности Weibull

Скрипт Open Live Script

Сгенерируйте выборочные данные и создайте график вероятности.

Сгенерируйте выборочные данные. Демонстрационный x1 содержит 500 случайных чисел от распределения Weibull с масштабным коэффициентом A = 3 и параметр формы B = 3. Демонстрационный x2 содержит 500 случайных чисел от Распределения Релея с масштабным коэффициентом B = 3.

rng('default');  % For reproducibility
x1 = wblrnd(3,3,[500,1]);
x2 = raylrnd(3,[500,1]);

Создайте график вероятности оценить, прибывают ли данные в x1 и x2 из распределения Weibull.

figure
probplot('weibull',[x1 x2])
legend('Weibull Sample','Rayleigh Sample','Location','best')

График вероятности показывает, что данные в x1 прибывают из распределения Weibull, в то время как данные в x2 не делают.

Также можно использовать wblplot, чтобы создать график вероятности Weibull.

Графики квантиля квантиля

Скрипт Open Live Script

Используйте квантиль квантиля (q-q) графики определить, происходят ли две выборки из той же семьи распределения. Графики Q-Q являются графиками рассеивания квантилей, вычисленных из каждой выборки с линией, проведенной между первыми и третьими квартилями. Если данные падают около строки, разумно принять, что эти две выборки прибывают из того же распределения. Метод устойчив относительно изменений в месте и шкале любого распределения.

Создайте график квантиля квантиля при помощи функции qqplot.

Следующий пример генерирует две выборки данных, содержащие случайные числа от дистрибутивов Пуассона с различными значениями параметров, и создает график квантиля квантиля. Данные в x от распределения Пуассона со средним значением 10, и данные в y от распределения Пуассона со средним значением 5.

x = poissrnd(10,[50,1]);
y = poissrnd(5,[100,1]);
qqplot(x,y)

Даже при том, что параметры и объемы выборки отличаются, аппроксимированное линейное соотношение предполагает, что эти две выборки могут происходить из той же семьи распределения. Как с графиками нормального распределения, тесты гипотезы могут обеспечить дополнительное выравнивание для такого предположения. Для статистических процедур, которые зависят от этих двух выборок, прибывающих из того же распределения, однако, линейный график квантиля квантиля часто достаточен.

Следующий пример показывает то, что происходит, когда базовые дистрибутивы не являются тем же самым. Здесь, x содержит 100 случайных чисел, сгенерированных от нормального распределения со средним значением 5 и стандартное отклонение 1, в то время как y содержит 100 случайных чисел, сгенерированных от распределения Weibull с масштабным коэффициентом 2 и параметром формы 0,5.

x = normrnd(5,1,[100,1]);
y = wblrnd(2,0.5,[100,1]);
qqplot(x,y)

Графики показывают, что эти выборки ясно не от того же семейства распределений.

Графики кумулятивного распределения

Эмпирическая кумулятивная функция распределения (cdf) график показывает пропорцию данных, меньше чем или равных каждому x значению как функция x. Шкала на оси Y линейна; в частности, это не масштабируется ни к какому конкретному распределению. Эмпирические графики cdf используются, чтобы сравнить данные cdfs с cdfs для конкретных дистрибутивов.

Чтобы создать эмпирический график cdf, используйте функцию cdfplot или функцию ecdf.

Сравните Эмпирический cdf с Теоретическим cdf

Скрипт Open Live Script

Постройте эмпирический cdf набора выборочных данных и сравните его с теоретическим cdf базового распределения набора выборочных данных. На практике теоретический cdf может быть неизвестным.

Сгенерируйте набор данных случайной выборки от распределения экстремума с параметром положения 0 и масштабным коэффициентом 3.

rng('default')  % For reproducibility
y = evrnd(0,3,100,1);

Постройте эмпирический cdf набора выборочных данных и теоретический cdf на той же фигуре.

cdfplot(y)
hold on
x = linspace(min(y),max(y));
plot(x,evcdf(x,0,3))
legend('Empirical CDF','Theoretical CDF','Location','best')
hold off

График показывает подобие между эмпирическим cdf и теоретическим cdf.

Также можно использовать функцию ecdf. Функция ecdf также строит 95% доверительных интервалов, оцененных при помощи Формулы Гринвуда. Для получения дополнительной информации смотрите Формулу Гринвуда.

ecdf(y,'Bounds','on')
hold on
plot(x,evcdf(x,0,3))
grid on
title('Empirical CDF')
legend('Empirical CDF','Lower Confidence Bound','Upper Confidence Bound','Theoretical CDF','Location','best')
hold off

Документация