Графики распределения

Графики распределения визуально оценивают распределение выборочных данных путем сравнения эмпирического распределения данных с теоретическими значениями, ожидаемыми от заданного распределения. Используйте графики распределения в дополнение к более формальным тестам гипотез, чтобы определить, получены ли выборочные данные из заданного распределения. Чтобы узнать о тестах гипотез, см. Проверку гипотез.

Statistics and Machine Learning Toolbox™ предлагает несколько опции графика распределения:

  • Графики нормальной вероятности - Использование normplot чтобы оценить, получены ли выборочные данные из нормального распределения. Использовать probplot Создать вероятностные графики для распределений, отличных от нормальных, или исследовать распределение цензурированных данных.

  • Квантильно-квантильные графики - Использование qqplot чтобы оценить, получены ли два набора выборочных данных из одного семейства распределения. Этот график является устойчивым относительно различий в местоположении и шкале.

  • Кумулятивные графики распределения - Использование cdfplot или ecdf для отображения эмпирической кумулятивной функции распределения (cdf) выборочных данных для визуального сравнения с теоретической cdf заданного распределения.

Графики нормальной вероятности

Используйте нормальные вероятностные графики, чтобы оценить, получены ли данные из нормального распределения. Многие статистические процедуры делают предположение, что базовое распределение является нормальным. Графики нормальной вероятности могут предоставить некоторую уверенность, чтобы обосновать это предположение или предоставить предупреждение о проблемах с допущением. Анализ нормальности обычно сочетает нормальные вероятностные графики с гипотезными тестами на нормальность.

Этот пример генерирует выборку данных из 25 случайных чисел из нормального распределения со средним 10 и стандартным отклонением 1 и создает график нормальной вероятности данных.

rng('default');  % For reproducibility
x = normrnd(10,1,[25,1]);
normplot(x)

Figure contains an axes. The axes with title Normal Probability Plot contains 3 objects of type line.

Знаки плюс строят график эмпирической вероятности от значения данных для каждой точки в данных. Сплошная линия соединяет 25-й и 75-й процентили в данных, а штриховая линия простирает его до концов данных. Значения оси Y являются вероятностями от нуля до единицы, но шкала не линейная. Расстояние между отметками деления на оси Y совпадает с расстоянием между квантилями нормального распределения. Величины близки друг к другу около медианы (50-й процентиль) и вытягиваются симметрично, когда вы отходите от медианы.

На графике нормальной вероятности, если все точки данных падают вблизи линии, предположение нормальности разумно. В противном случае предположение о нормальности не оправдано. Например, следующая система генерирует выборку данных из 100 случайных чисел из экспоненциального распределения со средним 10 и создает график нормальной вероятности данных.

x = exprnd(10,100,1);
normplot(x)

Figure contains an axes. The axes with title Normal Probability Plot contains 3 objects of type line.

График является убедительным доказательством того, что базовое распределение не является нормальным.

Вероятностные графики

График вероятности, как и график нормальной вероятности, является просто эмпирическим графиком cdf, масштабированным до определенного распределения. Значения оси Y являются вероятностями от нуля до единицы, но шкала не линейная. Расстояние между отметками деления является расстоянием между квантилями распределения. На графике рисуется линия между первым и третьим квартилями в данных. Если данные попадают рядом с линией, разумно выбрать распределение в качестве модели для данных. Анализ распределения обычно сочетает вероятностные графики с тестами гипотез для определенного распределения.

Создайте график вероятностей Вейбула

Сгенерируйте выборочные данные и создайте график вероятностей.

Сгенерируйте выборочные данные. Область выборки x1 содержит 500 случайных чисел из распределения Вейбула с параметром шкалы A = 3 и параметры формы B = 3. Область выборки x2 содержит 500 случайных чисел из распределения Релея с параметром шкалы B = 3.

rng('default');  % For reproducibility
x1 = wblrnd(3,3,[500,1]);
x2 = raylrnd(3,[500,1]);

Создайте график вероятности, чтобы оценить, в x1 ли данные и x2 происходит из распределения Вейбула.

figure
probplot('weibull',[x1 x2])
legend('Weibull Sample','Rayleigh Sample','Location','best')

Figure contains an axes. The axes with title Probability plot for Weibull distribution contains 4 objects of type line. These objects represent Weibull Sample, Rayleigh Sample.

График вероятности показывает, что данные в x1 происходит из распределения Вейбула, в то время как данные в x2 не делает.

Также можно использовать wblplot чтобы создать график вероятностей Вейбула.

Квантильно-квантильные графики

Используйте квантильные (q-q) графики, чтобы определить, происходят ли две выборки из одного семейства распределения. Q-Q-графики являются графиками поля точек квантилей, вычисленных из каждой выборки, с линией, проведенной между первым и третьим квартилями. Если данные падают рядом с линией, разумно предположить, что две выборки происходят из одного и того же распределения. Метод является устойчивым в отношении изменений в местоположении и шкале любого распределения.

Создайте квантильный график при помощи qqplot функция.

В следующем примере генерируются две выборки данных, содержащие случайные числа из распределений Пуассона с различными значениями параметров, и создается график квантиль-квантиль. Данные в x получен из распределения Пуассона со средним 10, и данные в y получен из распределения Пуассона со средним значением 5.

x = poissrnd(10,[50,1]);
y = poissrnd(5,[100,1]);
qqplot(x,y)

Figure contains an axes. The axes contains 3 objects of type line.

Несмотря на то, что параметры и размеры выборки различны, приблизительная линейная зависимость предполагает, что эти две выборки могут происходить из одного и того же семейства распределения. Как и с нормальными вероятностными графиками, проверки гипотезы могут предоставить дополнительное обоснование для такого предположения. Для статистических процедур, которые зависят от двух выборок, полученных из одного и того же распределения, однако, линейного квантильного графика часто достаточно.

Следующий пример показывает, что происходит, когда базовые распределения не совпадают. Здесь, x содержит 100 случайных чисел, сгенерированных из нормального распределения со средним 5 и стандартным отклонением 1, в то время как y содержит 100 случайных чисел, сгенерированных из распределения Вейбула с параметром шкалы 2 и параметром формы 0,5.

x = normrnd(5,1,[100,1]);
y = wblrnd(2,0.5,[100,1]);
qqplot(x,y)

Figure contains an axes. The axes contains 3 objects of type line.

Графики указывают, что эти выборки явно не из одного семейства распределения.

Кумулятивные графики распределения

Эмпирический график функции совокупного распределения (cdf) показывает долю данных, меньше чем или равную каждому значению x, как функцию x. Шкала на оси y линейная; в частности, оно не масштабируется до какого-либо конкретного распределения. Эмпирические графики cdf используются для сравнения данных cdfs с cdfs для конкретных распределений.

Чтобы создать эмпирический график cdf, используйте cdfplot функцию или ecdf функция.

Сравнение эмпирических cdf с теоретическими cdf

Постройте график эмпирического cdf набора выборочных данных и сравните его с теоретическим cdf базового распределения набора выборочных данных. На практике теоретический cdf может быть неизвестен.

Сгенерируйте набор случайных выборочных данных из крайнего распределения значений с параметром местоположения 0 и параметром шкалой 3.

rng('default')  % For reproducibility
y = evrnd(0,3,100,1);

Постройте график эмпирического cdf набора выборочных данных и теоретического cdf на том же рисунке.

cdfplot(y)
hold on
x = linspace(min(y),max(y));
plot(x,evcdf(x,0,3))
legend('Empirical CDF','Theoretical CDF','Location','best')
hold off

Figure contains an axes. The axes with title Empirical CDF contains 2 objects of type line. These objects represent Empirical CDF, Theoretical CDF.

График показывает сходство между эмпирическим cdf и теоретическим cdf.

Также можно использовать ecdf функция. The ecdf функция также строит графики 95% доверительных интервалов, оцененных при помощи Формулы Гринвуда. Для получения дополнительной информации смотрите Формулу Гринвуда.

ecdf(y,'Bounds','on')
hold on
plot(x,evcdf(x,0,3))
grid on
title('Empirical CDF')
legend('Empirical CDF','Lower Confidence Bound','Upper Confidence Bound','Theoretical CDF','Location','best')
hold off

Figure contains an axes. The axes with title Empirical CDF contains 4 objects of type stair, line. These objects represent Empirical CDF, Lower Confidence Bound, Upper Confidence Bound, Theoretical CDF.

См. также

| | | | |

Похожие темы