exponenta event banner

Графики распределения

Графики распределения визуально оценивают распределение выборочных данных путем сравнения эмпирического распределения данных с теоретическими значениями, ожидаемыми от указанного распределения. Используйте графики распределения в дополнение к более формальным тестам гипотез, чтобы определить, поступают ли данные выборки из указанного распределения. Сведения о тестах гипотез см. в разделе Тестирование гипотез.

Toolbox™ статистики и машинного обучения предлагает несколько вариантов графика распределения:

  • Графики нормальной вероятности - использование normplot для оценки того, поступают ли выборочные данные из нормального распределения. Использовать probplot создание вероятностных графиков для распределений, отличных от обычных, или изучение распределения данных, подвергнутых цензуре.

  • Квантиль-квантильные графики - использование qqplot чтобы оценить, поступают ли два набора выборочных данных из одного семейства распределения. Этот график надежен в отношении различий в местоположении и масштабе.

  • Графики совокупного распределения - использование cdfplot или ecdf отображение эмпирической кумулятивной функции распределения (cdf) данных выборки для визуального сравнения с теоретическим cdf заданного распределения.

Графики нормальной вероятности

Используйте графики нормальной вероятности для оценки того, поступают ли данные из нормального распределения. Многие статистические процедуры делают предположение, что основное распределение является нормальным. Графики нормальной вероятности могут дать некоторую гарантию, чтобы обосновать это предположение или предупредить о проблемах с предположением. Анализ нормальности обычно объединяет графики нормальной вероятности с тестами гипотез на нормальность.

Этот пример генерирует выборку данных из 25 случайных чисел из нормального распределения со средним значением 10 и стандартным отклонением 1 и создает график нормальной вероятности данных.

rng('default');  % For reproducibility
x = normrnd(10,1,[25,1]);
normplot(x)

Figure contains an axes. The axes with title Normal Probability Plot contains 3 objects of type line.

Знаки «плюс» отображают эмпирическую вероятность по сравнению со значением данных для каждой точки в данных. Сплошная линия соединяет 25-й и 75-й процентили в данных, а пунктирная линия расширяет их до концов данных. Значения оси Y являются вероятностями от нуля до единицы, но масштаб не является линейным. Расстояние между делениями на оси Y соответствует расстоянию между квантилями нормального распределения. Квантили находятся вблизи медианы (50-й процентиль) и вытягиваются симметрично при удалении от медианы.

В графике нормальной вероятности, если все точки данных падают вблизи прямой, предположение о нормальности является разумным. В противном случае предположение о нормальности не оправдано. Например, следующее генерирует выборку данных из 100 случайных чисел из экспоненциального распределения со средним значением 10 и создает график нормальной вероятности данных.

x = exprnd(10,100,1);
normplot(x)

Figure contains an axes. The axes with title Normal Probability Plot contains 3 objects of type line.

Сюжет является убедительным доказательством того, что лежащее в основе распределение не является нормальным.

Вероятностные графики

График вероятности, как и график нормальной вероятности, является просто эмпирическим графиком cdf, масштабированным до конкретного распределения. Значения оси Y являются вероятностями от нуля до единицы, но масштаб не является линейным. Расстояние между делениями - это расстояние между квантилями распределения. На графике проводится линия между первым и третьим квартилями в данных. Если данные находятся вблизи строки, целесообразно выбрать распределение в качестве модели для данных. Анализ распределения обычно объединяет графики вероятности с тестами гипотез для конкретного распределения.

Создание графика вероятностей Вейбулла

Создайте выборку данных и график вероятностей.

Создать образец данных. Образец x1 содержит 500 случайных чисел из распределения Вейбулла с параметром масштаба A = 3 и параметр формы B = 3. Образец x2 содержит 500 случайных чисел из распределения Рэлея с параметром масштаба B = 3.

rng('default');  % For reproducibility
x1 = wblrnd(3,3,[500,1]);
x2 = raylrnd(3,[500,1]);

Создание вероятностного графика для оценки наличия данных в x1 и x2 происходит из распределения Вейбулла.

figure
probplot('weibull',[x1 x2])
legend('Weibull Sample','Rayleigh Sample','Location','best')

Figure contains an axes. The axes with title Probability plot for Weibull distribution contains 4 objects of type line. These objects represent Weibull Sample, Rayleigh Sample.

График вероятности показывает, что данные в x1 происходит из распределения Вейбулла, в то время как данные в x2 не делает.

Кроме того, можно использовать wblplot для создания графика вероятностей Вейбулла.

Квантиль-квантильные графики

Используйте графики квантиль-квантиль (q-q), чтобы определить, происходят ли две выборки из одного семейства распределения. Q-Q графики - это графики рассеяния квантилей, вычисленные для каждой выборки, с линией, проведенной между первым и третьим квартилями. Если данные падают рядом с линией, разумно предположить, что две выборки происходят из одного распределения. Способ является надежным в отношении изменений в местоположении и масштабе любого распределения.

Создайте квантильный график с помощью qqplot функция.

В следующем примере создаются две выборки данных, содержащие случайные числа из распределений Пуассона с различными значениями параметров, и создается график квантиль-квантиль. Данные в x из распределения Пуассона со средним значением 10 и данными в y из распределения Пуассона со средним значением 5.

x = poissrnd(10,[50,1]);
y = poissrnd(5,[100,1]);
qqplot(x,y)

Figure contains an axes. The axes contains 3 objects of type line.

Даже если параметры и размеры выборки различны, приблизительная линейная зависимость предполагает, что две выборки могут происходить из одного семейства распределения. Как и в случае с нормальными графиками вероятностей, тесты гипотез могут дать дополнительное обоснование такого предположения. Однако для статистических процедур, которые зависят от двух выборок, поступающих из одного и того же распределения, часто достаточно линейного квантильного графика.

В следующем примере показано, что происходит, когда нижележащие распределения не совпадают. Здесь, x содержит 100 случайных чисел, сгенерированных из нормального распределения со средним значением 5 и стандартным отклонением 1, в то время как y содержит 100 случайных чисел, сгенерированных из распределения Вейбулла с параметром масштаба 2 и параметром формы 0,5.

x = normrnd(5,1,[100,1]);
y = wblrnd(2,0.5,[100,1]);
qqplot(x,y)

Figure contains an axes. The axes contains 3 objects of type line.

Графики показывают, что эти образцы явно не из одного и того же семейства распределения.

Графики совокупного распределения

Эмпирический график кумулятивной функции распределения (cdf) показывает долю данных, меньших или равных каждому значению x, как функцию x. Масштаб на оси y является линейным; в частности, он не масштабируется до какого-либо конкретного распределения. Эмпирические графики cdf используются для сравнения данных cdfs с cdfs для конкретных распределений.

Для создания эмпирического графика cdf используйте cdfplot функции или ecdf функция.

Сравнение эмпирического cdf с теоретическим cdf

Постройте график эмпирического cdf набора данных выборки и сравните его с теоретическим cdf базового распределения набора данных выборки. На практике теоретический cdf может быть неизвестен.

Создайте набор данных случайной выборки из крайнего распределения значений с параметром местоположения 0 и параметром масштаба 3.

rng('default')  % For reproducibility
y = evrnd(0,3,100,1);

Постройте график эмпирического cdf набора данных образца и теоретического cdf на том же рисунке.

cdfplot(y)
hold on
x = linspace(min(y),max(y));
plot(x,evcdf(x,0,3))
legend('Empirical CDF','Theoretical CDF','Location','best')
hold off

Figure contains an axes. The axes with title Empirical CDF contains 2 objects of type line. These objects represent Empirical CDF, Theoretical CDF.

На сюжете показано сходство эмпирического cdf и теоретического cdf.

Кроме того, можно использовать ecdf функция. ecdf функция также строит график 95% доверительных интервалов, оцененных с использованием формулы Гринвуда. Подробности см. в формуле Гринвуда.

ecdf(y,'Bounds','on')
hold on
plot(x,evcdf(x,0,3))
grid on
title('Empirical CDF')
legend('Empirical CDF','Lower Confidence Bound','Upper Confidence Bound','Theoretical CDF','Location','best')
hold off

Figure contains an axes. The axes with title Empirical CDF contains 4 objects of type stair, line. These objects represent Empirical CDF, Lower Confidence Bound, Upper Confidence Bound, Theoretical CDF.

См. также

| | | | |

Связанные темы