Графики распределения визуально оценивают распределение выборочных данных путем сравнения эмпирического распределения данных с теоретическими значениями, ожидаемыми от заданного распределения. Используйте графики распределения в дополнение к более формальным тестам гипотез, чтобы определить, получены ли выборочные данные из заданного распределения. Чтобы узнать о тестах гипотез, см. Проверку гипотез.
Statistics and Machine Learning Toolbox™ предлагает несколько опции графика распределения:
Графики нормальной вероятности - Использование normplot
чтобы оценить, получены ли выборочные данные из нормального распределения. Использовать probplot
Создать вероятностные графики для распределений, отличных от нормальных, или исследовать распределение цензурированных данных.
Квантильно-квантильные графики - Использование qqplot
чтобы оценить, получены ли два набора выборочных данных из одного семейства распределения. Этот график является устойчивым относительно различий в местоположении и шкале.
Кумулятивные графики распределения - Использование cdfplot
или ecdf
для отображения эмпирической кумулятивной функции распределения (cdf) выборочных данных для визуального сравнения с теоретической cdf заданного распределения.
Используйте нормальные вероятностные графики, чтобы оценить, получены ли данные из нормального распределения. Многие статистические процедуры делают предположение, что базовое распределение является нормальным. Графики нормальной вероятности могут предоставить некоторую уверенность, чтобы обосновать это предположение или предоставить предупреждение о проблемах с допущением. Анализ нормальности обычно сочетает нормальные вероятностные графики с гипотезными тестами на нормальность.
Этот пример генерирует выборку данных из 25 случайных чисел из нормального распределения со средним 10 и стандартным отклонением 1 и создает график нормальной вероятности данных.
rng('default'); % For reproducibility x = normrnd(10,1,[25,1]); normplot(x)
Знаки плюс строят график эмпирической вероятности от значения данных для каждой точки в данных. Сплошная линия соединяет 25-й и 75-й процентили в данных, а штриховая линия простирает его до концов данных. Значения оси Y являются вероятностями от нуля до единицы, но шкала не линейная. Расстояние между отметками деления на оси Y совпадает с расстоянием между квантилями нормального распределения. Величины близки друг к другу около медианы (50-й процентиль) и вытягиваются симметрично, когда вы отходите от медианы.
На графике нормальной вероятности, если все точки данных падают вблизи линии, предположение нормальности разумно. В противном случае предположение о нормальности не оправдано. Например, следующая система генерирует выборку данных из 100 случайных чисел из экспоненциального распределения со средним 10 и создает график нормальной вероятности данных.
x = exprnd(10,100,1); normplot(x)
График является убедительным доказательством того, что базовое распределение не является нормальным.
График вероятности, как и график нормальной вероятности, является просто эмпирическим графиком cdf, масштабированным до определенного распределения. Значения оси Y являются вероятностями от нуля до единицы, но шкала не линейная. Расстояние между отметками деления является расстоянием между квантилями распределения. На графике рисуется линия между первым и третьим квартилями в данных. Если данные попадают рядом с линией, разумно выбрать распределение в качестве модели для данных. Анализ распределения обычно сочетает вероятностные графики с тестами гипотез для определенного распределения.
Сгенерируйте выборочные данные и создайте график вероятностей.
Сгенерируйте выборочные данные. Область выборки x1
содержит 500 случайных чисел из распределения Вейбула с параметром шкалы A = 3
и параметры формы B = 3
. Область выборки x2
содержит 500 случайных чисел из распределения Релея с параметром шкалы B = 3
.
rng('default'); % For reproducibility x1 = wblrnd(3,3,[500,1]); x2 = raylrnd(3,[500,1]);
Создайте график вероятности, чтобы оценить, в x1
ли данные и
x2
происходит из распределения Вейбула.
figure probplot('weibull',[x1 x2]) legend('Weibull Sample','Rayleigh Sample','Location','best')
График вероятности показывает, что данные в x1
происходит из распределения Вейбула, в то время как данные в x2
не делает.
Также можно использовать wblplot
чтобы создать график вероятностей Вейбула.
Используйте квантильные (q-q) графики, чтобы определить, происходят ли две выборки из одного семейства распределения. Q-Q-графики являются графиками поля точек квантилей, вычисленных из каждой выборки, с линией, проведенной между первым и третьим квартилями. Если данные падают рядом с линией, разумно предположить, что две выборки происходят из одного и того же распределения. Метод является устойчивым в отношении изменений в местоположении и шкале любого распределения.
Создайте квантильный график при помощи qqplot
функция.
В следующем примере генерируются две выборки данных, содержащие случайные числа из распределений Пуассона с различными значениями параметров, и создается график квантиль-квантиль. Данные в x
получен из распределения Пуассона со средним 10, и данные в y
получен из распределения Пуассона со средним значением 5.
x = poissrnd(10,[50,1]); y = poissrnd(5,[100,1]); qqplot(x,y)
Несмотря на то, что параметры и размеры выборки различны, приблизительная линейная зависимость предполагает, что эти две выборки могут происходить из одного и того же семейства распределения. Как и с нормальными вероятностными графиками, проверки гипотезы могут предоставить дополнительное обоснование для такого предположения. Для статистических процедур, которые зависят от двух выборок, полученных из одного и того же распределения, однако, линейного квантильного графика часто достаточно.
Следующий пример показывает, что происходит, когда базовые распределения не совпадают. Здесь, x
содержит 100 случайных чисел, сгенерированных из нормального распределения со средним 5 и стандартным отклонением 1, в то время как y
содержит 100 случайных чисел, сгенерированных из распределения Вейбула с параметром шкалы 2 и параметром формы 0,5.
x = normrnd(5,1,[100,1]); y = wblrnd(2,0.5,[100,1]); qqplot(x,y)
Графики указывают, что эти выборки явно не из одного семейства распределения.
Эмпирический график функции совокупного распределения (cdf) показывает долю данных, меньше чем или равную каждому значению x, как функцию x. Шкала на оси y линейная; в частности, оно не масштабируется до какого-либо конкретного распределения. Эмпирические графики cdf используются для сравнения данных cdfs с cdfs для конкретных распределений.
Чтобы создать эмпирический график cdf, используйте cdfplot
функцию или ecdf
функция.
Постройте график эмпирического cdf набора выборочных данных и сравните его с теоретическим cdf базового распределения набора выборочных данных. На практике теоретический cdf может быть неизвестен.
Сгенерируйте набор случайных выборочных данных из крайнего распределения значений с параметром местоположения 0 и параметром шкалой 3.
rng('default') % For reproducibility y = evrnd(0,3,100,1);
Постройте график эмпирического cdf набора выборочных данных и теоретического cdf на том же рисунке.
cdfplot(y) hold on x = linspace(min(y),max(y)); plot(x,evcdf(x,0,3)) legend('Empirical CDF','Theoretical CDF','Location','best') hold off
График показывает сходство между эмпирическим cdf и теоретическим cdf.
Также можно использовать ecdf
функция. The ecdf
функция также строит графики 95% доверительных интервалов, оцененных при помощи Формулы Гринвуда. Для получения дополнительной информации смотрите Формулу Гринвуда.
ecdf(y,'Bounds','on') hold on plot(x,evcdf(x,0,3)) grid on title('Empirical CDF') legend('Empirical CDF','Lower Confidence Bound','Upper Confidence Bound','Theoretical CDF','Location','best') hold off
cdfplot
| ecdf
| normplot
| probplot
| qqplot
| wblplot