Графики распределения визуально оценивают распределение выборочных данных путем сравнения эмпирического распределения данных с теоретическими значениями, ожидаемыми от заданного распределения. Используйте графики распределения в дополнение к более формальным тестам гипотезы, чтобы определить, прибывают ли выборочные данные из заданного распределения. Чтобы узнать о тестах гипотезы, см., что Гипотеза Тестирует.
Statistics and Machine Learning Toolbox™ предлагает несколько опций графика распределения:
Графики нормального распределения — использование normplot
оценить, прибывают ли выборочные данные из нормального распределения. Использование probplot
создать Графики Вероятности для распределений кроме нормального, или исследовать распределение подвергнутых цензуре данных.
Графики квантиля квантиля — использование qqplot
оценить, происходят ли два набора выборочных данных из той же семьи распределения. Этот график устойчив относительно различий в местоположении и шкале.
Графики кумулятивного распределения — использование cdfplot
или ecdf
отобразить эмпирическую кумулятивную функцию распределения (cdf) выборочных данных для визуального сравнения с теоретическим cdf заданного распределения.
Используйте графики нормального распределения, чтобы оценить, прибывают ли данные из нормального распределения. Много статистических процедур делают предположение, что базовое распределение нормально. Графики нормального распределения могут обеспечить некоторое обеспечение, чтобы выровнять по ширине это предположение или предоставить предупреждению проблем с предположением. Анализ нормальности обычно комбинирует графики нормального распределения с тестами гипотезы для нормальности.
Этот пример генерирует выборку данных 25 случайных чисел от нормального распределения со средним значением 10 и стандартное отклонение 1 и создает график нормального распределения данных.
rng('default'); % For reproducibility x = normrnd(10,1,[25,1]); normplot(x)
Знаки "плюс" строят эмпирическую вероятность по сравнению со значением данных для каждой точки в данных. Сплошная линия соединяет 25-е и 75-е процентили в данных, и пунктирная линия расширяет его к концам данных. Значения оси Y являются вероятностями от нуля до одного, но шкала не линейна. Расстояние между отметками деления на оси Y совпадает с расстоянием между квантилями нормального распределения. Квантили близко друг к другу около медианы (50-я процентиль) и растягиваются симметрично, когда вы переезжаете от медианы.
В графике нормального распределения, если все точки данных падают около линии, предположение о нормальности разумно. В противном случае предположение о нормальности не выравнивается по ширине. Например, следующее генерирует выборку данных 100 случайных чисел от экспоненциального распределения со средним значением 10 и создает график нормального распределения данных.
x = exprnd(10,100,1); normplot(x)
График является убедительными доказательствами, что базовое распределение не нормально.
График вероятности, как график нормального распределения, является только эмпирическим графиком cdf, масштабируемым к конкретному распределению. Значения оси Y являются вероятностями от нуля до одного, но шкала не линейна. Расстояние между отметками деления является расстоянием между квантилями распределения. В графике линия является соединяющей первые и третьи квартили в данных. Если данные падают около линии, разумно выбрать распределение в качестве модели для данных. Анализ распределения обычно построил графики вероятности с тестами гипотезы для конкретного распределения.
Сгенерируйте выборочные данные и создайте график вероятности.
Сгенерируйте выборочные данные. Демонстрационный x1
содержит 500 случайных чисел от распределения Weibull с масштабным коэффициентом A = 3
и сформируйте параметр B = 3
. Демонстрационный x2
содержит 500 случайных чисел от Распределения Релея с масштабным коэффициентом B = 3
.
rng('default'); % For reproducibility x1 = wblrnd(3,3,[500,1]); x2 = raylrnd(3,[500,1]);
Создайте график вероятности оценить ли данные в x1
и x2
прибывает из распределения Weibull.
figure probplot('weibull',[x1 x2]) legend('Weibull Sample','Rayleigh Sample','Location','best')
График вероятности показывает что данные в x1
прибывает из распределения Weibull, в то время как данные в x2
не делает.
В качестве альтернативы можно использовать wblplot
создать график вероятности Weibull.
Используйте квантиль квантиля (q-q) графики определить, происходят ли две выборки из той же семьи распределения. Графики Q-Q являются графиками рассеивания квантилей, вычисленных из каждой выборки с линией, соединяющей первые и третьи квартили. Если данные падают около линии, разумно принять, что эти две выборки прибывают из того же распределения. Метод устойчив относительно изменений в месте и шкале любого распределения.
Создайте график квантиля квантиля при помощи qqplot
функция.
Следующий пример генерирует две выборки данных, содержащие случайные числа от распределений Пуассона с различными значениями параметров, и создает график квантиля квантиля. Данные в x
от распределения Пуассона со средним значением 10, и данные в y
от распределения Пуассона со средним значением 5.
x = poissrnd(10,[50,1]); y = poissrnd(5,[100,1]); qqplot(x,y)
Даже при том, что параметры и объемы выборки отличаются, аппроксимированное линейное соотношение предполагает, что эти две выборки могут происходить из той же семьи распределения. Как с графиками нормального распределения, тесты гипотезы могут обеспечить дополнительное выравнивание для такого предположения. Для статистических процедур, которые зависят от этих двух выборок, прибывающих из того же распределения, однако, линейный график квантиля квантиля часто достаточен.
Следующий пример показывает то, что происходит, когда базовые распределения различные. Здесь, x
содержит 100 случайных чисел, сгенерированных от нормального распределения со средним значением 5 и стандартное отклонение 1, в то время как y
содержит 100 случайных чисел, сгенерированных от распределения Weibull с масштабным коэффициентом 2 и параметром формы 0,5.
x = normrnd(5,1,[100,1]); y = wblrnd(2,0.5,[100,1]); qqplot(x,y)
Графики показывают, что эти выборки ясно не от того же семейства распределений.
Эмпирическая кумулятивная функция распределения (cdf) график показывает пропорцию данных, меньше чем или равных каждому x значению, в зависимости от x. Шкала на оси Y линейна; в частности, это не масштабируется ни к какому конкретному распределению. Эмпирические графики cdf используются, чтобы сравнить данные cdfs с cdfs для конкретных распределений.
Чтобы создать эмпирический график cdf, используйте cdfplot
функционируйте или ecdf
функция.
Постройте эмпирический cdf набора выборочных данных и сравните его с теоретическим cdf базового распределения набора выборочных данных. На практике теоретический cdf может быть неизвестным.
Сгенерируйте набор данных случайной выборки от распределения экстремума с параметром положения 0 и масштабным коэффициентом 3.
rng('default') % For reproducibility y = evrnd(0,3,100,1);
Постройте эмпирический cdf набора выборочных данных и теоретический cdf на той же фигуре.
cdfplot(y) hold on x = linspace(min(y),max(y)); plot(x,evcdf(x,0,3)) legend('Empirical CDF','Theoretical CDF','Location','best') hold off
График показывает подобие между эмпирическим cdf и теоретическим cdf.
В качестве альтернативы можно использовать ecdf
функция. ecdf
функционируйте также строит 95% доверительных интервалов, оцененных при помощи Формулы Гринвуда. Для получения дополнительной информации смотрите Формулу Гринвуда.
ecdf(y,'Bounds','on') hold on plot(x,evcdf(x,0,3)) grid on title('Empirical CDF') legend('Empirical CDF','Lower Confidence Bound','Upper Confidence Bound','Theoretical CDF','Location','best') hold off
cdfplot
| ecdf
| normplot
| probplot
| qqplot
| wblplot