Сравните несколько подгонок распределения

Скрипт Open Live Script

В этом примере показано, как соответствовать нескольким объектам вероятностного распределения к тому же набору выборочных данных и получить визуальное сравнение того, как хорошо каждое распределение соответствует данным.

Шаг 1. Загрузка демонстрационных данных.

Загрузите выборочные данные.

load carsmall

Эти данные содержат мили на галлон (MPG) измерения для различного делают и модели автомобилей, сгруппированных страной происхождения (Origin), модельный год (Model_Year), и другие характеристики транспортного средства.

Шаг 2. Создайте категориальный массив.

Преобразуйте Origin в категориальный массив и удаляют итальянский автомобиль из выборочных данных. С тех пор существует только один итальянский автомобиль, fitdist не может соответствовать распределению к тому использованию группы кроме ядерного распределения.

Origin = categorical(cellstr(Origin));
MPG2 = MPG(Origin~='Italy');
Origin2 = Origin(Origin~='Italy');
Origin2 = removecats(Origin2,'Italy');

Шаг 3. Соответствуйте нескольким распределениям группой.

Используйте fitdist соответствовать Weibull, нормальному, логистическому, и ядерные распределения каждой группе страны происхождения в MPG данные.

[WeiByOrig,Country] = fitdist(MPG2,'weibull','by',Origin2);
[NormByOrig,Country] = fitdist(MPG2,'normal','by',Origin2);
[LogByOrig,Country] = fitdist(MPG2,'logistic','by',Origin2);
[KerByOrig,Country] = fitdist(MPG2,'kernel','by',Origin2);

WeiByOrig

WeiByOrig=1×5 cell array
  Columns 1 through 2

    {1x1 prob.WeibullDistribution}    {1x1 prob.WeibullDistribution}

  Columns 3 through 4

    {1x1 prob.WeibullDistribution}    {1x1 prob.WeibullDistribution}

  Column 5

    {1x1 prob.WeibullDistribution}

Country

Country = 5x1 cell
    {'France' }
    {'Germany'}
    {'Japan'  }
    {'Sweden' }
    {'USA'    }

У каждой группы страны теперь есть четыре объекта распределения, сопоставленные с ним. Например, массив ячеек WeiByOrig содержит пять объектов распределения Weibull, один для каждой страны, представленной в выборочных данных. Аналогично, массив ячеек NormByOrig содержит пять объектов нормального распределения, и так далее. Каждый объект содержит свойства, которые содержат информацию о данных, распределении и параметрах. Массив Country перечисляет страну происхождения для каждой группы в том же порядке, как объекты распределения хранятся в массивах ячеек.

Шаг 4. Вычислите PDF для каждого распределения.

Извлеките четыре объекта вероятностного распределения для США и вычислите PDF для каждого распределения. Как показано на Шаге 3, США находятся в положении 5 в каждом массиве ячеек.

WeiUSA = WeiByOrig{5};
NormUSA = NormByOrig{5};
LogUSA = LogByOrig{5};
KerUSA = KerByOrig{5};

x = 0:1:50;
pdf_Wei = pdf(WeiUSA,x);
pdf_Norm = pdf(NormUSA,x);
pdf_Log = pdf(LogUSA,x);
pdf_Ker = pdf(KerUSA,x);

Шаг 5. Постройте PDF для каждого распределения.

Постройте PDF для каждой подгонки распределения к данным США, наложенным на гистограмму выборочных данных. Нормируйте гистограмму для более легкого отображения.

Создайте гистограмму выборочных данных США.

data = MPG(Origin2=='USA');
figure
histogram(data,10,'Normalization','pdf','FaceColor',[1,0.8,0]);

Постройте PDF каждого подходящего распределения.

line(x,pdf_Wei,'LineStyle','-','Color','r')
line(x,pdf_Norm,'LineStyle','-.','Color','b')
line(x,pdf_Log,'LineStyle','--','Color','g')
line(x,pdf_Ker,'LineStyle',':','Color','k')
legend('Data','Weibull','Normal','Logistic','Kernel','Location','Best')
title('MPG for Cars from USA')
xlabel('MPG')

Figure contains an axes object. The axes object with title MPG for Cars from USA contains 5 objects of type histogram, line. These objects represent Data, Weibull, Normal, Logistic, Kernel.

Наложение графиков PDF по гистограмме выборочных данных обеспечивает визуальное сравнение того, как хорошо каждый тип распределения соответствует данным. Только непараметрическое ядерное распределение KerUSA близко подходит к раскрытию этих двух режимов в исходных данных.

Шаг 6. Дальнейшая группа данные США к году.

Исследовать эти два режима показало на Шаге 5, сгруппируйте MPG данные обеими странами происхождения (Origin) и модельный год (Model_Year), и использование fitdist соответствовать ядерным распределениям к каждой группе.

[KerByYearOrig,Names] = fitdist(MPG,'Kernel','By',{Origin Model_Year});

Каждая уникальная комбинация источника и модельный год теперь имеет объект ядерного распределения, сопоставленный с ним.

Names

Names = 14x1 cell
    {'France...' }
    {'France...' }
    {'Germany...'}
    {'Germany...'}
    {'Germany...'}
    {'Italy...'  }
    {'Japan...'  }
    {'Japan...'  }
    {'Japan...'  }
    {'Sweden...' }
    {'Sweden...' }
    {'USA...'    }
    {'USA...'    }
    {'USA...'    }

Постройте эти три вероятностных распределения в течение каждого модельного года США, которые находятся в положениях 12, 13, и 14 в массиве ячеек KerByYearOrig.

figure
hold on
for i = 12 : 14
    plot(x,pdf(KerByYearOrig{i},x))
end
legend('1970','1976','1982')
title('MPG in USA Cars by Model Year')
xlabel('MPG')
hold off

Figure contains an axes object. The axes object with title MPG in USA Cars by Model Year contains 3 objects of type line. These objects represent 1970, 1976, 1982.

Когда далее сгруппированный модельным годом, графики PDF показывают два отличных peaks в MPG данные для автомобилей, сделанных в США — один в течение модельного года 1970 и один в течение модельного года 1982. Это объясняет, почему гистограмма для объединенных миль США на данные о галлоне показывает два peaks вместо одного.

Смотрите также

fitdist | pdf | histogram

Документация