Соответствие объектов распределения вероятностей сгруппированным данным

Открыть сценарий в реальном времени

В этом примере показано, как подогнать объекты распределения вероятностей к сгруппированным данным выборки и создать график для визуального сравнения pdf каждой группы.

Шаг 1. Загрузить данные образца.

Загрузите образцы данных.

load carsmall;

Данные содержат мили на галлон (MPG) измерения для различных марок и моделей автомобилей, сгруппированных по стране происхождения (Origin), модельный год (Model_Year) и другие характеристики транспортного средства.

Шаг 2. Создание категориального массива.

Преобразовать Origin в категориальный массив.

Origin = categorical(cellstr(Origin));

Шаг 3. Подберите распределения ядра для каждой группы.

Использовать fitdist для соответствия распределениям ядра для каждой страны происхождения группы в MPG данные.

[KerByOrig,Country] = fitdist(MPG,'Kernel','by',Origin)

KerByOrig=1×6 cell array
  Columns 1 through 2

    {1x1 prob.KernelDistribution}    {1x1 prob.KernelDistribution}

  Columns 3 through 4

    {1x1 prob.KernelDistribution}    {1x1 prob.KernelDistribution}

  Columns 5 through 6

    {1x1 prob.KernelDistribution}    {1x1 prob.KernelDistribution}

Country = 6x1 cell
    {'France' }
    {'Germany'}
    {'Italy'  }
    {'Japan'  }
    {'Sweden' }
    {'USA'    }

Массив ячеек KerByOrig содержит шесть объектов распределения ядра, по одному для каждой страны, представленной в образце данных. Каждый объект содержит свойства, содержащие информацию о данных, распределении и параметрах. Множество Country перечисляет страну происхождения для каждой группы в том же порядке, в котором хранятся объекты распределения KerByOrig.

Шаг 4. Вычислите pdf для каждой группы.

Извлеките объекты распределения вероятностей для Германии, Японии и США. Использовать позиции каждой страны в KerByOrig показано на шаге 3, который указывает, что Германия - вторая страна, Япония - четвертая страна, а США - шестая страна. Вычислите pdf для каждой группы.

Germany = KerByOrig{2};
Japan = KerByOrig{4};
USA = KerByOrig{6};

x = 0:1:50;

USA_pdf = pdf(USA,x);
Japan_pdf = pdf(Japan,x);
Germany_pdf = pdf(Germany,x);

Шаг 5. Постройте график pdf для каждой группы.

Постройте график pdf для каждой группы на одном рисунке.

plot(x,USA_pdf,'r-')
hold on
plot(x,Japan_pdf,'b-.')
plot(x,Germany_pdf,'k:')
legend({'USA','Japan','Germany'},'Location','NW')
title('MPG by Country of Origin')
xlabel('MPG')

Figure contains an axes. The axes with title MPG by Country of Origin contains 3 objects of type line. These objects represent USA, Japan, Germany.

Полученный график показывает, как мили на галлон (MPG) различается в зависимости от страны происхождения (Origin). Используя эти данные, США имеют самое широкое распространение, а его пик находится на самом низком MPG значение трех источников. Япония имеет самое регулярное распространение с немного более тяжелым левым хвостом, и его пик находится на самом высоком уровне MPG значение трех источников. Пик для Германии - между США и Японией, и второй удар около 44 миль на галлон говорит о том, что в данных может быть несколько режимов.

См. также

fitdist | pdf

Документация