Подходящее распределение вероятностей возражает против сгруппированных данных

Этот пример показывает, как соответствовать объектам распределения вероятностей к сгруппированным выборочным данным и создать график визуально сравнить PDF каждой группы.

Шаг 1. Загрузка демонстрационных данных.

Загрузите выборочные данные.

load carsmall;

Данные содержат мили на галлон (MPG), измерения для различного делают и модели автомобилей, сгруппированных страной происхождения (Origin), модельный год (Model_Year) и другие характеристики автомобиля.

Шаг 2. Создайте категориальный массив.

Преобразуйте Origin в категориальный массив.

Origin = categorical(cellstr(Origin));

Шаг 3. Подходящие дистрибутивы ядра каждой группе.

Используйте fitdist, чтобы соответствовать дистрибутивам ядра к каждой группе страны происхождения в данных MPG.

[KerByOrig,Country] = fitdist(MPG,'Kernel','by',Origin)

KerByOrig = 1x6 cell array
  Columns 1 through 2

    {1x1 prob.KernelDistribution}    {1x1 prob.KernelDistribution}

  Columns 3 through 4

    {1x1 prob.KernelDistribution}    {1x1 prob.KernelDistribution}

  Columns 5 through 6

    {1x1 prob.KernelDistribution}    {1x1 prob.KernelDistribution}

Country = 6x1 cell array
    {'France' }
    {'Germany'}
    {'Italy'  }
    {'Japan'  }
    {'Sweden' }
    {'USA'    }

Массив ячеек KerByOrig содержит шесть объектов распределения ядра, один для каждой страны, представленной в выборочных данных. Каждый объект содержит свойства, которые содержат информацию о данных, распределении и параметрах. Массив Country перечисляет страну происхождения для каждой группы в том же порядке как объекты распределения, хранится в KerByOrig.

Шаг 4. Вычислите PDF для каждой группы.

Извлеките объекты распределения вероятностей для Германии, Японии и США. Используйте положения каждой страны в KerByOrig, показанном на Шаге 3, который указывает, что Германия является второй страной, Япония является четвертой страной, и США являются шестой страной. Вычислите PDF для каждой группы.

Germany = KerByOrig{2};
Japan = KerByOrig{4};
USA = KerByOrig{6};

x = 0:1:50;

USA_pdf = pdf(USA,x);
Japan_pdf = pdf(Japan,x);
Germany_pdf = pdf(Germany,x);

Шаг 5. Постройте PDF для каждой группы.

Постройте PDF для каждой группы на той же фигуре.

plot(x,USA_pdf,'r-')
hold on
plot(x,Japan_pdf,'b-.')
plot(x,Germany_pdf,'k:')
legend({'USA','Japan','Germany'},'Location','NW')
title('MPG by Country of Origin')
xlabel('MPG')

Получившийся график показывает, как мили на галлон (MPG) производительность отличаются страной происхождения (Origin). Используя эти данные, США имеют самое широкое распределение, и его пик в самом низком значении MPG этих трех источников. Япония имеет самое регулярное распределение с немного более тяжелым левым хвостом, и его пик в самом высоком значении MPG этих трех источников. Пик для Германии между США и Японией, и второй удар около 44 миль за галлон предполагает, что может быть несколько режимов в данных.

Смотрите также

fitdist | pdf

Документация