Генерация данных Используя гибкие семейства распределений

В этом примере показано, как сгенерировать данные с помощью систем Пирсона и Джонсона распределений.

Пирсон и системы Джонсона

Как описано в Работе с Вероятностными распределениями, выбирая соответствующее параметрическое семейство распределений, чтобы смоделировать ваши данные может быть на основе априорного или по опыту знания производящего процесса данных, но выбор часто затрудняет. Системы Пирсона и Джонсона могут сделать такой ненужный выбор. Каждая система является гибким параметрическим семейством распределений, которое включает широкий спектр форм распределения, и часто возможно найти распределение в одной из этих двух систем, которая предоставляет хорошее соответствие вашим данным.

Ввод данных

Следующие параметры задают каждый член систем Пирсона и Джонсона.

  • Среднее значение — предполагаемый mean

  • Стандартное отклонение — Предполагаемый std

  • Скошенность — предполагаемый skewness

  • Эксцесс — предполагаемый kurtosis

Эти статистические данные могут также быть вычислены с moment функция. Система Джонсона, в то время как на основе этих четырех параметров, более естественно описана с помощью квантилей, оцененных quantile функция.

pearsrnd и johnsrnd функции берут входные параметры, задающие распределение (параметры или квантили, соответственно), и возвращают тип и коэффициенты распределения в соответствующей системе. Обе функции также генерируют случайные числа от заданного распределения.

Как пример, загрузите данные в carbig.mat, который включает переменную MPG содержа измерения расхода бензина для каждого автомобиля.

load carbig
MPG = MPG(~isnan(MPG));
histogram(MPG,15)

Следующие два раздела моделируют распределение с членами систем Пирсона и Джонсона, соответственно.

Генерация данных Используя систему Пирсона

Статистик Карл Пирсон создал систему или семейство, распределений, который включает уникальное распределение, соответствующее каждой допустимой комбинации среднего значения, стандартного отклонения, скошенности и эксцесса. Если вы вычисляете демонстрационные значения в течение каждого из этих моментов из данных, легко найти распределение в системе Пирсона, которая совпадает с этими четырьмя моментами и сгенерировать случайную выборку.

Система Пирсона встраивает семь основных типов распределения вместе в одной параметрической среде. Это включает общие распределения такой как нормальное и t распределения, простые преобразования стандартных распределений, такие как переключенное и масштабированное бета распределение и обратное гамма распределение, и одно распределение — IV Типа — который не является простым преобразованием никакого стандартного распределения.

Для данного набора моментов существуют распределения, которые не находятся в системе, которые также имеют те те же первые четыре момента, и распределение в системе Пирсона не может быть хорошим соответствием к вашим данным, особенно если данные многомодальны. Но система действительно покрывает широкий спектр форм распределения, и включая симметричные и включая скошенные распределения.

Сгенерировать выборку от распределения Пирсона, которое тесно совпадает с MPG данные, просто вычислите четыре демонстрационных момента и обработайте тех как параметры распределения.

moments = {mean(MPG),std(MPG),skewness(MPG),kurtosis(MPG)};
rng('default')  % For reproducibility
[r,type] = pearsrnd(moments{:},10000,1);

Дополнительный второй выход от pearsrnd указывает, какой тип распределения в системе Пирсона совпадает с комбинацией моментов.

type
type = 1

В этом случае, pearsrnd решил, что данные лучше всего описаны с Типом I распределение Пирсона, которое является переключенным, масштабированным бета распределением.

Проверьте, что выборка напоминает исходные данные путем накладывания эмпирических кумулятивных функций распределения.

ecdf(MPG);
[Fi,xi] = ecdf(r);
hold on;
stairs(xi,Fi,'r');
hold off

Генерация данных Используя систему Джонсона

Статистик Норман Джонсон создал различную систему распределений, которая также включает уникальное распределение для каждой допустимой комбинации среднего значения, стандартного отклонения, скошенности и эксцесса. Однако, поскольку более естественно описать распределения в системе Джонсона с помощью квантилей, работание с этой системой отличается, чем работа с системой Пирсона.

Система Джонсона основана на трех возможных преобразованиях нормальной случайной переменной плюс единичное преобразование. Три нетривиальных случая известны как SL , SU , и SB , соответствие экспоненциальным, логистическим преобразованиям, и гиперболического синуса. Все три могут быть записаны как

X=γ+δΓ(Z-ξλ)

где Z стандартная нормальная случайная переменная, Γ преобразование, и γ, δ, ξ, и λ масштабные коэффициенты и параметры положения. Четвертый случай, SN , единичное преобразование.

Сгенерировать выборку от распределения Джонсона, которое совпадает с MPG данные, сначала задайте эти четыре квантиля, к которым должны быть преобразованы четыре равномерно расположенных с интервалами стандартных нормальных квантиля-1.5,-0.5, 0.5, и 1.5. Таким образом, вы вычисляете демонстрационные квантили данных для интегральных вероятностей 0,067, 0.309, 0.691, и 0.933.

probs = normcdf([-1.5 -0.5 0.5 1.5])
probs = 1×4

    0.0668    0.3085    0.6915    0.9332

quantiles = quantile(MPG,probs)
quantiles = 1×4

   13.0000   18.0000   27.2000   36.0000

Затем обработайте те квантили как параметры распределения.

[r1,type] = johnsrnd(quantiles,10000,1);

Дополнительный второй выход от johnsrnd указывает, какой тип распределения в системе Джонсона совпадает с квантилями.

type
type = 
'SB'

Можно проверить, что выборка напоминает исходные данные путем накладывания эмпирических кумулятивных функций распределения.

ecdf(MPG);
[Fi,xi] = ecdf(r1);
hold on;
stairs(xi,Fi,'r');
hold off

В некоторых приложениях может быть важно совпадать с квантилями лучше в некоторых областях данных, чем в других. Чтобы сделать это, задайте четыре равномерно расположенных с интервалами стандартных нормальных квантиля, в которых вы хотите совпадать с данными, вместо значения по умолчанию-1.5,-0.5, 0.5, и 1.5. Например, вы можете заботиться больше о соответствии с данными в правом хвосте, чем в левых, и таким образом, вы задаете стандартные нормальные квантили, который подчеркивает правый хвост.

qnorm = [-.5 .25 1 1.75];
probs = normcdf(qnorm);
qemp = quantile(MPG,probs);
r2 = johnsrnd([qnorm; qemp],10000,1);

Однако, в то время как новая выборка совпадает с исходными данными лучше в правом хвосте, это соответствует намного хуже в левом хвосте.

[Fj,xj] = ecdf(r2);
hold on;
stairs(xj,Fj,'g');
hold off

Смотрите также

| |