Нормальное распределение

Панорама

Нормальное распределение, иногда названное Распределением Гаусса, является семейством кривых 2D параметра. Обычным выравниванием для использования нормального распределения для моделирования является Центральная предельная теорема, которая утверждает (примерно), что сумма независимых выборок от любого распределения с конечным средним значением и отклонением сходится к нормальному распределению, когда объем выборки переходит к бесконечности.

Statistics and Machine Learning Toolbox™ предлагает несколько способов работать с нормальным распределением.

Создайте объект NormalDistribution вероятностного распределения путем строения распределения вероятности к выборочным данным (fitdist) или настройкой значений параметров (makedist). Затем используйте объектные функции, чтобы вычислять распределение, сгенерировать случайные числа, и так далее.
Работа с нормальным распределением в интерактивном режиме при помощи приложения Distribution Fitter. Можно экспортировать объект из приложения и использовать объектные функции.
Используйте специфичные для распределения функции (normcdf, normpdf, norminv, normlike, normstat, normfit, normrnd) с заданными параметрами распределения. Специфичные для распределения функции могут принять параметры нескольких нормальных распределений.
Используйте типовые функции распределения (cdf, icdf, pdf, random) с заданным именем распределения ('Normal') и параметры.

Параметры

Нормальное распределение использует эти параметры.

Параметр	Описание	Поддержка
`mu`(μ)	Среднее значение	$- \infty < μ < \infty$
`sigma`(σ)	Стандартное отклонение	$σ \geq 0$

Стандартное нормальное распределение имеет нулевое среднее значение и модульное стандартное отклонение. Если z стандартный нормальный, то σ z + µ также нормален со средним µ и стандартным отклонением σ. С другой стороны, если x нормален со средним µ и стандартным отклонением σ, то z = (x – µ) / σ стандартный нормальный.

Оценка параметра

Оценки наибольшего правдоподобия (MLEs) являются оценками параметра, которые максимизируют функцию правдоподобия. Средства оценки наибольшего правдоподобия μ и σ ² для нормального распределения, соответственно,

$\bar{x} = \sum_{i = 1}^{n} \frac{x_{i}}{n}$

$s_{MLE}^{2} = \frac{1}{n} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} .$

$\bar{x}$ демонстрационное среднее значение для выборок x ₁, x ₂, …, x _n. Демонстрационное среднее значение является несмещенным средством оценки параметра μ. Однако s ^2MLE является смещенной оценкой параметра σ ², означая, что его ожидаемое значение не равняется параметру.

Минимальное отклонение несмещенное средство оценки (MVUE) обычно используется, чтобы оценить параметры нормального распределения. MVUE является средством оценки, которое имеет минимальное отклонение всех несмещенных средств оценки параметра. MVUEs параметров μ и σ ² для нормального распределения является демонстрационный средний x̄ и демонстрационное отклонение s ², соответственно.

$s^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2}$

Чтобы соответствовать нормальному распределению к данным и найти оценки параметра, используйте normfit, fitdist, или mle.

Для не прошедших цензуру данных, normfit и fitdist найдите объективные оценки и mle находит оценки наибольшего правдоподобия.
Для подвергнутых цензуре данных, normfit, fitdist, и mle найдите оценки наибольшего правдоподобия.

В отличие от normfit и mle, который возвращаемый параметр оценивает, fitdist возвращает подходящий объект NormalDistribution вероятностного распределения. Свойства объектов mu и sigma сохраните оценки параметра.

Для примера сочтите целесообразным Объект Нормального распределения.

Функция плотности вероятности

Нормальная функция плотности вероятности (PDF)

$y = f (x | μ, σ) = \frac{1}{σ \sqrt{2 π}} e^{\frac{- {(x - μ)}^{2}}{2 σ^{2}}}, для x \in ℝ .$

Функцией правдоподобия является PDF, просматриваемый как функция параметров. Оценки наибольшего правдоподобия (MLEs) являются оценками параметра, которые максимизируют функцию правдоподобия для фиксированных значений x.

Для примера смотрите, Вычисляют и График Нормальное распределение PDF.

Кумулятивная функция распределения

Нормальная кумулятивная функция распределения (cdf)

$p = F (x | μ, σ) = \frac{1}{σ \sqrt{2 π}} \int_{- \infty}^{x} e^{\frac{- {(t - μ)}^{2}}{2 σ^{2}}} d t, для x \in ℝ .$

p является вероятностью, что одно наблюдение от нормального распределения параметрами μ и σ падает в интервале (-∞, x].

Стандартная нормальная кумулятивная функция распределения Φ (x) функционально связана с функцией ошибок erf.

$Φ (x) = \frac{1}{2} (1 - erf (- \frac{x}{\sqrt{2}}))$

где

$erf (x) = \frac{2}{\sqrt{π}} \int_{0}^{x} e {}^{- t^{2}}d t = 2 Φ (\sqrt{2} x) - 1.$

Для примера смотрите Нормальное распределение Стандарта Графика cdf

Примеры

Подходящий объект нормального распределения

Скрипт Open Live Script

Загрузите выборочные данные и создайте вектор, содержащий первый столбец студенческих данных о классе экзамена.

load examgrades
x = grades(:,1);

Создайте объект нормального распределения путем подбора кривой ему к данным.

pd = fitdist(x,'Normal')

pd = 
  NormalDistribution

  Normal distribution
       mu = 75.0083   [73.4321, 76.5846]
    sigma =  8.7202   [7.7391, 9.98843]

Интервалы рядом с оценками параметра составляют 95% доверительных интервалов для параметров распределения.

Вычислите и График Нормальное распределение PDF

Скрипт Open Live Script

Вычислите PDF стандартного нормального распределения параметрами $μ$ равняйтесь 0 и $σ$ равняйтесь 1.

x = [-3:.1:3];
y = normpdf(x,0,1);

Постройте PDF.

plot(x,y)

Постройте Стандартное Нормальное распределение cdf

Скрипт Open Live Script

Создайте стандартный объект нормального распределения.

pd = makedist('Normal')

pd = 
  NormalDistribution

  Normal distribution
       mu = 0
    sigma = 1

Задайте x значения и вычисляют cdf.

x = -3:.1:3;
p = cdf(pd,x);

Постройте cdf стандартного нормального распределения.

plot(x,p)

Сравните Гамму и Нормальное распределение pdfs

Скрипт Open Live Script

Гамма распределение имеет параметр формы $a$ и масштабный коэффициент $b$ . Для большого $a$ , гамма распределение тесно аппроксимирует нормальное распределение средним значением $μ = ab$ и отклонение $σ^{2} = a b^{2}$ .

Вычислите PDF гамма распределения параметрами a = 100 и b = 5.

a = 100;
b = 5;
x = 250:750;
y_gam = gampdf(x,a,b);

Для сравнения вычислите среднее значение, стандартное отклонение и PDF нормального распределения, которое аппроксимирует гамма.

mu = a*b

mu = 500

sigma = sqrt(a*b^2)

sigma = 50

y_norm = normpdf(x,mu,sigma);

Постройте pdfs гамма распределения и нормального распределения на той же фигуре.

plot(x,y_gam,'-',x,y_norm,'-.')
title('Gamma and Normal pdfs')
xlabel('Observation')
ylabel('Probability Density')
legend('Gamma Distribution','Normal Distribution')

PDF нормального распределения аппроксимирует PDF гамма распределения.

Отношение между нормальными и логарифмически нормальными распределениями

Скрипт Open Live Script

Если X следует за логарифмически нормальным распределением параметрами µ и σ, то регистрируйте (X), следует за нормальным распределением со средним значением µ и стандартное отклонение σ. Используйте объекты распределения, чтобы смотреть отношение между нормальными и логарифмически нормальными распределениями.

Создайте логарифмически нормальный объект распределения путем определения значений параметров.

pd = makedist('Lognormal','mu',5,'sigma',2)

pd = 
  LognormalDistribution

  Lognormal distribution
       mu = 5
    sigma = 2

Вычислите среднее значение логарифмически нормального распределения.

mean(pd)

ans = 1.0966e+03

Среднее значение логарифмически нормального распределения не равно mu параметр. Среднее значение логарифмических значений равно mu. Подтвердите это отношение путем генерации случайных чисел.

Сгенерируйте случайные числа от логарифмически нормального распределения и вычислите их логарифмические значения.

rng('default');  % For reproducibility
x = random(pd,10000,1);
logx = log(x);

Вычислите среднее значение логарифмических значений.

m = mean(logx)

m = 5.0033

Среднее значение журнала x близко к mu параметр x, потому что x имеет логарифмически нормальное распределение.

Создайте гистограмму logx с подгонкой нормального распределения.

histfit(logx)

График показывает что логарифмические значения x нормально распределены.

histfit использование fitdist соответствовать распределению к данным. Используйте fitdist получить параметры, используемые в подборе кривой.

pd_normal = fitdist(logx,'Normal')

pd_normal = 
  NormalDistribution

  Normal distribution
       mu = 5.00332   [4.96445, 5.04219]
    sigma = 1.98296   [1.95585, 2.01083]

Предполагаемые параметры нормального распределения близко к логарифмически нормальным параметрам распределения 5 и 2.

Сравните `t` Студента и Нормальное распределение pdfs

Скрипт Open Live Script

T распределение Студента является семейством кривых в зависимости от одного параметра ν (степени свободы). Как степени свободы ν бесконечность подхода, t распределение приближается к стандартному нормальному распределению.

Вычислите pdfs для t распределения Студента параметром nu = 5 и t распределение Студента параметром nu = 15.

x = [-5:0.1:5];
y1 = tpdf(x,5);
y2 = tpdf(x,15);

Вычислите PDF для стандартного нормального распределения.

z = normpdf(x,0,1);

Постройте t Студента pdfs и стандартный нормальный PDF на той же фигуре.

plot(x,y1,'-.',x,y2,'--',x,z,'-')
legend('Student''s t Distribution with \nu=5', ...
    'Student''s t Distribution with \nu=15', ...
    'Standard Normal Distribution','Location','best')
xlabel('Observation')
ylabel('Probability Density')
title('Student''s t and Standard Normal pdfs')

Стандартный нормальный PDF имеет более короткие хвосты, чем t Студента pdfs.

Связанные распределения

Биномиальное распределение — биномиальное распределение моделирует общее количество успехов в повторенных испытаниях n с вероятностью успеха p. Когда n увеличивается, биномиальное распределение может быть аппроксимировано нормальным распределением с µ = n p и σ ² = n p (1–p). Смотрите Сравнивают Биномиальное и Нормальное распределение pdfs.
Распределение Бирнбаума-Сондерса — Если x имеет распределение Бирнбаума-Сондерса параметрами β и γ, то

$\frac{(\sqrt{\frac{x}{β}} - \sqrt{\frac{β}{x}})}{γ}$
имеет стандартное нормальное распределение.
Распределение хи-квадрат — распределение хи-квадрат является распределением суммы независимых, стандартных нормальных случайных переменных в квадрате. Если набор n наблюдений нормально распределен с отклонением σ ², и s2 является демонстрационным отклонением, то (n –1) s^2/σ2 имеет распределение хи-квадрат с n –1 степень свободы. normfit функционируйте использует это отношение, чтобы вычислить доверительные интервалы для оценки нормального параметра σ ².
Распределение Экстремума — распределение экстремума подходит для моделирования наименьшего или самого большого значения от распределения, хвосты которого затухают экспоненциально быстро, такой как, нормальное распределение.
Гамма Распределение — гамма распределение имеет параметр формы a и масштабный коэффициент b. Для большого a гамма распределение тесно аппроксимирует нормальное распределение средним μ = a b и отклонение σ ² = a b ². Гамма распределение имеет плотность только для положительных вещественных чисел. Смотрите Сравнивают Гамму и Нормальное распределение pdfs.
Полунормальное распределение — полунормальное распределение является особым случаем свернутых нормальных и усеченных нормальных распределений. Если случайная переменная Z имеет стандартное нормальное распределение, затем $X = μ + σ | Z |$ имеет полунормальное распределение параметрами μ и σ.
Логистическое Распределение — логистическое распределение используется в моделях роста и в логистической регрессии. Это имеет более длинные хвосты и более высокий эксцесс, чем нормальное распределение.
Логарифмически нормальное Распределение — Если X следует за логарифмически нормальным распределением параметрами µ и σ, то регистрируйте (X), следует за нормальным распределением со средним µ и стандартным отклонением σ. Смотрите Отношение Между Нормальными и Логарифмически нормальными Распределениями.
Многомерное Нормальное распределение — многомерное нормальное распределение является обобщением одномерного нормального к двум или больше переменным. Это - распределение для случайных векторов коррелированых переменных, в которых каждый элемент имеет одномерное нормальное распределение. В самом простом случае среди переменных нет никакой корреляции, и элементами векторов являются независимые, одномерные нормальные случайные переменные.
Распределение Пуассона — распределение Пуассона является дискретным распределением с одним параметром, которое принимает неотрицательные целочисленные значения. Параметр, λ, является и средним значением и отклонением распределения. Как увеличение λ, распределение Пуассона может быть аппроксимировано нормальным распределением с µ = λ и σ ² = λ.
Распределение Релея — Распределение Релея является особым случаем распределения Weibull с приложениями в коммуникационной теории. Если скорости компонента частицы в направлениях X и Y являются двумя независимыми нормальными случайными переменными с нулевыми средними значениями и равняются отклонениям, то расстояние перемещения частицы в единицу времени следует за Распределением Релея.
Устойчивое Распределение — нормальное распределение является особым случаем устойчивого распределения. Устойчивое распределение первым параметром формы α = 2 соответствует нормальному распределению.

$N (μ, σ^{2}) = S (2, 0, \frac{σ}{\sqrt{2}}, μ) .$
T Распределение студента — распределение t Студента является семейством кривых в зависимости от одного параметра ν (степени свободы). Как степени свободы ν переходит к бесконечности, распределение t приближается к стандартному нормальному распределению. Смотрите Сравнивают t Студента и Нормальное распределение pdfs.
Если x является случайной выборкой размера n от нормального распределения со средним μ, то статистическая величина

$t = \frac{\bar{x} - μ}{s / \sqrt{n}}$
где $\bar{x}$ демонстрационное среднее значение, и s является демонстрационным стандартным отклонением, имеет распределение t Студента с n –1 степень свободы.
t Распределение Шкалы Местоположения — t распределение шкалы местоположения полезно для моделирования распределений данных с более тяжелыми хвостами (более подверженный выбросам), чем нормальное распределение. Это приближается к нормальному распределению как к параметру формы ν бесконечность подходов.

Ссылки

[1] Abramowitz, M. и я. А. Стегун. Руководство математических функций. Нью-Йорк: Дувр, 1964.

[2] Эванс, M., Н. Гастингс и Б. Пикок. Статистические Распределения. 2-й редактор Хобокен, NJ: John Wiley & Sons, Inc., 1993.

[3] Беззаконный, J. F. Статистические модели и методы для пожизненных данных. Хобокен, NJ: Wiley-межнаука, 1982.

[4] Marsaglia, G. и В. В. Цанг. “Быстрый, Легко Реализованный метод для Выборки от Уменьшения или Симметричных Одномодовых Функций плотности”. SIAM Journal на Научном и Статистическом Вычислении. Издание 5, Номер 2, 1984, стр 349–359.

[5] Более кроткий, W. Q. и Л. А. Эскобар. Статистические методы для данных о надежности. Хобокен, NJ: John Wiley & Sons, Inc., 1998.

Документация