Байесова линейная регрессия

Линейная регрессия является статистическим инструментом, используемым к:

  • Изучите линейные зависимости или влияния переменных predictor или explanatory на переменных response.

  • Предскажите или предскажите будущие ответы, данные будущие данные о предикторе.

Модель multiple linear regression (MLR)

yt=xtβ+εt.

В течение многих времен t = 1..., T:

  • yt является наблюдаемым ответом.

  • xt является 1 на (p + 1) вектор-строка из наблюдаемых величин предикторов p. Размещать прерывание модели, x 1t = 1 для всего t.

  • β (p + 1)-by-1 вектор-столбец коэффициентов регрессии, соответствующих переменным, которые составляют столбцы xt.

  • εt является случайным воздействием, которые имеют среднее значение нуля и Cov (ε) = Ω. В общем случае Ω является T-by-T симметричная, положительная определенная матрица. Для простоты примите, что воздействия являются некоррелироваными и имеют общее отклонение, то есть, Ω = σ 2IT×T.

Значения β представляют ожидаемые крайние вклады соответствующих предикторов к yt. Когда предиктор увеличения xj одним модулем, y, как ожидают, увеличится модулями βj, принимая, что все другие переменные считаются зафиксированные. εt является случайным различием между истинным и ожидаемым ответом во время t.

Классический по сравнению с байесовыми исследованиями

Чтобы изучить линейные влияния предикторов на ответе или создать прогнозирующий MLR, необходимо сначала оценить параметры β и σ 2. статистики Frequentist используют классический подход к оценке, то есть, они обрабатывают параметры, как зафиксировано, но неизвестные количества. Популярные частотные инструменты оценки включают наименьшие квадраты и наибольшее правдоподобие. Если воздействия являются независимыми, гомоскедастичными, и Гауссовыми или нормальными (Statistics and Machine Learning Toolbox), то наименьшие квадраты и наибольшее правдоподобие дают к эквивалентным оценкам. Выводы, такие как доверительные интервалы на оценках параметра или интервалах прогноза, основаны на распределении воздействий. Для больше на частотном подходе к анализу MLR, смотрите Регрессию Временных рядов I: Линейные Модели или [6], Ch. 3. Большинство инструментов в Econometrics Toolbox™ частотно.

Подход Bayesian к оценке и выводу моделей MLR обрабатывает β и σ 2 как случайные переменные, а не зафиксированные, неизвестные количества. В общем случае цель Байесового анализа состоит в том, чтобы обновить вероятностные распределения параметров путем слияния информации о параметрах от наблюдения данных. До выборки данных у вас есть некоторые верования о совместном распределении параметров. После выборки вы комбинируете вероятность, вызванную распределением данных с вашими предшествующими верованиями составить объединенное условное распределение параметров, учитывая данные. Функциями и функциями получившегося распределения является основание для оценки и вывода.

Основные байесовы аналитические компоненты

Одна из главных целей Байесового анализа состоит в том, чтобы вычислить, или выборка от, posterior distribution (или posterior). Следующее является распределением параметров, обновленных с помощью (или данный) данные, и состоит из этих количеств:

  • likelihood function — информация, которую выборка предоставляет о параметрах. Если вы берете случайную выборку, то вероятность для MLR

    (β,σ2|y,x)=t=1TP(yt|xt,β,σ2).

    P(yt|xt,β,σ2) функция плотности условной вероятности yt, учитывая параметры и вызванный условным распределением εt. Обычно, xt является фиксированным количеством. Если воздействия являются независимыми, гомоскедастичными, и Гауссовыми, то

    (β,σ2|y,x)=t=1Tϕ(yt;xtβ,σ2).

    ϕ (yt; xtβ, σ 2) является Гауссовой плотностью вероятности со средним xtβ и отклонением σ 2, оцененный в yt.

  • Prior distributions (или priors) на параметрах — распределение параметров, которые вы принимаете прежде, чем наблюдать данные. Наложение предшествующих предположений распределения на параметрах имеет преимущество перед частотными исследованиями: уголовное прошлое позволяет вам включать знание о модели прежде, чем просмотреть данные. Можно управлять уверенностью в знании о параметре путем корректировки предшествующего отклонения. Определение высокого отклонения подразумевает, что вы знаете очень мало о параметре, и вы хотите взвесить информацию в данных о параметрах в большей степени. Определение низкого отклонения подразумевает высокую уверенность в вашем знании о параметре, и вы хотите объяснить то знание в анализе.

    На практике вы используете уголовное прошлое в удобстве, а не следовать за мнением исследователя о фактическом распределении параметров. Например, можно выбрать уголовное прошлое так, чтобы соответствующее апостериорное распределение было в том же семействе распределений. Эти предшествующие следующие пары называются распределениями conjugate. Однако выбор уголовного прошлого может влиять на оценку и вывод, таким образом, необходимо выполнить анализ чувствительности с оценкой.

    Уголовное прошлое может содержать параметры, названные hyperparameters, который может иметь сами вероятностные распределения. Такие модели называются hierarchical Bayesian models.

    Для MLR предшествующие распределения обычно обозначаются как π (β) и π (σ 2). Популярным выбором является normal-inverse-gamma conjugate model, в котором π (β |σ2) является многомерным Гауссовым или многомерным, нормальным (Statistics and Machine Learning Toolbox), распределение и π (σ 2) являются обратным гамма распределением.

Можно содержать объединенное апостериорное распределение β и σ Правило 2 использующего Бейеса, то есть,

π(β,σ2|y,x)=π(β)π(σ2)(β,σ2|y,x)β,σ2π(β)π(σ2)(β,σ2|y,x)dβdσ2π(β)π(σ2)(β,σ2|y,x).

Если β зависит от σ 2, то его предшествующее должно быть заменено π (β |σ2). Знаменатель является распределением ответа, учитывая предикторы, и это становится константой после того, как вы наблюдаете y. Поэтому следующее часто пишется как являющийся пропорциональным числителю.

Следующее похоже на любое другое объединенное вероятностное распределение случайных переменных, и оно содержит всю информацию, известную о параметрах после того, как вы включаете данные. Оценки параметра и выводы базируются в основном на интегралах функций параметров относительно апостериорного распределения.

Следующая оценка и вывод

Следующая оценка и вывод включают объединяющиеся функции параметров относительно следующего. Популярные средства оценки и выводы для параметров MLR включают следующее:

  • Ожидаемое значение β, учитывая данные

    β^=E(β|y,x)=β,σ2βπ(β,σ2|y,x)dβdσ2.

    Это количество обеспечивает естественную интерпретацию и является минимальным средством оценки среднеквадратической ошибки (MSE), то есть, это минимизирует E[(β^β)2|y,x]. Медиана, режим или квантиль могут быть средствами оценки Бейеса относительно других потерь.

  • maximum a priori estimate (MAP) — Значение параметра, который максимизирует апостериорное распределение.

  • Учитывая данные, предсказанный ответ y^ из предиктора x^ случайная переменная с posterior predictive distribution

    π(y^|y,x,x^)=β,σ2f(y^|β,σ,x^)π(β,σ2|y,x)dβdσ2.

    Можно просмотреть это количество как условное ожидаемое значение вероятностного распределения y относительно апостериорного распределения параметров.

  • 95%-й доверительный интервал на β (или credible interval) — установил S, таким образом что P (βS |y, x) = 0.95. Это уравнение дает бесконечно ко многим интервалам, включая:

    • Equitailed interval, который является интервалом (L, U) таким образом что P (β <L |y, x) = 0.025 и P (β> U |y, x) = 0.025.

    • Highest posterior density (HPD) область, которая является самым узким интервалом (или интервалами) получение заданной вероятности. Это обязательно содержит самые большие следующие значения.

    В отличие от интерпретации частотных доверительных интервалов, интерпретация Байесовых доверительных интервалов - это, учитывая данные, вероятность, что случайный β находится в интервале (интервалах), который S 0.95. Эта интерпретация интуитивна, который является преимуществом Байесовых доверительных интервалов по частотным доверительным интервалам.

  • Крайние апостериорные вероятности переменного включения, также названного вероятностями режима, результат реализации стохастического поискового выбора переменной (SSVS) и, указывают, незначительны ли переменные предикторы или избыточны в Байесовой модели линейной регрессии. В SSVS β имеет многомерное, двухкомпонентное Гауссово распределение смеси. Оба компонента имеют среднее значение нуля, но один компонент имеет большое отклонение, и другой компонент имеет небольшое отклонение. Незначительные предикторы, вероятно, будут близко к нулю; поэтому, они от компонента с небольшим отклонением. Выборки SSVS от пробела 2p + 1 сочетание модели, каждое сочетание включает или исключает коэффициент, и модели с самой высокой следующей плотностью производятся чаще. Вероятности режима выведены из произведенных моделей.

Методы интегрирования зависят от функциональной формы продукта π(β)π(σ2)(β,σ2|y,x) и подынтегральное выражение, например, h (β, σ 2).

  • Если продукт формирует ядро из известного вероятностного распределения, то интегралы h (β, σ 2) относительно следующего могут быть аналитически послушными. Известные ядра часто возникают, когда вы выбираете уголовное прошлое и последующее поколение, чтобы сформировать сопряженные пары. В этих случаях обычно известны первые несколько моментов распределения, и оценки базируются от них. Для получения дополнительной информации на аналитически послушных апостериорных распределениях, предлагаемых Байесовой средой модели линейной регрессии в Econometrics Toolbox, смотрите Аналитически Послушное Последующее поколение.

  • В противном случае необходимо использовать методы численного интегрирования, чтобы вычислить интегралы h (β, σ 2) относительно апостериорных распределений. При определенных обстоятельствах можно реализовать численное интегрирование с помощью Monte Carlo или Markov chain Monte Carlo (MCMC) выборка.

    • Чтобы выполнить оценку Монте-Карло, вы чертите много выборок от вероятностного распределения, применяетесь, соответствующая функция каждому чертят (h (β, σ 2) фактор в функции), и насчитайте получившиеся ничьи, чтобы аппроксимировать интеграл. Популярный Метод Монте-Карло производит важность, передискретизирующую [6].

    • Вы реализуете MCMC, когда вы не знаете вероятностное распределение до константы, или вы знаете условные распределения всех параметров, по крайней мере, до константы. Популярные методы MCMC включают Гиббс, производящий [2], алгоритм Гастингса Столицы [5], и срез, производящий [9].

    Для получения дополнительной информации на следующей оценке Байесовой модели линейной регрессии в Econometrics Toolbox, когда следующее будет тяжело, смотрите Аналитически Тяжелое Последующее поколение.

Аналитически послушное последующее поколение

Байесова среда линейной регрессии в Econometrics Toolbox предлагает несколько предшествующих спецификаций модели, которые дают к аналитически послушному, сопряженному крайнему или условному последующему поколению. Эта таблица идентифицирует предшествующие модели и их соответствующее последующее поколение. Когда вы передаете предшествующую модель и данные к estimate, MATLAB® использует эти формулы. Когда программное обеспечение создает последующее поколение, оно принимает, что данные об ответе yt, t = 1..., T, являются случайной выборкой от Распределения Гаусса со средним xtβ и отклонением σ 2.

Предшествующий объект моделиУголовное прошлоеКрайнее последующее поколениеУсловное последующее поколение
conjugateblm

β|σ2~Np+1(μ,σ2V).σ2~IG(A,B).

β и σ 2 независимы.

β|y,x~tp+1((V1+XX)1[(XX)β^+V1μ],2B1+(yXβ^)(yXβ^)+(β^μ)[V+(XX)1]1(β^μ)2A+T,2A+T).σ2|y,x~IG(A+T2,[B1+12(yXβ^)(yXβ^)+12(β^μ)[V+(XX)1]1(β^μ)]1).

β|σ2,y,x~Np+1((V1+XX)1[(XX)β^+V1μ],σ2(V1+XX)1).σ2|β,y,x~IG(A+T+p+12,[B1+12(yXβ)(yXβ)+12(βμ)V1(βμ)]1).
semiconjugateblm

β|σ2~Np+1(μ,V).σ2~IG(A,B).

β и σ 2 зависят.

Аналитически тяжелый

β|σ2,y,x~Np+1((V1+σ2XX)1[σ2(XX)β^+V1μ],(V1+XX)1).σ2|β,y,x~IG(A+T2,[B1+12(yXβ)(yXβ)]1).

diffuseblm

Объединенный предшествующий PDF

fβ,σ2(β,σ2)1σ2.

β|y,x~tp+1(β^,(yXβ^)(yXβ^)Tp1(XX)1,Tp1).σ2|y,x~IG(Tp12,[12(yXβ^)(yXβ^)]1).

β|σ2,y,x~Np+1(β^,σ2(XX)1).σ2|β,y,x~IG(T2,[12(yXβ)(yXβ)]1).

mixconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjσVj1Z1+(1γj)σVj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Несмотря на то, что крайнее последующее поколение аналитически послушно, MATLAB обрабатывает их как тяжелых для масштабируемости (см. [1]).

Аналитически послушный, если γj и γk независимы для всего jk

γj|β,γj,σ2,X,y~Бернулли(ajaj+bj);j=1,...,p+1.j,aj=P(γj=1)ϕ(0,σ2Vj1).j,bj=P(γj=0)ϕ(0,σ2Vj2).β|σ2,γ,X,y~Np+1((V1+XX)1XY,σ2(V1+XX)1).σ2|β,γ,X,y~IG(A+T+p+12,[B1+12(yXβ)(yXβ)+12βV1β]1).

mixsemiconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjVj1Z1+(1γj)Vj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Аналитически тяжелый

Аналитически послушный, если γj и γk независимы для всего jk

γj|β,γj,σ2,X,y~Бернулли(ajaj+bj);j=1,...,p+1.j,aj=P(γj=1)ϕ(0,Vj1).j,bj=P(γj=0)ϕ(0,Vj2).β|σ2,γ,X,y~Np+1((V1+σ2XX)1XY,(V1+σ2XX)1).σ2|β,γ,X,y~IG(A+T2,[B1+12(yXβ)(yXβ)]1).

lassoblm

βj|σ2,λ~Лаплас(0,σ/λ);j=0,..,p.σ2~IG(A,B).

Коэффициенты независимы, априорно.

Аналитически тяжелый

1ψj|βj,σ2,λ~InvGaussian(σλ/|βj|,λ2);j=1,...,p+1.D=diag(ψ1,...,ψp+1).β|σ2,λ,X,y,ψ~Np+1((XX+D)1Xy,σ2(XX+D)1).σ2|β,X,y,ψ~IG(A+T+p+12,[B1+12(yXβ)(yXβ)+12βDβ]1).

В таблице:

  • N, который p +1 (m, Σ) обозначает (p + 1) - размерное многомерное нормальное распределение, где m является средним значением ((p + 1)-by-1 вектор) и Σ, является отклонением ((p + 1) (p + 1) симметричная, положительная определенная матрица).

  • IG (A, B) обозначает обратное гамма распределение с формой A> 0 и шкала B> 0. PDF IG (A, B)

    f(x;A,B)=1Γ(A)BAxA1e1xB.

  • X является T (p + 1) матрица данных о предикторе, то есть, xjk является наблюдением j предиктора k. Первый столбец составлен полностью из единиц для прерывания.

  • y является T-by-1 вектор ответов.

  • t, который p +1 (m, Σ, ν) обозначает (p + 1) - размерное многомерное распределение t, где m является местоположением, Σ, является шкалой, и ν является степенями свободы.

  • β^=(XX)1Xy, то есть, оценка наименьших квадратов β.

  • V *j1 является предшествующим фактором отклонения (mixconjugate) или отклонение (mixsemiconjugate) из βj, когда γj = 1, и V *j2 является своим предшествующим фактором отклонения или отклонением когда γj = 0.

  • V* (p + 1) (p + 1) диагональная матрица и элемент j, j является γj V *j1 + (1 – γj) V *j2.

  • mixconjugateblm и mixsemiconjugateblm модели поддерживают предшествующие средние спецификации для β кроме нулевого вектора по умолчанию для обоих компонентов смешанной гауссовской модели. Если вы изменяете предшествующий средний β по умолчанию, то соответствующие условные апостериорные распределения включают предшествующие средние значения таким же образом что условные апостериорные распределения conjugateblm и semiconjugateblm модели включают предшествующие средние значения.

  • λ является фиксированным параметром уменьшения лассо.

  • InvGaussian (m, v) обозначает инверсию, Гауссову (Вальд) со средним m и формой v.

Аналитически тяжелое последующее поколение

Байесова среда линейной регрессии в Econometrics Toolbox предлагает несколько предшествующих спецификаций модели, которые дают к аналитически тяжелому, но гибкому, крайнему и условному последующему поколению. Эта таблица идентифицирует предшествующие модели и Монте-Карло, производящий методы, что использование MATLAB, чтобы выполнить следующую оценку, симуляцию и вывод, когда вы передаете предшествующую модель и данные к estimate, simulate, или forecast.

Предшествующий объект моделиУголовное прошлоеМетод симуляции для следующего крайнегоМетод симуляции для следующего условного выражения
semiconjugateblm

β|σ2~Np+1(μ,V).σ2~IG(A,B).

β и σ 2 зависят.

Сэмплер Гиббса [2]Следующее условное выражение аналитически послушно
empiricalblmОхарактеризованный ничьими от соответствующих предшествующих распределенийВыборка важности, передискретизирующей [4]Не поддерживаемый
customblmОхарактеризованный объединенным PDF. в заявленной функции
  • Гамильтонов сэмплер Монте-Карло [8]

  • Случайный сэмплер Столицы обхода [7]

  • Сэмплер среза [9]

  • Гамильтонов сэмплер Монте-Карло

  • Случайный сэмплер Столицы обхода

  • Сэмплер среза

mixconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjσVj1Z1+(1γj)σVj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Сэмплер Гиббса [1]Следующее условное выражение аналитически послушно
mixsemiconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjVj1Z1+(1γj)Vj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Сэмплер Гиббса [1]Следующее условное выражение аналитически послушно
lassoblm

βj|σ2,λ~Лаплас(0,σ/λ);j=0,..,p.σ2~IG(A,B).

Коэффициенты независимы, априорно.

Сэмплер Гиббса [10] Следующее условное выражение аналитически послушно

Ссылки

[1] Джордж, E. I. и Р. Э. Маккалок. "Выбор переменной Через Гиббс, Производящий". Журнал американской Статистической Ассоциации. Издание 88, № 423, 1993, стр 881–889.

[2] Gelfand, A. E. и А. Ф. М. Смит. “Основанные на выборке Подходы к Вычислению Крайней Плотности”. Журнал американской Статистической Ассоциации. Издание 85, 1990, стр 398–409.

[3] Джелмен, A., Дж. Б. Карлин, Х. С. Стерн и Д. Б. Рубин. Байесов анализ данных, 2-й. Эд. Бока-Ратон, FL: Chapman & Hall/CRC, 2004.

[4] Гордон, N. J. Д. Дж. Салмонд и А. Ф. М. Смит. "Новый Подход к Байесовой Оценке состояния Nonlinear/Non-Gaussian". Продолжения IEEE F на Радаре и Обработке сигналов. Издание 140, 1993, стр 107–113.

[5] Гастингс, W. K. “Методы Выборки Монте-Карло Используя Цепи Маркова и Их Приложения”. Biometrika. Издание 57, 1970, стр 97–109.

[6] Марин, J. M. и К. П. Роберт. Байесово ядро: практический подход к вычислительной байесовой статистике. Нью-Йорк: СМИ Спрингера Science+Business, LLC, 2007.

[7] Столица, N., А. В. Розенблат, М. Н. Розенблат, A. H. Кассир и E. Кассир. "Уравнения Вычислений состояния Быстрым Компьютером". Дж. Чем. Физика. Издание 21, 1953, стр 1087–1091.

[8] Нил, R. M. "MCMC использование гамильтоновой динамики". В С. Бруксе, А. Джелмене, Г. Джонсе и X.-L. Мэн (редакторы). Руководство Цепи Маркова Монте-Карло. Бока-Ратон, FL: Chapman & Hall/CRC, 2011.

[9] Нил, R. M. “Выборка среза”. Летопись Статистики. Издание 31, 2003, стр 705–767.

[10] Припаркуйтесь, T. и Г. Казелла. "Байесово Лассо". Журнал американской Статистической Ассоциации. Издание 103, № 482, 2008, стр 681–686.

Смотрите также

| | | | | | |

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте