Байесовская линейная регрессия

Линейная регрессия является статистическим инструментом, используемым для:

  • Исследуйте линейные зависимости или влияния predictor или explanatory переменных на переменные response.

  • Прогнозируйте или прогнозируйте будущие ответы, учитывая будущие данные предиктора.

Модель multiple linear regression (MLR) является

yt=xtβ+εt.

Для времен t = 1,..., T:

  • yt - наблюдаемая реакция.

  • xt является 1-бай- (p + 1) вектором-строкой наблюдаемых значений p предикторов. Чтобы разместить точку пересечения модели, x 1 t = 1 для всех t.

  • β является (p + 1) -на-1 вектор-столбец коэффициентов регрессии, соответствующих переменным, которые составляют столбцы xt.

  • εt - это случайное нарушение порядка, которое имеет среднее значение нуля и Cov (ε) = Ω. В целом Ω является T -by T симметричной, положительно определенной матрицей. Для простоты предположим, что нарушения порядка являются некоррелированными и имеют общее отклонение, то есть Ω = σ2<reservedrangesplaceholder2> <reservedrangesplaceholder1> × <reservedrangesplaceholder0>.

Значения β представляют ожидаемые предельные вклады соответствующих предикторов в yt. Когда xj предиктора увеличивается на один модуль, ожидается, что y увеличится на βj модулей, если предположить, что все другие переменные сохранены фиксированными. εt - это случайное различие между истинным и ожидаемым откликом в момент t.

Классический и байесовский анализы

Чтобы изучить линейные влияния предикторов на ответ или создать прогнозирующий MLR, вы должны сначала оценить параметры β и σ2. Frequentist статистики используют классический подход к оценке, то есть рассматривают параметры как фиксированные, но неизвестные величины. Популярные инструменты оценки частота включают наименьшие квадраты и максимальную правдоподобность. Если нарушения порядка являются независимыми, гомоскедастическими и Гауссовыми или нормальными, то наименьшие квадраты и максимальная вероятность дают эквивалентные оценки. Выводы, такие как доверительные интервалы на оценках параметра или интервалы предсказания, основаны на распределении нарушений порядка. Для получения дополнительной информации о частотном подходе к анализу MLR, смотрите Регрессия временных рядов I: Линейные модели или [6], ч. 3. Большинство инструментов в Econometrics Toolbox™ являются частыми.

Bayesian подход к оценке и выводу моделей MLR лечит β и σ2 как случайные переменные, а не фиксированные, неизвестные величины. В целом, цель байесовского анализа состоит в том, чтобы обновить распределения вероятностей параметров путем включения информации о параметрах от наблюдения данных. До выборки данных у вас есть некоторые убеждения относительно совместного распределения параметров. После выборки вы комбинируете вероятность, вызванную распределением данных, с вашими предыдущими убеждениями, чтобы составить совместное условное распределение параметров, заданных данными. Признаки и функции полученного распределения являются базисом для оценки и вывода.

Основные компоненты байесовского анализа

Одной из основных целей байесовского анализа является вычисление, или выборка из, posterior distribution (или posterior). Апостериорным является распределение параметров, обновленных с помощью (или заданных) данных, и состоит из этих величин:

  • A likelihood function - информация, которую предоставляет выборка о параметрах. Если вы берете случайную выборку, то вероятность для MLR это

    (β,σ2|y,x)=t=1TP(yt|xt,β,σ2).

    P(yt|xt,β,σ2) - функция условной плотности вероятностей yt заданная параметрами и вызванная условным распределением εt. Обычно xt является фиксированной величиной. Если нарушения порядка независимы, гомоскедастичны и гауссовы, то

    (β,σ2|y,x)=t=1Tϕ(yt;xtβ,σ2).

    ϕ (yt; xtβ, σ2) - Гауссова плотность вероятностей со средней xtβ и отклонением σ2, оцениваемый в yt.

  • Prior distributions (или priors) на параметрах - Распределение параметров, которые вы предполагаете перед наблюдением данных. Наложение предварительных допущений о распределении на параметры имеет преимущество перед частотным анализом: priors позволяет включать знания о модели перед просмотром данных. Вы можете контролировать доверие в своих знаниях о параметре, скорректировав предыдущее отклонение. Установка высокого отклонения означает, что вы очень мало знаете о параметре, и вы хотите взвесить информацию в данных о параметрах более сильно. Установка низкого отклонения подразумевает высокое доверие в ваших знаниях о параметре, и вы хотите принять во внимание эти знания в анализе.

    На практике вы используете априоры для удобства, а не следуете мнению исследователя о фактическом распределении параметров. Например, можно выбрать априоры, чтобы соответствующее апостериорное распределение находилось в одном семействе распределений. Эти предшествующие-апостериорные пары называются conjugate распределениями. Однако выбор априоров может повлиять на оценку и вывод, поэтому вы должны выполнить анализ чувствительности с оценкой.

    Priors может содержать параметры, называемые hyperparameters, которые могут иметь распределения вероятностей себя. Такие модели называются hierarchical Bayesian models.

    Для MLR предыдущие распределения обычно обозначаются как π (β) и π 2). Популярным выбором является normal-inverse-gamma conjugate model, в которой π (β | σ2) - многомерное Гауссово или многомерное нормальное распределение и π (σ2) - обратный гамма- распределение.

Можно содержать апостериорное распределение β и σ2 использование правила Байеса, то есть,

π(β,σ2|y,x)=π(β)π(σ2)(β,σ2|y,x)β,σ2π(β)π(σ2)(β,σ2|y,x)dβdσ2π(β)π(σ2)(β,σ2|y,x).

Если β зависит от σ2, затем его предыдущий должен быть заменен на π (β | σ2). Знаменатель является распределением отклика, заданным предикторами, и он становится константой после того, как вы наблюдаете y. Поэтому апостериор часто записывается как пропорциональный числителю.

Апостериор подобен любому другому совместному распределению вероятностей случайных переменных, и он содержит всю информацию, известную о параметрах после включения данных. Оценки и выводы параметров основаны в основном на интегралах функций параметров относительно апостериорного распределения.

Апостериорная оценка и вывод

Апостериорная оценка и вывод включают интегрирование функций параметров относительно апостериорной. Популярные оценки и выводы для параметров MLR включают следующее:

  • Ожидаемое значение β, заданное как данные,

    β^=E(β|y,x)=β,σ2βπ(β,σ2|y,x)dβdσ2.

    Эта величина обеспечивает естественную интерпретацию и является оценщиком минимальной средней квадратичной невязки (MSE), то есть минимизирует E[(β^β)2|y,x]. Медиана, режим или квантиль могут быть оценщиками Байеса относительно других потерь.

  • The maximum a priori estimate (MAP) - значение параметра, которое максимизирует апостериорное распределение.

  • Учитывая данные, предсказанный ответ y^ предиктора x^ является случайной переменной со posterior predictive distribution

    π(y^|y,x,x^)=β,σ2f(y^|β,σ,x^)π(β,σ2|y,x)dβdσ2.

    Можно просмотреть эту величину как условное ожидаемое значение распределения вероятностей y относительно апостериорного распределения параметров.

  • 95%-й доверительный интервал на β (или credible interval) - установил S, таким образом что P (β ∊ <reservedrangesplaceholder2> | y, x) = 0.95. Это уравнение дает бесконечно много интервалов, включая:

    • Equitailed interval, который является интервалом (L, U) таким образом что P (β <L | y, x) = 0.025 и P > U | y, x) = 0.025.

    • Highest posterior density (HPD) область, которая является самым узким интервалом (или интервалами), получая заданную вероятность. Он обязательно содержит самые большие апостериорные значения.

    В отличие от интерпретации частотных доверительных интервалов, интерпретация байесовских доверительных интервалов заключается в том, что, учитывая данные, вероятность того, что случайная β находится в S интервалов (интервалов ) (ов), составляет 0,95. Эта интерпретация интуитивно понятна, что является преимуществом байесовских доверительных интервалов по сравнению с частотными доверительными интервалами.

  • Маргинальные апостериорные вероятности включения переменных, также называемые вероятностями режима, являются результатом реализации выбора стохастической поисковой переменной (SSVS) и указывают, являются ли переменные предиктора незначительными или избыточными в байесовской линейной регрессионой модели. В SSVS β имеет многомерное, двухкомпонентное гауссовское распределение смеси. Оба компонента имеют среднее значение нуля, но один компонент имеет большое отклонение, а другой компонент имеет небольшое отклонение. Незначительные предикторы, вероятно, будут близки к нулю; поэтому они из компонента с малым отклонением. SSVS выборок из пространства 2p + 1 сочетания модели, каждое сочетание включает или исключает коэффициент, и модели с самой высокой апостериорной плотностью дискретизируются чаще. Вероятности режима получают из выборочных моделей.

Методы интегрирования зависят от функциональной формы продукта π(β)π(σ2)(β,σ2|y,x) и интегранд, для примера, h (β, σ2).

  • Если продукт формирует ядро известного распределения вероятностей, то интегралы h (β, σ2) относительно апостериорной может быть аналитически отслеживаемым. Известные ядра часто возникают, когда вы выбираете априоры и апостериоры, чтобы сформировать сопряженные пары. В этих случаях обычно известны первые несколько моментов распределения, и оценки основаны на них. Для получения дополнительной информации об аналитически отслеживаемых апостериорных распределениях, предлагаемых байесовскими линейными регрессиоными моделями среды в Econometrics Toolbox, см. «Аналитически отслеживаемые апостериоры».

  • В противном случае необходимо использовать численное интегрирование методы, чтобы вычислить интегралы h (β, σ2) относительно апостериорных распределений. При определенные обстоятельства можно реализовать численное интегрирование с помощью Monte Carlo или Markov chain Monte Carlo (MCMC) выборки.

    • Чтобы выполнить оценку Монте-Карло, вы рисуете много выборок из распределения вероятностей, применяйте соответствующую функцию к каждому рисунку (h (β, σ2) является фактором в функции), и среднее значение получившихся рисунков для аппроксимации интеграла. Популярным методом Монте-Карло является повторная выборка важности [6].

    • Вы реализуете MCMC, когда не знаете распределения вероятностей до константы, или знаете условные распределения всех параметров, по крайней мере, до константы. Популярные методы MCMC включают выборку Гиббса [2], алгоритм Metropolis-Hastings [5] и выборку среза [9].

    Для получения дополнительной информации о апостериорной оценке байесовской модели линейной регрессии в Econometrics Toolbox, когда апостериор неразрешим, см. «Аналитически неразрешимые апостериоры».

Аналитически отслеживаемые апостериоры

Байесовская линейная регрессионная среда в Econometrics Toolbox предлагает несколько предшествующих спецификаций модели, которые дают аналитически отслеживаемые, сопряженные маргинальные или условные апостериоры. Эта таблица идентифицирует предыдущие модели и их соответствующих апостериоров. Когда вы передаете предыдущую модель и данные estimate, MATLAB® использует эти формулы. Когда программное обеспечение создает апостериоры, оно принимает, что данные отклика yt, t = 1,..., T, является случайной выборкой из Гауссова распределения со средними xtβ и отклонением σ2.

Предварительные Объекты моделиУголовное прошлоеМаргинальные апостериорыУсловные апостериоры
conjugateblm

β|σ2~Np+1(μ,σ2V).σ2~IG(A,B).

β и σ2 являются независимыми.

β|y,x~tp+1((V1+XX)1[(XX)β^+V1μ],2B1+(yXβ^)(yXβ^)+(β^μ)[V+(XX)1]1(β^μ)2A+T,2A+T).σ2|y,x~IG(A+T2,[B1+12(yXβ^)(yXβ^)+12(β^μ)[V+(XX)1]1(β^μ)]1).

β|σ2,y,x~Np+1((V1+XX)1[(XX)β^+V1μ],σ2(V1+XX)1).σ2|β,y,x~IG(A+T+p+12,[B1+12(yXβ)(yXβ)+12(βμ)V1(βμ)]1).
semiconjugateblm

β|σ2~Np+1(μ,V).σ2~IG(A,B).

β и σ2 являются зависимыми.

Аналитически неразрешимый

β|σ2,y,x~Np+1((V1+σ2XX)1[σ2(XX)β^+V1μ],(V1+XX)1).σ2|β,y,x~IG(A+T2,[B1+12(yXβ)(yXβ)]1).

diffuseblm

Соединение предшествующее PDF

fβ,σ2(β,σ2)1σ2.

β|y,x~tp+1(β^,(yXβ^)(yXβ^)Tp1(XX)1,Tp1).σ2|y,x~IG(Tp12,[12(yXβ^)(yXβ^)]1).

β|σ2,y,x~Np+1(β^,σ2(XX)1).σ2|β,y,x~IG(T2,[12(yXβ)(yXβ)]1).

mixconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjσVj1Z1+(1γj)σVj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Несмотря на то, что маргинальные апостериоры аналитически прослеживаются, MATLAB рассматривает их как неразрешимые для масштабируемости (см. [1]).

Аналитически отслеживаемые, если γj и γk независимы, для всех jk

γj|β,γj,σ2,X,y~Бернуллиевый(ajaj+bj);j=1,...,p+1.j,aj=P(γj=1)ϕ(0,σ2Vj1).j,bj=P(γj=0)ϕ(0,σ2Vj2).β|σ2,γ,X,y~Np+1((V1+XX)1XY,σ2(V1+XX)1).σ2|β,γ,X,y~IG(A+T+p+12,[B1+12(yXβ)(yXβ)+12βV1β]1).

mixsemiconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjVj1Z1+(1γj)Vj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Аналитически неразрешимый

Аналитически отслеживаемые, если γj и γk независимы, для всех jk

γj|β,γj,σ2,X,y~Бернуллиевый(ajaj+bj);j=1,...,p+1.j,aj=P(γj=1)ϕ(0,Vj1).j,bj=P(γj=0)ϕ(0,Vj2).β|σ2,γ,X,y~Np+1((V1+σ2XX)1XY,(V1+σ2XX)1).σ2|β,γ,X,y~IG(A+T2,[B1+12(yXβ)(yXβ)]1).

lassoblm

βj|σ2,λ~Лапласовский(0,σ/λ);j=0,..,p.σ2~IG(A,B).

Коэффициенты независимы, априори.

Аналитически неразрешимый

1ψj|βj,σ2,λ~InvGaussian(σλ/|βj|,λ2);j=1,...,p+1.D=diag(ψ1,...,ψp+1).β|σ2,λ,X,y,ψ~Np+1((XX+D)1Xy,σ2(XX+D)1).σ2|β,X,y,ψ~IG(A+T+p+12,[B1+12(yXβ)(yXβ)+12βDβ]1).

В таблице:

  • N p + 1 (m, Σ) обозначает (p + 1) -мерное многомерное нормальное распределение, где m - среднее (a (p + 1) -на 1 вектор) и Σ - отклонение (a (p + 1) -by- (p + 1) симметричное, положительно определенная матрица).

  • IG (A, B) обозначает обратное гамма-распределение с формой A > 0 и масштабом B > 0. PDF IG (A, B) является

    f(x;A,B)=1Γ(A)BAxA1e1xB.

  • X является T -by- (p + 1) матрицей данных предиктора, то есть xjk является j наблюдения k предиктора. Первый столбец состоит полностью из таковых для точки пересечения.

  • y является T вектором откликов -by-1.

  • t p + 1 (m, Σ, ν) обозначает (p + 1) -мерное многомерное t распределение, где m - расположение, Σ - шкала, а ν - степени свободы.

  • β^=(XX)1Xy, то есть оценка методом наименьших квадратов β.

  • V*j1 - предшествующий коэффициент отклонения (mixconjugate) или отклонение (mixsemiconjugate) βj, когда γj = 1, и V*j2 является его предыдущим коэффициентом отклонения или отклонением, когда γj = 0.

  • V* (p + 1) (p + 1) диагональная матрица, и элемент j, j - <reservedrangesplaceholder1> <reservedrangesplaceholder0>*j1 + (1 – γj) V*j2.

  • mixconjugateblm и mixsemiconjugateblm модели поддерживают предыдущие средние спецификации для β, отличных от вектора нуля по умолчанию для обоих компонентов смешанной гауссовской модели. Если вы изменяете предшествующее среднее β по умолчанию, то соответствующие условные апостериорные распределения включают предшествующие средства так же, как условные апостериорные распределения conjugateblm и semiconjugateblm модели включают предыдущие средства.

  • λ является фиксированным параметром усадки лассо.

  • InvGaussian (m, v) обозначает обратный Гауссов (Wald) со средними m и v формы.

Аналитически неразрешимые апостериоры

Байесовская линейная регрессионная среда в Econometrics Toolbox предлагает несколько предшествующих спецификаций модели, которые дают аналитически неразрешимые, но гибкие, маргинальные и условные апостериоры. Эта таблица идентифицирует предыдущие модели и методы выборки Монте-Карло, которые MATLAB использует для выполнения апостериорной оценки, симуляции и вывода, когда вы передаете предыдущую модель и данные, estimate, simulate, или forecast.

Предварительные Объекты моделиУголовное прошлоеМетод симуляции для маргинального апостериораМетод симуляции для условного апостериора
semiconjugateblm

β|σ2~Np+1(μ,V).σ2~IG(A,B).

β и σ2 являются зависимыми.

Пробоотборник Гиббса [2]Условный апостериор аналитически прослеживается
empiricalblmХарактеризуется извлечениями из соответствующих предыдущих распределенийПовторная дискретизация выборки [4]Не поддерживается
customblmХарактеризуется соединением pdf. в объявленной функции
  • Гамильтоновый дискретизатор Монте-Карло [8]

  • Дискретизатор Random walk Metropolis [7]

  • Срез [9]

  • Гамильтониан Монте-Карло семплер

  • Случайная прогулка Metropolis sampler

  • Пробоотборник среза

mixconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjσVj1Z1+(1γj)σVj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Пробоотборник Гиббса [1]Условный апостериор аналитически прослеживается
mixsemiconjugateblm

γ={γ1,...,γp+1}~p(γ).j,γj{0,1}.j,βj|σ2,γj=γjVj1Z1+(1γj)Vj2Z2.Zk~N(0,1);k=1,2.σ2~IG(A,B).

Пробоотборник Гиббса [1]Условный апостериор аналитически прослеживается
lassoblm

βj|σ2,λ~Лапласовский(0,σ/λ);j=0,..,p.σ2~IG(A,B).

Коэффициенты независимы, априори.

Пробоотборник Гиббса [10] Условный апостериор аналитически прослеживается

Ссылки

[1] Джордж, Э. И. и Р. Э. Маккаллох. «Выбор переменной через выборку Гиббса». Журнал Американской статистической ассоциации. Том 88, № 423, 1993, с. 881-889.

[2] Гельфанд, А. Э. и А. Ф. М. Смит. «Основанные на дискретизации подходы к вычислению предельных плотностей». Журнал Американской статистической ассоциации. Том 85, 1990, стр. 398-409.

[3] Гельман, А., Дж. Б. Карлин, Х. С. Стерн и Д. Б. Рубин. Байесовский анализ данных, 2-е. Эд. Бока Ратон, FL: Chapman & Hall/CRC, 2004.

[4] Гордон, Н. Дж., Д. Дж. Салмонд, и А. Ф. М. Смит. «Новый подход к нелинейной/негауссовой байесовской государственной оценке». Материалы IEEE F по радиолокации и обработке сигналов. Том 140, 1993, стр. 107-113.

[5] Hastings, W. K. «Monte Carlo Sampling Methods Using Markov Chains and Their Applications». Биометрика. Том 57, 1970, с. 97-109.

[6] Marin, J. M., and C. P. Robert. Байесовское ядро: практический подход к вычислительной байесовской статистике. Нью-Йорк: Springer Science + Business Media, LLC, 2007 .

[7] Metropolis, N., A. W. Rosenbluth, M. N. Rosenbluth, A. H. Teller, and E. Teller. Уравнения вычислений состояния быстрой вычислительной машиной. J. Chem. Phys. vol. 21, 1953, pp. 1087-1091.

[8] Neal, R. M. «MCMC с использованием гамильтоновой динамики». У С. Брукса, А. Гельмана, Г. Джонса и X.-L. Менг (эд.) Справочник Markov Chain Monte Carlo. Бока Ратон, FL: Chapman & Hall/CRC, 2011.

[9] Нил, Р. М. «Slice Sampling». Анналы статистики. Том 31, 2003, стр. 705-767.

[10] Парк, Т. и Г. Казелла. «Байесовский лассо». Журнал Американской статистической ассоциации. Том 103, № 482, 2008, стр. 681-686.

См. также

| | | | | | |

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте