Линейная регрессия является статистическим инструментом, используемым к:
Изучите линейные зависимости или влияния переменных predictor или explanatory на переменных response.
Предскажите или предскажите будущие ответы, данные будущие данные о предикторе.
Модель multiple linear regression (MLR)
В течение многих времен t = 1..., T:
yt является наблюдаемым ответом.
xt является 1 на (p + 1) вектор - строка из наблюдаемых величин предикторов p. Размещать образцовое прерывание, x 1t = 1 для всего t.
β (p + 1)-by-1 вектор-столбец коэффициентов регрессии, соответствующих переменным, которые составляют столбцы xt.
εt является случайным воздействием, которые имеют среднее значение нуля и Cov (ε) = Ω. В целом Ω является T-by-T симметричная, положительная определенная матрица. Для простоты примите, что воздействия являются некоррелироваными и имеют общее отклонение, то есть, Ω = σ 2IT×T.
Значения β представляют ожидаемые крайние вклады соответствующих предикторов к yt. Когда предиктор увеличения xj одним модулем, y, как ожидают, увеличится модулями βj, принимая, что все другие переменные считаются зафиксированные. εt является случайным различием между истинным и ожидаемым ответом во время t.
Чтобы изучить линейные влияния предикторов на ответе или создать прогнозирующий MLR, необходимо сначала оценить параметры β и σ 2. статистики Frequentist используют классический подход к оценке, то есть, они обрабатывают параметры, как зафиксировано, но неизвестные количества. Популярные частотные инструменты оценки включают наименьшие квадраты и наибольшее правдоподобие. Если воздействия являются независимыми, гомоскедастичными, и Гауссовыми или нормальными (Statistics and Machine Learning Toolbox), то наименьшие квадраты и наибольшее правдоподобие приводят к эквивалентным оценкам. Выводы, такие как доверительные интервалы на оценках параметра или интервалах прогноза, основаны на распределении воздействий. Для больше на частотном подходе к анализу MLR, смотрите Регрессию Временных рядов I: Линейные Модели или [6], Ch. 3. Большинство инструментов в Econometrics Toolbox™ частотно.
Подход Bayesian к оценке и выводу моделей MLR обрабатывает β и σ 2 как случайные переменные, а не зафиксированные, неизвестные количества. В целом цель Байесового анализа состоит в том, чтобы обновить распределения вероятностей параметров путем слияния информации о параметрах от наблюдения данных. До выборки данных у вас есть некоторые верования о совместном распределении параметров. После выборки вы комбинируете вероятность, вызванную распределением данных с вашими предшествующими верованиями составить объединенное условное распределение параметров, учитывая данные. Функциями и функциями получившегося распределения является основание для оценки и вывода.
Одна из главных целей Байесового анализа состоит в том, чтобы вычислить, или выборка от, posterior distribution (или posterior). Следующее является распределением параметров, обновленных с помощью (или данный) данные, и состоит из этих количеств:
likelihood function — информация, которую выборка предоставляет о параметрах. Если вы берете случайную выборку, то вероятность для MLR
функция плотности условной вероятности yt, учитывая параметры и вызванный условным распределением εt. Обычно, xt является фиксированным количеством. Если воздействия являются независимыми, гомоскедастичными, и Гауссовыми, то
ϕ (yt; xtβ, σ 2) является Гауссовой плотностью вероятности со средним xtβ и отклонением σ 2, оцененный в yt.
Prior distributions (или priors) на параметрах — распределение параметров, которые вы принимаете прежде, чем наблюдать данные. Наложение предшествующих предположений распределения на параметрах имеет преимущество перед частотными исследованиями: уголовное прошлое позволяет вам включать знание о модели прежде, чем просмотреть данные. Можно управлять уверенностью в знании о параметре путем корректировки предшествующего отклонения. Определение высокого отклонения подразумевает, что вы знаете очень мало о параметре, и вы хотите взвесить информацию в данных о параметрах в большей степени. Определение низкого отклонения подразумевает высокую уверенность в вашем знании о параметре, и вы хотите объяснить то знание в анализе.
На практике вы используете уголовное прошлое для удобства, а не следовать за мнением исследователя о фактическом распределении параметров. Например, можно выбрать уголовное прошлое так, чтобы соответствующее апостериорное распределение было в том же семействе распределений. Эти предшествующие следующие пары называются дистрибутивами conjugate. Однако выбор уголовного прошлого может влиять на оценку и вывод, таким образом, необходимо выполнить анализ чувствительности с оценкой.
Уголовное прошлое может содержать параметры, названные hyperparameters, который может иметь сами распределения вероятностей. Такие модели называются hierarchical Bayesian models.
Для MLR предшествующие дистрибутивы обычно обозначаются как π (β) и π (σ 2). Популярным выбором является normal-inverse-gamma conjugate model, в котором π (β |σ2) является многомерным Гауссовым или многомерным, нормальным (Statistics and Machine Learning Toolbox), распределение и π (σ 2) являются обратным гамма распределением.
Можно содержать объединенное апостериорное распределение β и σ Правило 2 использующего Бейеса, то есть,
Если β зависит от σ 2, то его предшествующее должно быть заменено π (β |σ2). Знаменатель является распределением ответа, учитывая предикторы, и это становится константой после того, как вы наблюдаете y. Поэтому следующее часто пишется как являющийся пропорциональным числителю.
Следующее похоже на любое другое объединенное распределение вероятностей случайных переменных, и оно содержит всю информацию, известную о параметрах после того, как вы включаете данные. Оценки параметра и выводы базируются в основном на интегралах функций параметров относительно апостериорного распределения.
Следующая оценка и вывод включают объединяющиеся функции параметров относительно следующего. Популярные средства оценки и выводы для параметров MLR включают следующее:
Ожидаемое значение β, учитывая данные
Это количество обеспечивает естественную интерпретацию и является минимальным средством оценки среднеквадратической ошибки (MSE), то есть, это минимизирует Медиана, режим или квантиль могут быть средствами оценки Бейеса относительно других потерь.
maximum a priori estimate (MAP) — Значение параметра, который максимизирует апостериорное распределение.
Учитывая данные, предсказанный ответ из предиктора случайная переменная с posterior predictive distribution
Можно просмотреть это количество как условное ожидаемое значение распределения вероятностей y относительно апостериорного распределения параметров.
95%-й доверительный интервал на β (или credible interval) — установил S, таким образом что P (β ∊ S |y, x) = 0.95. Это уравнение приводит бесконечно ко многим интервалам, включая:
Equitailed interval, который является интервалом (L, U) таким образом что P (β <L |y, x) = 0.025 и P (β> U |y, x) = 0.025.
Highest posterior density (HPD) область, которая является самым узким интервалом (или интервалами) получение заданной вероятности. Это обязательно содержит самые большие следующие значения.
В отличие от интерпретации частотных доверительных интервалов, интерпретация Байесовых доверительных интервалов - это, учитывая данные, вероятность, что случайный β находится в интервале (интервалах), который S 0.95. Эта интерпретация интуитивна, который является преимуществом Байесовых доверительных интервалов по частотным доверительным интервалам.
Крайние апостериорные вероятности переменного включения, также названного вероятностями режима, результат реализации стохастического поискового выбора переменной (SSVS) и, указывают, незначительны ли переменные прогноза или избыточны в Байесовой модели линейной регрессии. В SSVS β имеет многомерное, двухкомпонентное Гауссово распределение смеси. Оба компонента имеют среднее значение нуля, но один компонент имеет большое отклонение, и другой компонент имеет небольшое отклонение. Незначительные предикторы, вероятно, будут близко к нулю; поэтому, они от компонента с небольшим отклонением. Выборки SSVS от пробела 2p + 1 перестановка модели, каждая перестановка включает или исключает коэффициент, и модели с самой высокой следующей плотностью выбираются чаще. Вероятности режима выведены из выбранных моделей.
Методы интегрирования зависят от функциональной формы продукта и подынтегральное выражение, например, h (β, σ 2).
Если продукт формирует ядро из известного распределения вероятностей, то интегралы h (β, σ 2) относительно следующего могут быть аналитически послушными. Известные ядра часто возникают, когда вы выбираете уголовное прошлое и последующее поколение, чтобы сформировать сопряженные пары. В этих случаях обычно известны первые несколько моментов распределения, и оценки базируются от них. Для получения дополнительной информации на аналитически послушных апостериорных распределениях, предлагаемых Байесовой средой модели линейной регрессии в Econometrics Toolbox, смотрите Аналитически Послушное Последующее поколение.
В противном случае необходимо использовать методы численного интегрирования, чтобы вычислить интегралы h (β, σ 2) относительно апостериорных распределений. При определенных обстоятельствах можно реализовать численное интегрирование с помощью Monte Carlo или Markov chain Monte Carlo (MCMC) выборка.
Чтобы выполнить оценку Монте-Карло, вы чертите много выборок от распределения вероятностей, применяетесь, соответствующая функция каждому чертят (h (β, σ 2) фактор в функции), и насчитайте получившиеся ничьи, чтобы аппроксимировать интеграл. Популярный Метод Монте-Карло выбирает важность, передискретизирующую [6].
Вы реализуете MCMC, когда вы не знаете распределение вероятностей до константы, или вы знаете условные распределения всех параметров, по крайней мере, до константы. Популярные методы MCMC включают Гиббс, выбирающий [2], алгоритм Гастингса Столицы [5], и срез, выбирающий [9].
Для получения дополнительной информации на следующей оценке Байесовой модели линейной регрессии в Econometrics Toolbox, когда следующее будет тяжело, смотрите Аналитически Тяжелое Последующее поколение.
Байесова среда линейной регрессии в Econometrics Toolbox предлагает несколько предшествующих образцовых спецификаций, которые приводят к аналитически послушному, сопряженному крайнему или условному последующему поколению. Эта таблица идентифицирует предшествующие модели и их соответствующее последующее поколение. Когда вы передаете предшествующую модель и данные к estimate
, MATLAB® использует эти формулы. Когда программное обеспечение создает последующее поколение, оно принимает, что данные об ответе yt, t = 1..., T, являются случайной выборкой от Распределения Гаусса со средним xtβ и отклонением σ 2.
Предшествующий объект модели | Уголовное прошлое | Крайнее последующее поколение | Условное последующее поколение |
---|---|---|---|
conjugateblm |
β и σ 2 независимы. |
| |
semiconjugateblm |
β и σ 2 зависят. | Аналитически тяжелый |
|
diffuseblm | Объединенный предшествующий PDF |
|
|
mixconjugateblm |
| Несмотря на то, что крайнее последующее поколение аналитически послушно, MATLAB обрабатывает их как тяжелых для масштабируемости (см. [1]). | Аналитически послушный, если γj и γk независимы для всего j ≠ k |
mixsemiconjugateblm |
| Аналитически тяжелый | Аналитически послушный, если γj и γk независимы для всего j ≠ k |
lassoblm |
Коэффициенты независимы, априорно. | Аналитически тяжелый |
|
В таблице:
N, который p +1 (m, Σ) обозначает (p + 1) - размерное многомерное нормальное распределение, где m является средним значением ((p + 1)-by-1 вектор) и Σ, является отклонением ((p + 1) (p + 1) симметричная, положительная определенная матрица).
IG (A, B) обозначает обратное гамма распределение с формой A> 0 и шкала B> 0. PDF IG (A, B)
X является T (p + 1) матрица данных о предикторе, то есть, xjk является наблюдением j предиктора k. Первый столбец составлен полностью из единиц для прерывания.
y является T-by-1 вектор ответов.
t, который p +1 (m, Σ, ν) обозначает (p + 1) - размерное многомерное распределение t, где m является местоположением, Σ, является шкалой, и ν является степенями свободы.
, то есть, оценка наименьших квадратов β.
V *j1 является предшествующим фактором отклонения (mixconjugate
) или отклонение (mixsemiconjugate
) βj, когда γj = 1, и V *j2 является своим предшествующим фактором отклонения или отклонением когда γj = 0.
V* (p + 1) (p + 1) диагональная матрица и элемент j, j является γj V *j1 + (1 – γj) V *j2.
Модели mixconjugateblm
и mixsemiconjugateblm
поддерживают предшествующие средние спецификации для β кроме нулевого вектора по умолчанию для обоих компонентов Гауссовой модели смеси. Если вы изменяете предшествующий средний β по умолчанию, то соответствующие условные апостериорные распределения включают предшествующие средние значения таким же образом, что условные апостериорные распределения моделей conjugateblm
и semiconjugateblm
включают предшествующие средние значения.
λ является фиксированным параметром уменьшения лассо.
InvGaussian (m, v) обозначает инверсию, Гауссову (Вальд) со средним m и формой v.
Байесова среда линейной регрессии в Econometrics Toolbox предлагает несколько предшествующих образцовых спецификаций, которые приводят к аналитически тяжелому, но гибкому, крайнему и условному последующему поколению. Эта таблица идентифицирует предшествующие модели и Монте-Карло, выбирающий методы, что использование MATLAB, чтобы выполнить следующую оценку, симуляцию и вывод, когда вы передаете предшествующую модель и данные к estimate
, simulate
или forecast
.
Предшествующий объект модели | Уголовное прошлое | Метод симуляции для следующего крайнего | Метод симуляции для следующего условного выражения |
---|---|---|---|
semiconjugateblm |
β и σ 2 зависят. | Сэмплер Гиббса [2] | Следующее условное выражение аналитически послушно |
empiricalblm | Охарактеризованный ничьими от соответствующих предшествующих дистрибутивов | Выборка важности, передискретизирующей [4] | Не поддерживаемый |
customblm | Охарактеризованный объединенным PDF. в заявленной функции |
| |
mixconjugateblm |
| Сэмплер Гиббса [1] | Следующее условное выражение аналитически послушно |
mixsemiconjugateblm |
| Сэмплер Гиббса [1] | Следующее условное выражение аналитически послушно |
lassoblm |
Коэффициенты независимы, априорно. | Сэмплер Гиббса [10] | Следующее условное выражение аналитически послушно |
[1] Джордж, E. I. и Р. Э. Маккалок. "Выбор переменной Через Гиббс, Выбирающий". Журнал американской Статистической Ассоциации. Издание 88, № 423, 1993, стр 881–889.
[2] Gelfand, A. E. и А. Ф. М. Смит. “Основанные на выборке Подходы к Вычислению Крайней Плотности”. Журнал американской Статистической Ассоциации. Издание 85, 1990, стр 398–409.
[3] Джелмен, A., Дж. Б. Карлин, Х. С. Стерн и Д. Б. Рубин. Байесов анализ данных, 2-й. Эд. Бока-Ратон, FL: Chapman & Hall/CRC, 2004.
[4] Гордон, N. J. Д. Дж. Салмонд и А. Ф. М. Смит. "Новый Подход к Байесовой Оценке состояния Nonlinear/Non-Gaussian". Продолжения IEEE F на Радаре и Обработке сигналов. Издание 140, 1993, стр 107–113.
[5] Гастингс, W. K. “Методы Выборки Монте-Карло Используя Цепи Маркова и Их Приложения”. Biometrika. Издание 57, 1970, стр 97–109.
[6] Марин, J. M. и К. П. Роберт. Байесово ядро: практический подход к вычислительной байесовой статистике. Нью-Йорк: СМИ Спрингера Science+Business, LLC, 2007.
[7] Столица, N., А. В. Розенблат, М. Н. Розенблат, A. H. Кассир и E. Кассир. "Уравнения Вычислений состояния Быстрым Компьютером". Дж. Чем. Физика. Издание 21, 1953, стр 1087–1091.
[8] Нил, R. M. "MCMC использование гамильтоновой динамики". В С. Бруксе, А. Джелмене, Г. Джонсе и X.-L. Мэн (редакторы). Руководство Цепи Маркова Монте-Карло. Бока-Ратон, FL: Chapman & Hall/CRC, 2011.
[9] Нил, R. M. “Выборка среза”. Летопись Статистики. Издание 31, 2003, стр 705–767.
[10] Припаркуйтесь, T. и Г. Казелла. "Байесово Лассо". Журнал американской Статистической Ассоциации. Издание 103, № 482, 2008, стр 681–686.
bayeslm
| conjugateblm
| customblm
| diffuseblm
| empiricalblm
| estimate
| forecast
| semiconjugateblm