подвести итог

Статистика сводных данных распределения Байесовой модели линейной регрессии для выбора переменной прогноза

Чтобы получить сводные данные стандартной Байесовой модели линейной регрессии, смотрите summarize.

Синтаксис

summarize(Mdl)
SummaryStatistics = summarize(Mdl)

Описание

пример

summarize(Mdl) отображает табличные сводные данные случайных коэффициентов регрессии и отклонение воздействия Байесовой модели Mdl линейной регрессии в командной строке. Для каждого параметра сводные данные включают:

  • Стандартное отклонение (квадратный корень из отклонения)

  • 95% equitailed вероятные интервалы

  • Вероятность, что параметр больше, чем 0

  • Описание дистрибутивов, если известный

  • Безусловная вероятность, что коэффициент должен быть включен в модель для моделей выбора переменной предиктора стохастического поискового выбора переменной (SSVS)

пример

SummaryStatistics = summarize(Mdl) возвращает массив структур с таблицей, обобщающей коэффициенты регрессии и отклонение воздействия и описание совместного распределения параметров.

Примеры

свернуть все

Считайте несколько моделью линейной регрессии, которая предсказывает США действительный валовой национальный продукт (GNPR) с помощью линейной комбинации индекса промышленного производства (IPI), общая занятость (E) и действительная заработная плата (WR).

GNPRt=β0+β1IPIt+β2Et+β3WRt+εt.

\forall t, εt серия независимых Гауссовых воздействий со средним значением 0 и отклонение σ2.

Примите эти предшествующие дистрибутивы для k = 0,...,3:

  • βk|σ2,γk=γkσVk1Z1+(1-γk)σVk2Z2, где Z1 и Z2независимые, стандартные нормальные случайные переменные. Поэтому коэффициенты имеют Гауссово распределение смеси. Примите, что все коэффициенты условно независимы, априорно, но они зависят от отклонения воздействия.

  • σ2IG(A,B). A и B форма и шкала, соответственно, обратного гамма распределения.

  • γk{0,1}и это представляет переменную режима включения случайной переменной с дискретным равномерным распределением.

Создайте предшествующую модель для SSVS. Задайте количество предикторов p.

p = 3;
VarNames = ["IPI" "E" "WR"];
PriorMdl = bayeslm(p,'ModelType','mixconjugateblm','VarNames',VarNames);

PriorMdl является mixconjugateblm Байесов объект модели линейной регрессии для выбора предиктора SSVS, представляющего предшествующее распределение отклонения воздействия и коэффициентов регрессии.

Обобщите предшествующее распределение.

summarize(PriorMdl)
 
           |  Mean     Std         CI95        Positive      Distribution     
------------------------------------------------------------------------------
 Intercept |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 IPI       |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 E         |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 WR        |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 Sigma2    | 0.5000  0.5000  [ 0.138,  1.616]    1.000   IG(3.00,    1)       
 

Функция отображает таблицу итоговой статистики и другой информации о предшествующем распределении в командной строке.

Загрузите набор данных Нельсона-Плоссера и создайте переменные для данных об ответе и предиктора.

load Data_NelsonPlosser
X = DataTable{:,PriorMdl.VarNames(2:end)};
y = DataTable.GNPR;

Оцените апостериорные распределения. Подавите отображение оценки.

PosteriorMdl = estimate(PriorMdl,X,y,'Display',false);

PosteriorMdl является объектом модели empiricalblm, который содержит апостериорные распределения β и σ2.

Получите итоговую статистику из апостериорного распределения.

summary = summarize(PosteriorMdl);

summary является массивом структур, содержащим два поля: MarginalDistributions и JointDistribution.

Отобразите сводные данные предельного распределения при помощи записи через точку.

summary.MarginalDistributions
ans=5×5 table
                    Mean          Std                 CI95              Positive    Distribution
                 __________    _________    ________________________    ________    ____________

    Intercept        -18.66       10.348       -37.006        0.8406     0.0412     'Empirical' 
    IPI              4.4555      0.15287        4.1561        4.7561          1     'Empirical' 
    E            0.00096765    0.0003759    0.00021479     0.0016644     0.9968     'Empirical' 
    WR               2.4739      0.36337        1.7607        3.1882          1     'Empirical' 
    Sigma2           47.773       8.6863        33.574        67.585          1     'Empirical' 

Поле MarginalDistributions является таблицей итоговой статистики и другой информации об апостериорном распределении.

Входные параметры

свернуть все

Байесова модель линейной регрессии для выбора переменной прогноза, заданного как объект модели в этой таблице.

Объект моделиОписание
mixconjugateblmЗависимая, Гауссова гамма инверсии смеси спрягает модель для выбора переменной прогноза SSVS, возвращенного bayeslm
mixsemiconjugateblmНезависимая, Гауссова гамма инверсии смеси полуспрягает модель для выбора переменной прогноза SSVS, возвращенного bayeslm
lassoblmБайесова модель регрессии лассо возвращена bayeslm

Выходные аргументы

свернуть все

Сводные данные распределения параметра, возвращенные как массив структур, содержащий информацию в этой таблице.

Поле структурыОписание
MarginalDistributions

Таблица, содержащая сводные данные дистрибутивов параметра. Строки соответствуют параметрам. Столбцы соответствуют:

  • Предполагаемое следующее среднее значение (Mean)

  • Стандартное отклонение (Std)

  • 95% equitailed вероятный интервал (CI95)

  • Апостериорная вероятность, что параметр больше, чем 0 (Positive)

  • Описание крайнего или условного апостериорного распределения параметра (Distribution)

Имена строки являются именами в Mdl.VarNames. Именем последней строки является Sigma2.

JointDistribution

Скаляр строки, который описывает дистрибутивы коэффициентов регрессии (Beta) и отклонение воздействия (Sigma2), когда известный.

Для описаний распределения:

  • N(Mu,V) обозначает нормальное распределение со средним Mu и матрицей отклонения V. Это распределение может быть многомерным.

  • IG(A,B) обозначает обратное гамма распределение с формой A и шкала B.

  • Mixture distribution обозначает распределение смеси t Студента.

Примечание

Если Mdl является моделью lassoblm, и Mdl.Probability является указателем на функцию, представляющим распределение вероятностей режима, то summarize не может оценить предшествующую статистику распределения для коэффициентов. Поэтому записи, соответствующие содействующей статистике, являются значениями NaN.

Больше о

свернуть все

Байесова модель линейной регрессии

Bayesian linear regression model обрабатывает параметры β и σ 2 в модели yt нескольких линейных регрессий (MLR) = xt β + εt как случайные переменные.

В течение многих времен t = 1..., T:

  • yt является наблюдаемым ответом.

  • xt является 1 на (p + 1) вектор - строка из наблюдаемых величин предикторов p. Размещать образцовое прерывание, x 1t = 1 для всего t.

  • β (p + 1)-by-1 вектор-столбец коэффициентов регрессии, соответствующих переменным, которые составляют столбцы xt.

  • εt является случайным воздействием со средним значением нуля и Cov (ε) = σ 2IT×T, в то время как ε является T-by-1 вектор, содержащий все воздействия. Эти предположения подразумевают, что вероятность данных

    (β,σ2|y,x)=t=1Tϕ(yt;xtβ,σ2).

    ϕ (yt; xtβ, σ 2) является Гауссовой плотностью вероятности со средним xtβ и отклонением σ 2 оцененных в yt;.

Прежде, чем рассмотреть данные, вы налагаете предположение joint prior distribution на (β, σ 2). В Байесовом анализе вы обновляете распределение параметров при помощи информации о параметрах, полученных из вероятности данных. Результатом является joint posterior distribution (β, σ 2) или conditional posterior distributions параметров.

Алгоритмы

  • Если Mdl является объектом модели lassoblm, и Mdl.Probability является числовым вектором, то 95%-ми вероятными интервалами на коэффициентах регрессии является Mean + [–2 2]*Std, где Mean и Std являются переменными в сводной таблице.

  • Если Mdl является mixconjugateblm или объект модели mixsemiconjugateblm, то 95%-е вероятные интервалы на коэффициентах регрессии оцениваются от смеси cdf. Если оценка перестала работать, то summarize возвращает значения NaN вместо этого.

Введенный в R2018b