summarize

Сводная статистика распределения байесовской линейной регрессионой модели для выбора переменной предиктора

Описание

Чтобы получить сводные данные стандартной байесовской линейной регрессионой модели, см. summarize.

пример

summarize(Mdl) отображает табличные сводные данные случайных коэффициентов регрессии и нарушения порядка отклонения байесовской модели линейной регрессии Mdl в командной строке. Для каждого параметра сводных данных включает:

  • Стандартное отклонение (квадратный корень дисперсии)

  • 95% справедливых интервалов

  • Вероятность того, что параметр больше 0

  • Описание распределений, если известно

  • Предельная вероятность того, что коэффициент должен быть включен в модель, для моделей выбора стохастической переменной поиска (SSVS) предиктор-переменная-выбор

пример

SummaryStatistics = summarize(Mdl) возвращает массив структур с таблицей, суммирующей коэффициенты регрессии и отклонение нарушения порядка, и описанием совместного распределения параметров.

Примеры

свернуть все

Рассмотрим множественную линейную регрессионую модель, которая предсказывает реальный валовой национальный продукт США (GNPR) с использованием линейной комбинации индекса промышленного производства (IPI), общая занятость (E), и реальная заработная плата (WR).

GNPRt=β0+β1IPIt+β2Et+β3WRt+εt.

Для всех t, εt - серия независимых гауссовских нарушений порядка со средним значением 0 и отклонением σ2.

Примите эти предыдущие распределения для k = 0,...,3:

  • βk|σ2,γk=γkσVk1Z1+(1-γk)σVk2Z2, где Z1 и Z2являются независимыми, стандартными нормальными случайными переменными. Поэтому коэффициенты имеют Гауссово распределение смеси. Предположим, что все коэффициенты являются условно независимыми, априори, но они зависят от отклонения нарушения порядка.

  • σ2IG(A,B). A и B - форма и шкала, соответственно, обратного гамма- распределения.

  • γk{0,1}и представляет переменную режима включения случайных переменных с дискретным равномерным распределением.

Создайте предыдущую модель для SSVS. Задайте количество предикторов p.

p = 3;
VarNames = ["IPI" "E" "WR"];
PriorMdl = bayeslm(p,'ModelType','mixconjugateblm','VarNames',VarNames);

PriorMdl является mixconjugateblm Байесовский объект линейной регрессионной модели для выбора предиктора SSVS, представляющего предшествующее распределение коэффициентов регрессии и отклонения нарушения порядка.

Результирующие данные предыдущего распределения.

summarize(PriorMdl)
 
           |  Mean     Std         CI95        Positive      Distribution     
------------------------------------------------------------------------------
 Intercept |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 IPI       |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 E         |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 WR        |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 Sigma2    | 0.5000  0.5000  [ 0.138,  1.616]    1.000   IG(3.00,    1)       
 

Функция отображает таблицу сводной статистики и другую информацию о предыдущем распределении в командной строке.

Загрузите набор данных Нельсона-Плоссера и создайте переменные для данных предиктора и отклика.

load Data_NelsonPlosser
X = DataTable{:,PriorMdl.VarNames(2:end)};
y = DataTable.GNPR;

Оцените апостериорные распределения. Подавить отображение оценки.

PosteriorMdl = estimate(PriorMdl,X,y,'Display',false);

PosteriorMdl является empiricalblm объект модели, который содержит апостериорные распределения β и σ2.

Получите сводную статистику из апостериорного распределения.

summary = summarize(PosteriorMdl);

summary массив структур, содержащий два поля: MarginalDistributions и JointDistribution.

Отобразите маргинальные сводные данные распределения при помощи записи через точку.

summary.MarginalDistributions
ans=5×5 table
                    Mean          Std                 CI95              Positive    Distribution 
                 __________    _________    ________________________    ________    _____________

    Intercept        -18.66       10.348       -37.006        0.8406     0.0412     {'Empirical'}
    IPI              4.4555      0.15287        4.1561        4.7561          1     {'Empirical'}
    E            0.00096765    0.0003759    0.00021479     0.0016644     0.9968     {'Empirical'}
    WR               2.4739      0.36337        1.7607        3.1882          1     {'Empirical'}
    Sigma2           47.773       8.6863        33.574        67.585          1     {'Empirical'}

The MarginalDistributions field является таблицей суммарной статистики и другой информации о апостериорном распределении.

Входные параметры

свернуть все

Байесовская линейная регрессионая модель для выбора переменной предиктора, заданная как объект модели в этой таблице.

Объект моделиОписание
mixconjugateblmЗависимая, Гауссовская гамма инверсии смеси спрягает модель для выбора переменной предсказателя SSVS, возвращенного bayeslm
mixsemiconjugateblmНезависимая, Гауссова-смесь-обратная-гамма полуконъюгатная модель для выбора переменной предиктора SSVS, возвращенная bayeslm
lassoblmБайесовская регрессионая модель лассо, возвращенная bayeslm

Выходные аргументы

свернуть все

Сводные данные распределения параметров, возвращенная как массив структур, содержащий информацию в этой таблице.

Структурное полеОписание
MarginalDistributions

Таблица, содержащая сводные данные распределений параметров. Строки соответствуют параметрам. Столбцы соответствуют:

  • Расчетное апостериорное среднее (Mean)

  • Стандартное отклонение (Std)

  • 95% справедливого интервала (CI95)

  • Апостериорная вероятность того, что параметр больше 0 (Positive)

  • Описание маргинального или условного апостериорного распределения параметра (Distribution)

Имена строк являются именами в Mdl.VarNames. Имя последней строки Sigma2.

JointDistribution

Строковый скаляр, который описывает распределения коэффициентов регрессии (Beta) и отклонение нарушения порядка (Sigma2) когда известно.

Для описания распределения:

  • N(Mu,V) обозначает нормальное распределение со средним Mu и матрица отклонений V. Это распределение может быть многомерным.

  • IG(A,B) обозначает обратный гамма- распределение с формой A и масштабные B.

  • Mixture distribution обозначает распределение t смеси Студента.

Примечание

Если Mdl является lassoblm модель и Mdl.Probability является указателем на функцию, представляющим распределение вероятностей режима, summarize не может оценить предыдущую статистику распределения для коэффициентов. Поэтому записи, соответствующие статистике коэффициентов, NaN значения.

Подробнее о

свернуть все

Байесовская линейная регрессионая модель

A Bayesian linear regression model обрабатывает параметры β и σ2 в модели многофакторной линейной регрессии (MLR) yt = xt β + εt как случайные переменные.

Для времен t = 1,..., T:

  • yt - наблюдаемая реакция.

  • xt является 1-бай- (p + 1) вектором-строкой наблюдаемых значений p предикторов. Чтобы разместить точку пересечения модели, x 1 t = 1 для всех t.

  • β является (p + 1) -на-1 вектор-столбец коэффициентов регрессии, соответствующих переменным, которые составляют столбцы xt.

  • εt является случайным нарушением порядка со средним значением нуля и Cov (ε) = σ2I T × T, в то время как ε является вектором T -by-1, содержащим все нарушения порядка. Эти предположения подразумевают, что вероятность данных является

    (β,σ2|y,x)=t=1Tϕ(yt;xtβ,σ2).

    ϕ (yt; xtβ, σ2) - Гауссова плотность вероятностей со средней xtβ и отклонением σ2 оценивается при yt;.

Прежде чем рассматривать данные, вы накладываете joint prior distribution предположение на (β, σ2). В байесовском анализе вы обновляете распределение параметров с помощью информации о параметрах, полученных из вероятности данных. Результатом является joint posterior distribution, σ2) или conditional posterior distributions параметров.

Алгоритмы

  • Если Mdl является lassoblmобъект модели является числовым вектором, тогда 95% надежных интервалов на коэффициентах регрессии Mean + [–2 2]*Std, где Mean и Std являются переменными в сводной таблице.

  • Если Mdl является mixconjugateblm или mixsemiconjugateblm объект модели, затем 95% достоверных интервалов по коэффициентам регрессии оцениваются из смеси cdf. Если оценка не удаётся, то summarize возвращает NaN вместо этого значения.

Введенный в R2018b