exponenta event banner

подвести итог

Сводная статистика распределения байесовской модели линейной регрессии для выбора переменных предиктора

Описание

Для получения сводки стандартной байесовской модели линейной регрессии см. summarize.

пример

summarize(Mdl) отображает табличную сводку коэффициентов случайной регрессии и дисперсию возмущений байесовской модели линейной регрессии Mdl в командной строке. Для каждого параметра сводка включает в себя:

  • Стандартное отклонение (квадратный корень отклонения)

  • 95% равных достоверных интервалов

  • Вероятность того, что параметр больше 0

  • Описание распределений, если они известны

  • Предельная вероятность того, что коэффициент должен быть включен в модель для моделей выбора переменной стохастического поиска (SSVS)

пример

SummaryStatistics = summarize(Mdl) возвращает структурный массив с таблицей, суммирующей коэффициенты регрессии и дисперсию возмущений, и описанием совместного распределения параметров.

Примеры

свернуть все

Рассмотрим модель множественной линейной регрессии, которая предсказывает реальный валовой национальный продукт США (GNPR) с использованием линейной комбинации индекса промышленного производства (IPI), общая занятость (E) и реальная заработная плата (WR).

GNPRt = β0 + β1IPIt + β2Et + β3WRt + αt.

Для всех t δ t - это ряд независимых гауссовых возмущений со средним значением 0 и дисперсией start2.

Предположим, что эти предыдущие распределения для k = 0,..., 3:

  • βk 'start2, γ k = γkσVk1Z1 + (1-γ k) σVk2Z2, где Z1 и Z2 - независимые, стандартные нормальные случайные величины. Поэтому коэффициенты имеют гауссово распределение смеси. Предположим, что все коэффициенты условно независимы, априори, но они зависят от дисперсии возмущений.

  • σ2∼IG (A, B). А и В - форма и масштаб, соответственно, обратного гамма-распределения.

  • γk∈{0,1}and он представляет переменную режима включения со случайной переменной с дискретным равномерным распределением.

Создайте предыдущую модель для SSVS. Укажите количество предикторов p.

p = 3;
VarNames = ["IPI" "E" "WR"];
PriorMdl = bayeslm(p,'ModelType','mixconjugateblm','VarNames',VarNames);

PriorMdl является mixconjugateblm Объект байесовской модели линейной регрессии для выбора предсказателя SSVS, представляющий предварительное распределение коэффициентов регрессии и дисперсии возмущений.

Подведите итоги предыдущего распределения.

summarize(PriorMdl)
 
           |  Mean     Std         CI95        Positive      Distribution     
------------------------------------------------------------------------------
 Intercept |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 IPI       |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 E         |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 WR        |  0      1.5890  [-3.547,  3.547]    0.500   Mixture distribution 
 Sigma2    | 0.5000  0.5000  [ 0.138,  1.616]    1.000   IG(3.00,    1)       
 

Функция отображает таблицу сводной статистики и другую информацию о предыдущем распределении в командной строке.

Загрузите набор данных Нельсона-Плоссера и создайте переменные для данных предиктора и ответа.

load Data_NelsonPlosser
X = DataTable{:,PriorMdl.VarNames(2:end)};
y = DataTable.GNPR;

Оцените апостериорные распределения. Подавление отображения оценки.

PosteriorMdl = estimate(PriorMdl,X,y,'Display',false);

PosteriorMdl является empiricalblm объект модели, который содержит апостериорные распределения β и start2.

Получите сводную статистику из заднего распределения.

summary = summarize(PosteriorMdl);

summary - структурный массив, содержащий два поля: MarginalDistributions и JointDistribution.

Отображение сводки маргинального распределения с помощью точечной нотации.

summary.MarginalDistributions
ans=5×5 table
                    Mean          Std                 CI95              Positive    Distribution 
                 __________    _________    ________________________    ________    _____________

    Intercept        -18.66       10.348       -37.006        0.8406     0.0412     {'Empirical'}
    IPI              4.4555      0.15287        4.1561        4.7561          1     {'Empirical'}
    E            0.00096765    0.0003759    0.00021479     0.0016644     0.9968     {'Empirical'}
    WR               2.4739      0.36337        1.7607        3.1882          1     {'Empirical'}
    Sigma2           47.773       8.6863        33.574        67.585          1     {'Empirical'}

MarginalDistributions поле представляет собой таблицу сводной статистики и другой информации о заднем распределении.

Входные аргументы

свернуть все

Байесовская модель линейной регрессии для выбора переменных предиктора, указанная в этой таблице как объект модели.

Объект моделиОписание
mixconjugateblmЗависимая, Гауссовская гамма инверсии смеси спрягает модель для выбора переменной предсказателя SSVS, возвращенного bayeslm
mixsemiconjugateblmНезависимая модель Gaussian-mixe-inverse-gamma semaconjugate для выбора переменных предсказателя SSVS, возвращаемая bayeslm
lassoblmМодель регрессии байесовского лассо, возвращенная bayeslm

Выходные аргументы

свернуть все

Сводка распределения параметров, возвращаемая в виде структурного массива, содержащего информацию в этой таблице.

Поле структурыОписание
MarginalDistributions

Таблица, содержащая сводку распределений параметров. Строки соответствуют параметрам. Столбцы соответствуют:

  • Оценочное заднее среднее (Mean)

  • Стандартное отклонение (Std)

  • 95% равный достоверный интервал (CI95)

  • Задняя вероятность того, что параметр больше 0 (Positive)

  • Описание предельного или условного заднего распределения параметра (Distribution)

Имена строк - это имена в Mdl.VarNames. Имя последней строки: Sigma2.

JointDistribution

Строковый скаляр, описывающий распределения коэффициентов регрессии (Betaи дисперсию возмущений (Sigma2), когда известно.

Для описаний распределения:

  • N(Mu,V) обозначает нормальное распределение со средним Mu и матрица отклонений V. Это распределение может быть многомерным.

  • IG(A,B) обозначает обратное гамма-распределение с формой A и масштаб B.

  • Mixture distribution обозначает распределение смеси Стьюдента.

Примечание

Если Mdl является lassoblm модель и Mdl.Probability является дескриптором функции, представляющим распределение вероятностей режима, то summarize не может оценить статистику предыдущего распределения для коэффициентов. Следовательно, записи, соответствующие статистике коэффициентов, являются NaN значения.

Подробнее

свернуть все

Байесовская модель линейной регрессии

Байесовская модель линейной регрессии рассматривает параметры β и start2 в модели множественной линейной регрессии (MLR) yt = xtβ + αt как случайные величины.

Для времени t = 1,...,T:

  • yt - наблюдаемый ответ.

  • xt - вектор строки 1-by- (p + 1) наблюдаемых значений p предикторов. Чтобы разместить пересечение модели, x1t = 1 для всех t.

  • β - вектор (p + 1) -by-1-столбца коэффициентов регрессии, соответствующих переменным, составляющим столбцы xt.

  • αt - случайное возмущение со средним значением ноля и Cov (λ) = start2IT × T, в то время, как start- T-by-1 вектор, содержащий все возмущения. Эти допущения подразумевают, что вероятность данных

    (β, start2 | y, x) =∏t=1Tϕ (yt; xtβ, start2).

    (yt; xtβ, start2) - гауссова плотность вероятности со средним значением xtβ и дисперсией start2, оцениваемой при yt;.

Перед рассмотрением данных необходимо наложить совместное предварительное предположение о распределении на (β, start2). В байесовском анализе выполняется обновление распределения параметров с использованием информации о параметрах, полученных из вероятности получения данных. Результатом является совместное апостериорное распределение (β, start2) или условное апостериорное распределение параметров.

Алгоритмы

  • Если Mdl является lassoblm объект модели и Mdl.Probability является числовым вектором, то 95% достоверных интервалов для коэффициентов регрессии являются Mean + [–2 2]*Std, где Mean и Std - переменные в сводной таблице.

  • Если Mdl является mixconjugateblm или mixsemiconjugateblm объект модели, затем 95% достоверных интервалов по коэффициентам регрессии оцениваются из смеси cdf. Если оценка терпит неудачу, то summarize прибыль NaN вместо этого значения.

Представлен в R2018b