exponenta event banner

Оценка многомерных регрессионных моделей

Оценка наименьших квадратов

Обычные наименьшие квадраты

При подгонке многомерных моделей линейной регрессии с использованием mvregress, можно использовать опциональную пару имя-значение 'algorithm','cwls' для выбора оценки наименьших квадратов. В этом случае по умолчанию mvregress возвращает оценки обыкновенных наименьших квадратов (OLS), используя Λ = Id. Кроме того, если для взвешивания задана ковариационная матрица, можно вернуть оценки наименьших квадратов (CWLS) с ковариационным взвешиванием. Если объединить OLS и CWLS, можно получить возможные обобщенные оценки наименьших квадратов (FGLS).

Оценка OLS для вектора коэффициентов является вектором b, который минимизирует

∑i=1n (yi Xib) (yi − Xib).

Пусть y обозначает вектор nd-by-1 сложенных d-мерных откликов, а X обозначает матрицу nd-by-K сложенных конструктивных матриц. Вектор K-by-1 оценок коэффициента регрессии ОЛС равен

bOLS = (X X) 1X ′ y.

Это первый mvregress выход.

Данное Δ = Id ( значениеmvregress OLS по умолчанию), матрица дисперсии-ковариации оценок OLS

V (bOLS) = (X X) − 1.

Это уже четвертый mvregress выход. Стандартные ошибки коэффициентов регрессии ОЛС являются квадратным корнем диагонали этой матрицы дисперсии-ковариации.

Если ваши данные не масштабированы таким образом, что Λ = start2Id, то вы можете умножить mvregress дисперсионно-ковариационная матрица на среднеквадратическую ошибку (MSE), несмещённую оценку Чтобы вычислить MSE, верните n-за-d матрицу остатков, E (третий mvregress выход). Затем,

MSE=∑i=1neiei′n−K,

где ei = (yi Xiβ) ′ - i-я строка Е.

Ковариационные взвешенные наименьшие квадраты

Для большинства многомерных проблем ковариационная матрица единичных ошибок недостаточна и приводит к неэффективным или смещенным стандартным оценкам ошибок. Можно указать матрицу для оценки CWLS, используя необязательный аргумент пары имя-значение covar0например, обратимая d-by-d матрица с именем C0. Обычно C0 является диагональной матрицей, такой, что обратная матрица C0 1 содержит веса для каждой размерности для моделирования гетероскедастичности. Однако C0 также может быть недиагональной матрицей, моделирующей корреляцию.

Учитывая C0, решение CWLS является вектором b, который минимизирует

∑i=1n (yi Xib) C0 (yi − Xib).

В этом случае K-by-1 вектором оценок коэффициента регрессии CWLS является

bCWLS = (X (In⊗C0) 1X) 1X (In⊗C0) − 1y.

Это первый mvregress выход.

Если Λ = C0, это обобщённое решение наименьших квадратов (GLS). Соответствующая матрица дисперсии-ковариации оценок CWLS

V (bCWLS) = (X '(In⊗C0) 1X) − 1.

Это уже четвертый mvregress выход. Стандартные ошибки коэффициентов регрессии CWLS являются квадратным корнем диагонали этой матрицы дисперсии-ковариации.

Если вы знаете только матрицу ковариации ошибок вплоть до пропорции, то есть Λ = σ2C0, вы можете умножить mvregress матрица дисперсии-ковариации MSE, как описано в Ordinary Least Squares.

Оценка ковариации ошибок

Независимо от того, какой метод наименьших квадратов используется, оценка для матрицы дисперсия-ковариация ошибок равна

Λ ^ = (σ^12σ^12⋯σ^1dσ^12σ^22⋯σ^2d⋮⋮⋱⋮σ^1dσ^2d⋯σ^d2) =E′En,

где E - матрица остатков n-за-d. I-я строка E равна ei = (yi Xib) ′.

Оценка ковариации погрешности, Λ ^, является второйmvregress и матрица остатков E является третьим выходом. Если указана дополнительная пара имя-значение 'covtype','diagonal', то mvregress возвращает Λ ^ с нулями во внедиагональных записях,

Σ^=(σ^120⋱0σ^d2).

Возможные обобщенные наименьшие квадраты

Обобщенная оценка наименьших квадратов является оценкой CWLS с известной матрицей ковариации. То есть, при условии, что Λ известен, решение GLS является

bGLS = (X (In⊗Σ) 1X) 1X (In⊗Σ) − 1y,

с матрицей дисперсии-ковариации

V (bGLS) = (X (In⊗Σ) 1X) − 1.

В большинстве случаев ковариация ошибок неизвестна. В осуществимой обобщенной оценке наименьших квадратов (FGLS) вместо Λ используется Λ ^. Двухшаговые оценки FGLS можно получить следующим образом:

  1. Выполните регрессию OLS и верните оценку Λ ^.

  2. Выполните регрессию CWLS, используя C0 = Λ ^.

Можно также выполнять итерацию между этими двумя шагами до тех пор, пока не будет достигнута сходимость.

Для некоторых данных оценка OLS Λ ^ является положительной полуопределённой, и не имеет уникальной обратной. В этом случае невозможно получить оценку FGLS с помощьюmvregress. В качестве альтернативы можно использовать lscov, которая использует обобщенную обратную для возврата взвешенных решений наименьших квадратов для положительных полуопределённых ковариационных матриц.

Исправленные стандартные ошибки панели

Альтернативой FGLS является использование оценок коэффициентов OLS (которые являются непротиворечивыми) и стандартная коррекция ошибок для повышения эффективности. Одной из таких стандартных корректировок ошибок, которая не требует инверсии ковариационной матрицы, является панельная коррекция стандартных ошибок (PCSE) [1]. Скорректированная панелью матрица дисперсии-ковариации для оценок ОЛС

Vpcse (bOLS) = (X X) 1X (In⊗Σ) X (X ′ X) − 1.

PCSE являются квадратным корнем диагонали этой матрицы дисперсии-ковариации. Модель панели «Фиксированные эффекты» с параллельной корреляцией иллюстрирует вычисление PCSE.

Оценка максимального правдоподобия

Оценки максимального правдоподобия

Алгоритм оценки по умолчанию, используемый mvregress - оценка максимального правдоподобия (MLE). Функция логарифмирования для многомерной модели линейной регрессии

logL (β, Λ 'y, X) = 12ndlog (2λ) + 12nlog (det (Λ)) +12∑i=1n (yi Xiβ) Λ 1 (yi Xiβ).

MLE для β и Λ являются значениями, которые максимизируют целевую функцию loglikeability.

mvregress находит MLE с помощью итеративного двухэтапного алгоритма. При итерации m + 1 оценки

bMLE (m + 1) = (X (In⊗Σ (m)) 1X) 1X ′ (In⊗Σ (m)) − 1y

и

Λ ^ (m + 1) =1n∑i=1n (yi XibMLE (m + 1)) (yi XibMLE (m + 1)) ′.

Алгоритм завершается, когда изменения в оценках коэффициентов и целевой функции логарифма меньше заданного допуска, или когда достигнуто заданное максимальное количество итераций. Необязательные аргументы пары имя-значение для изменения этих критериев сходимости: tolbeta, tolobj, и maxiterсоответственно.

Стандартные ошибки

Матрица дисперсии-ковариации MLE является необязательной mvregress выход. По умолчанию mvregress возвращает матрицу дисперсия-ковариация только для коэффициентов регрессии, но можно также получить матрицу дисперсия-ковариация, относящуюся к Λ ^, используя опциональную пару имя-значение'vartype','full'. В этом случае mvregress возвращает матрицу дисперсии-ковариации для всех коэффициентов К регрессии, и d или d (d + 1 )/2 ковариационных членов (в зависимости от того, является ли ковариация ошибки диагональной или полной).

По умолчанию матрица дисперсии-ковариации является обратной наблюдаемой информационной матрицей Фишера ( 'hessian' опция). Вы можете запросить ожидаемую матрицу информации Фишера, используя опциональную пару имя-значение 'vartype','fisher'. При отсутствии отсутствующих данных ответа наблюдаемые и ожидаемые информационные матрицы Фишера одинаковы. Если данные ответа отсутствуют, наблюдаемая информация Фишера учитывает добавленную неопределенность из-за пропущенных значений, в то время как ожидаемая матрица информации Фишера этого не делает.

Матрица дисперсии-ковариации для коэффициента регрессии MLE равна

V (bMLE) = (X (In⊗Σ^) 1X) − 1,

оценивается в MLE матрицы ковариации ошибок. Это уже четвертый mvregress выход. Стандартные ошибки MLE являются квадратным корнем диагонали этой матрицы дисперсии-ковариации.

Для Λ ^ пусть λ обозначает вектор параметров в оценочной матрице дисперсия-ковариация погрешности. Например, если d = 2, то :

  • Если оценочная ковариационная матрица диагональна, то start= = (λ ^ 12, λ ^ 22).

  • Если оценочная ковариационная матрица заполнена, то start= = (λ ^ 12, λ ^ 12, λ ^ 22).

Информационная матрица Фишера для

I (start) u, v = 12tr (Σ^−1​∂Σ^∂θuΣ^−1​∂Σ^∂θv), u, v = 1,..., n

где - длина (d или d (d + 1 )/2). Результирующей матрицей дисперсии-ковариации является

V (start) = I (start) − 1.

При запросе матрицы полная дисперсия-ковариация mvregress возвращает (в качестве четвертого вывода) блок-диагональную матрицу

(V (bMLE) 00V (start)).

Отсутствующие данные ответа

Ожидание/Условная максимизация

Если какие-либо значения ответа отсутствуют, указывается NaN, mvregress использует алгоритм ожидания/условной максимизации (ECM) для оценки (при наличии достаточного количества данных). В этом случае алгоритм является итеративным как для наименьших квадратов, так и для оценки максимального правдоподобия. Во время каждой итерации mvregress вменяет отсутствующие значения ответа, используя их условное ожидание.

Рассмотрите возможность организации данных таким образом, чтобы совместное распределение отсутствующих и наблюдаемых ответов, обозначенных и y соответственно, можно было записать как

(y˜y) ∼MVN {(X˜βXβ), (Σy˜Σy˜yΣyy˜Σy)}.

Используя свойства многомерного нормального распределения, условное ожидание отсутствующих ответов с учетом наблюдаемых ответов

E (y˜|y) =X˜β+Σy˜yΣy−1 (y Xβ).

Кроме того, матрица дисперсии-ковариации условного распределения

COV (y˜|y) =Σy˜−Σy˜yΣy−1Σyy˜.

При каждой итерации алгоритма ECM mvregress использует значения параметров из предыдущей итерации для:

  • Обновление коэффициентов регрессии с использованием комбинированного вектора наблюдаемых ответов и условных ожиданий отсутствующих ответов.

  • Обновите матрицу дисперсии-ковариации, скорректировав отсутствующие ответы, используя матрицу дисперсии-ковариации условного распределения.

Наконец, остатки, которые mvregress возвращаемые значения для отсутствующих ответов представляют собой разницу между условным ожиданием и подгоняемым значением, которые оба оцениваются в окончательных оценках параметров.

Если вы предпочитаете игнорировать любые наблюдения с отсутствующими значениями ответа, используйте пару имя-значение 'algorithm','mvn'. Обратите внимание, что mvregress всегда игнорирует наблюдения с отсутствующими предикторными значениями.

Матрица наблюдаемой информации

По умолчанию mvregress использует наблюдаемую информационную матрицу Фишера ( 'hessian' опция) для вычисления матрицы дисперсии-ковариации параметров регрессии. Это объясняет дополнительную неопределенность из-за отсутствующих значений ответа.

Наблюдаемая информационная матрица включает в себя вклады только наблюдаемых ответов. То есть наблюдаемая информационная матрица Фишера для параметров в матрице дисперсия-ковариация ошибок имеет элементы

I (start) u,v=12∑i=1ntr (Σ^i​−1∂Σ^i∂θuΣ^i​−1​∂Σ^i∂θv), u, v = 1,..., n

где Λ ^ i - подмножество Λ ^, соответствующее наблюдаемым откликам в yi.

Например, если d = 3, но yi2 отсутствует, то

Σ^i=(σ^12σ^13σ^13σ^32).

Наблюдаемая информация Фишера для коэффициентов регрессии имеет аналогичные вклады от матриц конструкции и ковариации.

Ссылки

[1] Бек, Н. и Дж. Н. Кац. «Что делать (а не делать) с данными временных рядов и сечений в сравнительной политике». Обзор американских политических наук, том 89, № 3, стр. 634-647, 1995 год.

См. также

|

Связанные примеры

Подробнее