Оценка многомерных моделей регрессии

Оценка методом наименьших квадратов

Обычные наименьшие квадраты
Метод взвешенных наименьших квадратов ковариации
Ошибочная оценка ковариации
Выполнимые обобщенные наименьшие квадраты
Панель откорректированные стандартные погрешности

Обычные наименьшие квадраты

Когда вы подбираете многомерные модели линейной регрессии с помощью mvregress, можно использовать дополнительную пару "имя-значение" 'algorithm','cwls' выбрать оценку методом наименьших квадратов. В этом случае, по умолчанию, mvregress возвращается обычные наименьшие квадраты (OLS) оценивают использование $Σ = I_{d}$ . В качестве альтернативы, если вы задаете ковариационную матрицу для взвешивания, можно возвратить метод взвешенных наименьших квадратов ковариации (CWLS) оценки. Если вы комбинируете OLS и CWLS, можно получить оценки выполнимых обобщенных наименьших квадратов (FGLS).

Оценка OLS для вектора коэффициентов является вектором $b$ это минимизирует

$\sum_{i = 1}^{n} {(y_{i} - X_{i} b)}^{'} (y_{i} - X_{i} b) .$

Пусть $y$ обозначьте nd-by-1 вектор сложенного d - размерные ответы, и $X$ обозначьте nd-by-K матрица сложенных матриц проекта. K-by-1 вектор оценок коэффициента регрессии OLS

$b_{O L S} = {(X^{'} X)}^{- 1} X^{'} y .$

Это - первый mvregress вывод .

Данный $Σ = I_{d}$ (mvregress Значение по умолчанию OLS), ковариационная матрица отклонения оценок OLS

$V (b_{O L S}) = {(X^{'} X)}^{- 1} .$

Это - четвертый mvregress вывод . Стандартные погрешности коэффициентов регрессии OLS являются квадратным корнем из диагонали этой ковариационной матрицы отклонения.

Если ваши данные не масштабируются таким образом что $Σ = σ^{2} I_{d}$ , затем можно умножить mvregress ковариационная матрица отклонения среднеквадратической ошибкой (MSE), объективной оценкой $σ^{2}$ . Чтобы вычислить MSE, возвратите n-by-d матрица остаточных значений, $E$ (третий mvregress вывод . Затем,

$MSE = \frac{\sum_{i = 1}^{n} e_{i} e_{i}^{'}}{n - K},$

где $e_{i} = (y_{i} - X_{i} β)^{'}$ i th строка $E$ .

Метод взвешенных наименьших квадратов ковариации

Для большинства многомерных проблем единичная ошибочная ковариационная матрица недостаточна, и приводит к неэффективным или смещенным оценкам стандартной погрешности. Можно задать матрицу для оценки CWLS с помощью дополнительного аргумента пары "имя-значение" covar0, например, обратимый d-by-d матрица называют $C_{0}$ . Обычно, $C_{0}$ диагональ, матрицируют таким образом что обратная матрица $C_{0}^{- 1}$ содержит веса для каждой размерности к модели heteroscedasticity. Однако $C_{0}$ может также быть недиагональная матрица та корреляция моделей.

Данный $C_{0}$ , решение CWLS является вектором $b$ это минимизирует

$\sum_{i = 1}^{n} {(y_{i} - X_{i} b)}^{'} C_{0} (y_{i} - X_{i} b) .$

В этом случае K-by-1 вектор оценок коэффициента регрессии CWLS

$b_{C W L S} = {(X^{'} {(I_{n} \otimes C_{0})}^{- 1} X)}^{- 1} X^{'} {(I_{n} \otimes C_{0})}^{- 1} y .$

Это - первый mvregress вывод .

Если $Σ = C_{0}$ , это - решение для обобщенных наименьших квадратов (GLS). Соответствующая ковариационная матрица отклонения оценок CWLS

$V (b_{C W L S}) = {(X' {(I_{n} \otimes C_{0})}^{- 1} X)}^{- 1} .$

Это - четвертый mvregress вывод . Стандартные погрешности коэффициентов регрессии CWLS являются квадратным корнем из диагонали этой ковариационной матрицы отклонения.

Если вы только знаете ошибочную ковариационную матрицу до пропорции, то есть, $Σ = σ^{2} C_{0}$ , можно умножить mvregress ковариационная матрица отклонения MSE, как описано в Обычных Наименьших квадратах.

Ошибочная оценка ковариации

Независимо от которого метода наименьших квадратов вы используете, оценка для ошибочной ковариационной матрицы отклонения

$\hat{Σ} = (\begin{matrix} {\hat{σ}}_{1}^{2} & {\hat{σ}}_{12} & \dots & {\hat{σ}}_{1 d} \\ {\hat{σ}}_{12} & {\hat{σ}}_{2}^{2} & \dots & {\hat{σ}}_{2 d} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ {\hat{σ}}_{1 d} & {\hat{σ}}_{2 d} & \dots & {\hat{σ}}_{d}^{2} \end{matrix}) = \frac{E^{'} E}{n},$

где $E$ n-by-d матрица остаточных значений. i th строка $E$ $e_{i} = {(y_{i} - X_{i} b)}^{'} .$

Ошибочная оценка ковариации, $\hat{Σ}$ , второй mvregress выведите, и матрица остаточных значений, $E$ , третий выход. Если вы задаете дополнительную пару "имя-значение" 'covtype','diagonal', затем mvregress возвращается $\hat{Σ}$ с нулями в недиагональных записях,

$\hat{Σ} = (\begin{matrix} {\hat{σ}}_{1}^{2} & 0 \\ ⋱ \\ 0 & {\hat{σ}}_{d}^{2} \end{matrix}) .$

Выполнимые обобщенные наименьшие квадраты

Обобщенная оценка методом наименьших квадратов является оценкой CWLS с известной ковариационной матрицей. Таким образом, данный $Σ$ известен, решение GLS

$b_{G L S} = {(X^{'} {(I_{n} \otimes Σ)}^{- 1} X)}^{- 1} X^{'} {(I_{n} \otimes Σ)}^{- 1} y,$

с ковариационной матрицей отклонения

$V (b_{G L S}) = {(X^{'} {(I_{n} \otimes Σ)}^{- 1} X)}^{- 1} .$

В большинстве случаев ошибочная ковариация неизвестна. Оценочное использование выполнимых обобщенных наименьших квадратов (FGLS) $\hat{Σ}$ вместо $Σ$ . Можно получить двухступенчатые оценки FGLS можно следующим образом:

Выполните регрессию OLS и возвратите оценку $\hat{Σ}$ .
Выполните регрессию CWLS, с помощью $C_{0} = \hat{Σ}$ .

Можно также выполнить итерации между этими двумя шагами, пока сходимость не достигнута.

Для некоторых данных, оценки OLS $\hat{Σ}$ положительны полуопределенный, и не имеет никакой уникальной инверсии. В этом случае вы не можете получить оценку FGLS с помощью mvregress. Как альтернатива, можно использовать lscov, который использует обобщенную инверсию, чтобы возвратить решения для метода взвешенных наименьших квадратов для положительных полуопределенных ковариационных матриц.

Панель откорректированные стандартные погрешности

Альтернатива FGLS должна использовать содействующие оценки OLS (которые сопоставимы), и сделайте коррекцию стандартной погрешности, чтобы повысить эффективность. Одна такая корректировка стандартной погрешности — который не требует инверсии ковариационной матрицы — является панелью откорректировала стандартные погрешности (PCSE) [1]. Откорректированная ковариационная матрица отклонения панели для оценок OLS

$V_{p c s e} (b_{O L S}) = {(X^{'} X)}^{- 1} X^{'} (I_{n} \otimes Σ) X {(X^{'} X)}^{- 1} .$

PCSE являются квадратным корнем из диагонали этой ковариационной матрицы отклонения. Фиксированная Модель Панели Эффектов с Параллельной Корреляцией иллюстрирует расчет PCSE.

Оценки наибольшего правдоподобия

Алгоритм оценки по умолчанию используется mvregress оценка наибольшего правдоподобия (MLE). Функция логарифмической правдоподобности для многомерной модели линейной регрессии

$\begin{array}{l} \log L (β, Σ | y, X) = \frac{1}{2} n d \log (2 π) + \frac{1}{2} n \log (\det (Σ)) \\ + \frac{1}{2} \sum_{i = 1}^{n} {(y_{i} - X_{i} β)}^{'} Σ^{- 1} (y_{i} - X_{i} β) . \\ \end{array}$

MLEs для $β$ и $Σ$ значения, которые максимизируют целевую функцию логарифмической правдоподобности.

mvregress находит MLEs использованием итеративного алгоритма 2D этапа. В итерации m + 1, оценки

$b_{M L E}^{(m + 1)} = {(X^{'} {(I_{n} \otimes Σ^{(m)})}^{- 1} X)}^{- 1} X^{'} {(I_{n} \otimes Σ^{(m)})}^{- 1} y$

${\hat{Σ}}^{(m + 1)} = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - X_{i} b_{M L E}^{(m + 1)}) {(y_{i} - X_{i} b_{M L E}^{(m + 1)})}^{'} .$

Алгоритм останавливается, когда изменения в содействующих оценках и целевой функции логарифмической правдоподобности меньше заданного допуска, или когда заданное максимальное количество итераций достигнуто. Дополнительными аргументами пары "имя-значение" для изменения этих критериев сходимости является tolbeta, tolobj, и maxiter, соответственно.

Стандартные погрешности

Ковариационной матрицей отклонения MLEs является дополнительный mvregress вывод . По умолчанию, mvregress возвращает ковариационную матрицу отклонения только для коэффициентов регрессии, но можно также получить ковариационную матрицу отклонения $\hat{Σ}$ использование дополнительной пары "имя-значение" 'vartype','full'. В этом случае, mvregress возвращает ковариационную матрицу отклонения для всех коэффициентов регрессии K, и d или d (d + 1)/2 условия ковариации (в зависимости от того, является ли ошибочная ковариация диагональной или полной).

По умолчанию ковариационная матрица отклонения является инверсией наблюдаемой матрицы информации о Фишере ('hessian' опция). Можно запросить ожидаемую матрицу информации о Фишере использование дополнительной пары "имя-значение" 'vartype','fisher'. Если нет никаких недостающих данных об ответе, наблюдаемые и ожидаемые матрицы информации о Фишере являются тем же самым. Если данные об ответе отсутствуют, наблюдаемая информация о Фишере составляет добавленную неопределенность из-за отсутствующих значений, тогда как ожидаемая матрица информации о Фишере не делает.

Ковариационная матрица отклонения для коэффициента регрессии MLEs

$V (b_{M L E}) = {(X^{'} {(I_{n} \otimes \hat{Σ})}^{- 1} X)}^{- 1},$

оцененный в MLE ошибочной ковариационной матрицы. Это - четвертый mvregress вывод . Стандартные погрешности MLEs являются квадратным корнем из диагонали этой ковариационной матрицы отклонения.

Для $\hat{Σ}$ Пусть $θ$ обозначьте вектор параметров в предполагаемой ошибочной ковариационной матрице отклонения. Например, если d = 2, то:

Если предполагаемая ковариационная матрица является диагональной, то $θ = ({\hat{σ}}_{1}^{2}, {\hat{σ}}_{2}^{2})$ .
Если предполагаемая ковариационная матрица полна, то $θ = ({\hat{σ}}_{1}^{2}, {\hat{σ}}_{12}, {\hat{σ}}_{2}^{2})$ .

Матрица информации о Фишере для $θ$ , $I (θ)$ , имеет элементы

$I {(θ)}_{u, v} = \frac{1}{2} t r ({\hat{Σ}}^{- 1} \frac{\partial \hat{Σ}}{\partial θ_{u}} {\hat{Σ}}^{- 1} \frac{\partial \hat{Σ}}{\partial θ_{v}}), u, v = 1, \dots, n_{θ},$

где $n_{θ}$ длина $θ$ (или d или d (d + 1)/2). Получившаяся ковариационная матрица отклонения

$V (θ) = I {(θ)}^{- 1} .$

Когда вы запрашиваете полную ковариационную матрицу отклонения, mvregress возвращает (как четвертый выход) матрицу диагонали блока

$(\begin{matrix} V (b_{M L E}) & 0 \\ 0 & V (θ) \end{matrix}) .$

Пропавшие без вести данных об ответе

Максимизация ожидания/Условного выражения
Наблюдаемая информационная матрица

Максимизация ожидания/Условного выражения

Если какие-либо значения ответа отсутствуют, обозначенный NaN, mvregress использует максимизацию ожидания/условного выражения (ECM) алгоритм для оценки (если достаточно данных доступно). В этом случае алгоритм является итеративным для обоих наименьших квадратов и оценки наибольшего правдоподобия. Во время каждой итерации, mvregress приписывает недостающие значения ответа с помощью их условного ожидания.

Рассмотрите организацию данных так, чтобы совместное распределение пропавших без вести и наблюдаемые ответы, обозначенные $\tilde{y}$ и $y$ соответственно, может быть записан как

$(\begin{array}{l} \tilde{y} \\ y \end{array}) \sim M V N {(\begin{array}{l} \tilde{X} β \\ X β \end{array}), (\begin{matrix} Σ_{\tilde{y}} & Σ_{\tilde{y}}_{y} \\ Σ_{y \tilde{y}} & Σ_{y} \end{matrix})} .$

Используя свойства многомерного нормального распределения, условное ожидание недостающих ответов, учитывая наблюдаемые ответы

$E (\tilde{y} | y) = \tilde{X} β + Σ_{\tilde{y} y} Σ_{y}^{- 1} (y - X β) .$

Кроме того, ковариационная матрица отклонения условного распределения

$COV (\tilde{y} | y) = Σ_{\tilde{y}} - Σ_{\tilde{y} y} Σ_{y}^{- 1} Σ_{y \tilde{y}} .$

В каждой итерации алгоритма ECM, mvregress использует значения параметров от предыдущей итерации до:

Обновите коэффициенты регрессии с помощью объединенного вектора наблюдаемых ответов и условных ожиданий недостающих ответов.
Обновите ковариационную матрицу отклонения, настраивающую для недостающих ответов с помощью ковариационной матрицы отклонения условного распределения.

Наконец, остаточные значения, что mvregress возвращается для недостающих ответов, различие между условным ожиданием и подходящим значением, оба оцененные в итоговых оценках параметра.

Если вы предпочитаете игнорировать какие-либо наблюдения, которые имеют недостающие значения ответа, используют пару "имя-значение" 'algorithm','mvn'. Обратите внимание на то, что mvregress всегда игнорирует наблюдения, которые имеют недостающие значения предиктора.

Наблюдаемая информационная матрица

По умолчанию, mvregress использует наблюдаемую матрицу информации о Фишере ('hessian' опция), чтобы вычислить ковариационную матрицу отклонения параметров регрессии. Это составляет дополнительную неопределенность из-за недостающих значений ответа.

Наблюдаемая информационная матрица включает вклады только от наблюдаемых ответов. Таким образом, наблюдаемая матрица информации о Фишере для параметров в ошибочной ковариационной матрице отклонения имеет элементы

$I {(θ)}_{u, v} = \frac{1}{2} \sum_{i = 1}^{n} t r ({\hat{Σ}}_{^{i} }^{- 1} \frac{\partial {\hat{Σ}}_{i}}{\partial θ_{u}} {\hat{Σ}}_{^{i} }^{- 1} \frac{\partial {\hat{Σ}}_{i}}{\partial θ_{v}}), u, v = 1, \dots, n_{θ},$

где ${\hat{Σ}}_{i}$ подмножество $\hat{Σ}$ соответствие наблюдаемым ответам в $y_{i} .$

Например, если d = 3, но $y_{i 2}$ отсутствует, затем

${\hat{Σ}}_{i} = (\begin{matrix} {\hat{σ}}_{1}^{2} & {\hat{σ}}_{13} \\ {\hat{σ}}_{13} & {\hat{σ}}_{3}^{2} \end{matrix}) .$

Наблюдаемая информация о Фишере для коэффициентов регрессии имеет подобные вклады из проекта и ковариационных матриц.

Ссылки

[1] Приветствие, N. и Дж. Н. Кац. Что Сделать (а Не Сделать) с Серийными Данными Сечения Времени в Сравнительной Политике. Американский Анализ Политологии, Издание 89, № 3, стр 634–647, 1995.

Смотрите также

mvregress | mvregresslike

Связанные примеры

Больше о

Многомерная линейная регрессия

Документация