Многомерная нормальная регрессия

Введение

Этот раздел фокусируется на использовании основанных на вероятности методов для многомерной нормальной регрессии. Параметры модели регрессии оцениваются через оценку наибольшего правдоподобия. Для нескольких рядов это требует итерации до сходимости. Осложнение из-за возможности недостающих данных включено в анализ с вариантом алгоритма EM, известного как алгоритм ECM.

Базовая теория оценки наибольшего правдоподобия и определение и значение матрицы информации о Фишере могут быть найдены в Caines [1] и Cramér [2]. Базовая теория алгоритма ECM может быть найдена в Мэне и Рубине [8] и Секстон и Свенсен [9].

Кроме того, эти два примера оценки наибольшего правдоподобия представлены:

Многомерная нормальная линейная регрессия

Предположим, что у вас есть многомерная нормальная модель линейной регрессии в форме

$[\begin{matrix} Z_{1} \\ ⋮ \\ Z_{m} \end{matrix}] ~ N ([\begin{matrix} H_{1} b \\ ⋮ \\ H_{m} b \end{matrix}], [\begin{matrix} C & 0 \\ ⋱ \\ 0 & C \end{matrix}]),$

где модель имеет m наблюдения за n-мерными случайными переменными Z1..., Zm с моделью линейной регрессии, которая имеет p-dimensional вектор параметра модели b. Кроме того, модель имеет последовательность H1 матриц проекта m..., Гм, где каждая матрица проекта является известной n-by-p матрицей.

Учитывая вектор параметра b и набор матриц проекта, набор m независимых переменных Zk принят, чтобы иметь независимые тождественно распределенные многомерные нормальные остаточные ошибки Zk – Hk b с n-вектором означает 0 и n- n ковариационная матрица C для каждого k = 1..., m.

Краткий способ записать эту модель

$Z_{k} \sim N (H_{k} b, C)$

для k = 1..., m.

Цель многомерной нормальной регрессии состоит в том, чтобы получить оценки наибольшего правдоподобия для b и C, учитывая набор m наблюдений z1..., zm случайных переменных Z1..., Zm. Предполагаемые параметры являются p отличными элементами b и n (n + 1)/2 отличные элементы C (нижние треугольные элементы C).

Примечание

Оценка квазинаибольшего правдоподобия работает с теми же моделями, но с релаксацией предположения о нормально распределенных остаточных значениях. В этом случае, однако, оценки параметра асимптотически оптимальны.

Оценка наибольшего правдоподобия

Чтобы оценить параметры многомерной нормальной модели линейной регрессии, использующей оценку наибольшего правдоподобия, необходимо максимизировать функцию логарифмической правдоподобности по заданным наблюдениям параметров оценки z1..., zm.

Учитывая многомерную нормальную модель, чтобы охарактеризовать остаточные ошибки в модели регрессии, функция логарифмической правдоподобности

$\begin{matrix} L (z_{1}, \dots, z_{m}; b, C) = \frac{1}{2} m n \log (2 π) + \frac{1}{2} m \log (\det (C)) \\ + \frac{1}{2} \sum_{k = 1}^{m} {(z_{k} - H_{k} b)}^{T} C^{- 1} (z_{k} - H_{k} b) . \end{matrix}$

Несмотря на то, что перекрестные частные остаточные значения должны быть независимыми, можно использовать эту функцию логарифмической правдоподобности для оценки квазинаибольшего правдоподобия. В этом случае оценки для параметров b и C обеспечивают оценки, чтобы охарактеризовать первые и вторые моменты остаточных значений. Смотрите Caines [1] для деталей.

За исключением особого случая (см. Особый случай Модели Многофакторной линейной регрессии), если и параметры модели в b и параметры ковариации в C должны быть оценены, проблема оценки тяжело нелинейна, и решение должно использовать итерационные методы. Обозначьте оценки для параметров b и C для итерации t = 0, 1... с обозначением b (t) и C (t) верхнего индекса.

Учитывая первоначальные оценки b ⁽⁰⁾ и C ⁽⁰⁾ для параметров, оценок наибольшего правдоподобия для b и C получены с помощью итеративного процесса 2D этапа с

$b^{(t + 1)} = {(\sum_{k = 1}^{m} H_{k}^{T} {(C^{(t)})}^{- 1} H_{k})}^{- 1} (\sum_{k = 1}^{m} H_{k}^{T} {(C^{(t)})}^{- 1} z_{k})$

$C^{(t + 1)} = \frac{1}{m} \sum_{k = 1}^{m} (z_{k} - H_{k} b^{(t + 1)}) {(z_{k} - H_{k} b^{(t + 1)})}^{T}$

для t = 0, 1....

Особый случай модели многофакторной линейной регрессии

Особый случай, упомянутый по Оценке Наибольшего правдоподобия, происходит, если n = 1 так, чтобы последовательность наблюдений была последовательностью скалярных наблюдений. Эта модель известна как модель линейной регрессии кратного. В этом случае ковариационной матрицей C является 1- 1 матрица, которая выпадает из наибольшего правдоподобия, выполняет итерации так, чтобы одноступенчатая оценка для b и C могла быть получена со сходившимися оценками b ⁽¹⁾ и C ⁽¹⁾.

Регрессия наименьших квадратов

Другое упрощение общей модели называется регрессией наименьших квадратов. Если b ⁽⁰⁾ = 0 и C ⁽⁰⁾ = я, затем b ⁽¹⁾ и C ⁽¹⁾ от итеративного процесса 2D этапа являюсь оценками наименьших квадратов для b и C, где

$b^{L S} = {(\sum_{k = 1}^{m} H_{k}^{T} H_{k})}^{- 1} (\sum_{k = 1}^{m} H_{k}^{T} z_{k})$

$C^{L S} = \frac{1}{m} \sum_{k = 1}^{m} (z_{k} - H_{k} b^{L S}) {(z_{k} - H_{k} b^{L S})}^{T} .$

Среднее значение и оценка ковариации

Итоговое упрощение общей модели должно оценить среднее значение и ковариацию последовательности n-мерных наблюдений z1..., zm. В этом случае количество ряда равно количеству параметров модели с n = p, и матрицы проекта являются единичными матрицами с Hk = я, поскольку i = 1..., m так, чтобы b был оценкой для среднего значения и C, являюсь оценкой ковариации набора наблюдений z1..., zm.

Сходимость

Если итеративный процесс продолжается до увеличений функции логарифмической правдоподобности не больше, чем заданной суммой результирующими оценками, как говорят, является оценочный BML наибольшего правдоподобия и CML.

Если n = 1 (который подразумевает один ряд данных), сходимость происходит только после одного итеративного шага, который, в свою очередь, подразумевает, что наименьшие квадраты и оценки наибольшего правдоподобия идентичны. Если, однако, n> 1, наименьшие квадраты и оценки наибольшего правдоподобия обычно отличны.

В программном обеспечении Financial Toolbox™ проверены и изменения в функции логарифмической правдоподобности и норма изменения в оценках параметра. Каждый раз, когда оба изменения падают ниже заданных допусков (который должен быть чем-то между точностью машины и ее квадратным корнем), функции тулбокса, оконечные под предположением, что сходимость была достигнута.

Информация о Фишере

Поскольку мнения наибольшего правдоподобия составлены от выборок случайных переменных, их средства оценки являются случайными переменными; оценке, выведенной из таких выборок, сопоставили неопределенность с ним. Чтобы охарактеризовать эту неопределенность, которая называется стандартными погрешностями, два количества выведены из общей функции логарифмической правдоподобности.

Гессиан общей функции логарифмической правдоподобности

$\nabla^{2} L (z_{1}, \dots, z_{m}; θ)$

и матрица информации о Фишере

$I (θ) = - E [\nabla^{2} L (z_{1}, \dots, z_{m}; θ)],$

где частные производные $\nabla^{2}$ оператор взят относительно объединенного вектора параметра Θ, который содержит отличные компоненты b и C с в общей сложности q = p + n (n + 1)/2 параметры.

Поскольку оценка наибольшего правдоподобия касается оценок большой выборки, центральная предельная теорема применяется к оценкам, и матрица информации о Фишере играет ключевую роль в распределении выборки оценок параметра. А именно, оценки параметра наибольшего правдоподобия асимптотически нормально распределены таким образом что

$(θ^{(t)} - θ) \sim N (0, I^{- 1}, (θ^{(t)})) как t \to \infty,$

где Θ является объединенным вектором параметра, и Θ ^(t) является оценкой для объединенного вектора параметра в итерации t = 0, 1....

Матрица информации о Фишере обеспечивает нижнюю границу, названную нижней границей Крэмер-Рао, для стандартных погрешностей оценок параметров модели.

Статистические тесты

Учитывая оценку для объединенного вектора параметра Θ, стандартные погрешности в квадрате являются диагональными элементами инверсии матрицы информации о Фишере

$s^{2} ({\hat{θ}}_{i}) = {(I^{- 1} ({\hat{θ}}_{i}))}_{i i}$

для i = 1..., q.

Поскольку стандартные погрешности являются оценками для стандартных отклонений оценок параметра, можно создать доверительные интервалы так, чтобы, например, 95%-й интервал для каждой оценки параметра был приблизительно

${\hat{θ}}_{i} \pm 1.96 s ({\hat{θ}}_{i})$

для i = 1..., q.

Ошибочные замещающие знаки на уровне значения α ε [0, 1] для оценок параметра удовлетворяют неравенству

${(θ - \hat{θ})}^{T} I (\hat{θ}) (θ - \hat{θ}) \leq χ_{1 - α, q}^{2}$

и следуйте за a $χ^{2}$ распределение со степенями свободы q. Подобные неравенства могут быть сформированы для любого поднабора параметров.

В общем случае, учитывая оценки параметра, вычисленную матрицу информации о Фишере и функцию логарифмической правдоподобности, можно выполнить многочисленные статистические тесты на параметрах, модели и регрессии.

Документация