Многомерная нормальная регрессия

Введение

Этот раздел посвящен использованию основанных на вероятностях методов для многомерной нормальной регрессии. Параметры регрессионной модели оцениваются посредством максимальной оценки правдоподобия. Для нескольких рядов это требует итерации до сходимости. Усложнение из-за возможности недостающих данных включено в анализ с вариантом алгоритма EM, известным как алгоритм ECM.

Базовую теорию максимальной оценки правдоподобия и определение и значимость информационной матрицы Фишера можно найти в Caines [1] и Cramér [2]. Базовую теорию алгоритма ECM можно найти в Meng and Rubin [8] и Sexton and Swensen [9].

В сложение представлены эти два примера максимальной оценки правдоподобия:

Многомерная нормальная линейная регрессия

Предположим, что у вас есть многомерная нормальная линейная регрессионая модель в форме

$[\begin{matrix} Z_{1} \\ ⋮ \\ Z_{m} \end{matrix}] ~ N ([\begin{matrix} H_{1} b \\ ⋮ \\ H_{m} b \end{matrix}], [\begin{matrix} C & 0 \\ ⋱ \\ 0 & C \end{matrix}]),$

где модель имеет m наблюдений n-мерных случайных переменных Z1,..., Zm с линейной регрессионой, которая имеет вектор параметра p-размерной модели b. Кроме того, модель имеет последовательность m матриц проекта H1_,..., Hm, где каждая матрица проекта является известной матрицей n на p.

Учитывая вектор параметра b и набор проекта матриц, набор m независимых переменных Zk, как принято, имеет независимые одинаково распределенные многомерные нормальные остаточные ошибки Zk - Hk b со средним n-вектором 0 и n-by- n ковариационная матрица C для каждого k = 1,..., m.

Краткий способ написания этой модели -

$Z_{k} \sim N (H_{k} b, C)$

для k = 1,..., m.

Цель многомерной нормальной регрессии состоит в том, чтобы получить максимальные оценки правдоподобия для b и C, учитывая набор m наблюдений z1,..., zm случайных переменных Z1_,..., Zm. Предполагаемыми параметрами являются p различных элементов b и n (n + 1 )/2 различных элементов C (нижнетреугольных элементов C).

Примечание

Квазимаксимальная оценка правдоподобия работает с теми же моделями, но с ослаблением предположения о нормально распределенных невязках. В этом случае, однако, оценки параметров асимптотически оптимальны.

Оценка максимальных вероятностей

Чтобы оценить параметры многомерной нормальной линейной регрессионной модели с помощью максимальной оценки правдоподобия, необходимо максимизировать логарифмическую функцию логарифмической правдоподобности над параметрами оценки, заданными наблюдениями z1,..., zm.

Учитывая многомерную нормальную модель для характеристики остаточных ошибок в регрессионой модели, функция логарифмической правдоподобности является

$\begin{matrix} L (z_{1}, \dots, z_{m}; b, C) = \frac{1}{2} m n \log (2 π) + \frac{1}{2} m \log (\det (C)) \\ + \frac{1}{2} \sum_{k = 1}^{m} {(z_{k} - H_{k} b)}^{T} C^{- 1} (z_{k} - H_{k} b) . \end{matrix}$

Несмотря на то, что невязки поперечного сечения должны быть независимыми, вы можете использовать эту функцию логарифмической правдоподобности для квази-максимальной оценки правдоподобия. В этом случае оценки параметров b и C обеспечивают оценки для характеристики первого и второго моментов невязок. Для получения дополнительной информации см. раздел Caines [1].

За исключением специального случая (см. Специальный случай множественной линейной регрессионой модели), если оценить как параметры модели в b, так и ковариационные параметры в C, задача оценки неразрывно нелинейна, и решение должно использовать итерационные методы. Обозначите оценки для параметров b и C для итерации t = 0, 1,... с надстрочным обозначением b⁽^t⁾ и C⁽^t⁾.

Учитывая первоначальные оценки b⁽⁰⁾ и C⁽⁰⁾ для параметров максимальные оценки правдоподобия для b и C получаются с помощью двухэтапного итерационного процесса с

$b^{(t + 1)} = {(\sum_{k = 1}^{m} H_{k}^{T} {(C^{(t)})}^{- 1} H_{k})}^{- 1} (\sum_{k = 1}^{m} H_{k}^{T} {(C^{(t)})}^{- 1} z_{k})$

$C^{(t + 1)} = \frac{1}{m} \sum_{k = 1}^{m} (z_{k} - H_{k} b^{(t + 1)}) {(z_{k} - H_{k} b^{(t + 1)})}^{T}$

для t = 0, 1,....

Особый случай Многофакторной линейной регрессии модели

Частный случай, упомянутый в Оценке максимального правдоподобия, происходит, если n = 1, так что последовательность наблюдений является последовательностью скалярных наблюдений. Эта модель известна как множественная линейная регрессионая модель. В этом случае ковариационная матрица C является 1-by- 1 матрица, которая выпадает из максимальных вероятностных итераций, так что одношаговая оценка для b и C может быть получена с сходимыми оценками b⁽¹⁾ и C⁽¹⁾.

Регрессия методом наименьших квадратов

Другое упрощение общей модели называется регрессией методом наименьших квадратов. Если b⁽⁰⁾ = 0 и C⁽⁰⁾ = I, затем b⁽¹⁾ и C⁽¹⁾ из двухэтапного итеративного процесса являются оценки методом наименьших квадратов для b и C, где

$b^{L S} = {(\sum_{k = 1}^{m} H_{k}^{T} H_{k})}^{- 1} (\sum_{k = 1}^{m} H_{k}^{T} z_{k})$

$C^{L S} = \frac{1}{m} \sum_{k = 1}^{m} (z_{k} - H_{k} b^{L S}) {(z_{k} - H_{k} b^{L S})}^{T} .$

Средняя и ковариационная оценка

Окончательное упрощение общей модели состоит в том, чтобы оценить среднее и ковариационную последовательность n-мерных наблюдений z1,..., zm_. В этом случае количество рядов равно количеству параметров модели с n = p и матрицы проекта являются единичными матрицами с Hk = I для i = 1, ..., m так, что b - оценка для среднего, а C - оценка ковариации набора наблюдений z1_,..., zm.

Сходимость

Если итерационный процесс продолжается до тех пор, пока функция логарифмической правдоподобности не увеличивается не более чем на заданную величину, получившиеся оценки называются оценками максимальной правдоподобности b^ML и C^ML.

Если n = 1 (что подразумевает один ряд данных), сходимость происходит только после одного итерационного шага, что, в свою очередь, подразумевает, что оценки методом наименьших квадратов и максимальных правдоподобий идентичны. Если, однако, n > 1, оценки наименьших квадратов и максимальных правдоподобий обычно различны.

В программном обеспечении Financial Toolbox™ контролируются как изменения в функции логарифмической правдоподобности, так и норма изменения оценок параметров. Всякий раз, когда оба изменения падают ниже заданных допусков (что должно быть чем-то между точностью машины и ее квадратным корнем), функции тулбокса прекращаются при условии, что сходимость достигнута.

Информация о Фишере

Поскольку максимальные оценки правдоподобия формируются из выборок случайных переменных, их оценки являются случайными переменными; оценка, полученная из таких выборок, имеет неопределенность, связанную с ней. Чтобы охарактеризовать эти неопределенности, которые называются стандартными ошибками, две величины получают из функции общей логарифмической правдоподобности.

Гессиан функции общей логарифмической правдоподобности

$\nabla^{2} L (z_{1}, \dots, z_{m}; θ)$

и информационная матрица Фишера

$I (θ) = - E [\nabla^{2} L (z_{1}, \dots, z_{m}; θ)],$

где частные производные $\nabla^{2}$ оператор принимается относительно комбинированного вектора параметров, который содержит отдельные компоненты b и C с общим количеством q = p + n (n + 1 )/2 параметров.

Поскольку максимальная оценка правдоподобия связана с оценками с большой выборкой, центральная теорема о пределе применяется к оценкам, и информационная матрица Фишера играет ключевую роль в распределении выборок оценок параметра. В частности, максимальные оценки параметра правдоподобия асимптотически нормально распределены так, что

$(θ^{(t)} - θ) \sim N (0, I^{- 1}, (θ^{(t)})) как t \to \infty,$

где И - объединенные параметры вектора и⁽^t⁾ - оценка для объединенного вектора параметра при итерации t = 0, 1,....

Информационная матрица Фишера предоставляет нижнюю границу, называемую нижней границей Крамера-Рао, для стандартных ошибок оценок параметров модели.

Статистические тесты

Учитывая оценку для объединенного вектора параметров, квадратные стандартные ошибки являются диагональными элементами обратной матрицы информации Фишера

$s^{2} ({\hat{θ}}_{i}) = {(I^{- 1} ({\hat{θ}}_{i}))}_{i i}$

для i = 1,..., q.

Поскольку стандартные ошибки являются оценками для стандартных отклонений оценок параметров, можно создать доверительные интервалы, так что, например, 95% интервал для каждой оценки параметра приблизительно

${\hat{θ}}_{i} \pm 1.96 s ({\hat{θ}}_{i})$

для i = 1,..., q.

Эллипсы ошибок на уровне значимости β [0, 1] для оценок параметров удовлетворяют неравенству

${(θ - \hat{θ})}^{T} I (\hat{θ}) (θ - \hat{θ}) \leq χ_{1 - α, q}^{2}$

и следовать $χ^{2}$ распределение с q степенями свободы. Подобные неравенства могут быть сформированы для любого поднабора параметров.

В целом, по данным оценок параметров, вычисленной информационной матрицы Фишера и функции логарифмической правдоподобности, можно выполнить многочисленные статистические тесты параметров, модели и регрессии.

См. также

Документация