Оценка наибольшего правдоподобия с Недостающими данными

Введение

Предположим, что фрагмент выборочных данных отсутствует, где отсутствующие значения представлены как NaNs. Если отсутствующие значения отсутствуют наугад и игнорируемые, где Мало и Рубин [7] имеют точные определения для этих терминов, возможно использовать версию Максимизации Ожидания, или EM, алгоритм Демпстера, Лэрда и Рубина [3], чтобы оценить параметры многомерной нормальной модели регрессии. Алгоритм, используемый в программном обеспечении Financial Toolbox™, является ECM (Условная Максимизация Ожидания) алгоритм Мэна и Рубина [8] с улучшениями Секстоном и Свенсеном [9].

Каждая выборка zk для k = 1..., m, или вместе ни с какими отсутствующими значениями, пустыми без наблюдаемых величин или неполными и с наблюдаемыми и отсутствующими значениями. Пустые выборки проигнорированы, поскольку они не вносят информации.

Чтобы изучить пропавших без вести наугад и игнорируемые условия, рассмотрите пример данных о курсе акций перед IPO. Для контрпримера, подвергнутых цензуре данных, в которых все значения, больше, чем некоторое сокращение, заменяются NaNs, не удовлетворяет этим условиям.

В выборке k, позвольте xk представлять отсутствующие значения в zk, и yk представляют наблюдаемые величины. Задайте матрицу перестановок Pk так, чтобы

$z_{k} = P_{k} [\begin{matrix} x_{k} \\ y_{k} \end{matrix}]$

для k = 1..., m.

Алгоритм ECM

Алгоритм ECM имеет два шага – E, или шаг ожидания, и CM, или условная максимизация, шаг. Как с оценкой наибольшего правдоподобия, оценки параметра развиваются согласно итеративному процессу, где оценки для параметров после t итерации обозначаются как b⁽^t⁾ и C⁽^t⁾.

Шаг E формирует условные ожидания элементов недостающих данных с

$\begin{array}{l} E [X_{k} {| Y}_{k} = y_{k}; b^{(t)}, C^{(t)}] \\ c o v [X_{k} {| Y}_{k} = y_{k}; b^{(t)}, C^{(t)}] \end{array}$

для каждой выборки $k \in {1, \dots, m}$ это имеет недостающие данные.

Шаг CM продолжает таким же образом как процедура наибольшего правдоподобия без недостающих данных. Основное различие - то, что недостающие моменты данных являются оценочными от условных ожиданий, полученных на шаге E.

E и шаги CM повторяются, пока функция логарифмической правдоподобности не прекращает увеличиваться. Одно из важных свойств алгоритма ECM - то, что он, как всегда гарантируют, найдет максимум функции логарифмической правдоподобности и при подходящих условиях, этот максимум может быть глобальным максимумом.

Стандартные погрешности

Отрицание ожидаемого Гессиана функции логарифмической правдоподобности и матрицы информации о Фишере идентично, если никакие данные не отсутствуют. Однако, если данные отсутствуют, Гессиан, который вычисляется по доступным выборкам, составляет потерю информации из-за недостающих данных. Так, матрица информации о Фишере обеспечивает стандартные погрешности, которые являются нижней границей Крэмер-Рао, тогда как матрица Гессиана обеспечивает стандартные погрешности, которые могут быть больше, если там пропускает данные.

Увеличение данных

Функции ECM не “заполняют” отсутствующие значения, когда они оценивают параметры модели. В некоторых случаях можно хотеть заполнить отсутствующие значения. Несмотря на то, что можно заполнить отсутствующие значения в данных с условными ожиданиями, вы получили бы оптимистические и нереалистичные оценки, потому что условные оценки не являются случайной реализацией.

Несколько подходов возможны, включая передискретизацию методов и нескольких обвинение (см. Мало и Рубина [7] и Shafer [10] для деталей). Несколько неофициальный метод выборки для увеличения данных должен сформировать случайные выборки для отсутствующих значений на основе условного распределения для отсутствующих значений. Учитывая параметр оценивает для $X \subset R^{n}$ и $\hat{C}$ , каждое наблюдение имеет моменты

$E [Z_{k}] = H_{k} \hat{b}$

$c o v (Z_{k}) = H_{k} \hat{C} H_{k}^{T}$

для k = 1..., m, где вы пропустили зависимость параметра на левых сторонах для письменного удобства.

Для наблюдений с отсутствующими значениями, разделенными в отсутствующие значения Xk и наблюдаемые величины Yk = yk, можно составить условные мнения для любого поднабора случайных переменных в заданном наблюдении. Таким образом, учитывая оценки E [Zk] и cov (Zk) на основе оценок параметра, можно создать условные оценки

$E [X_{k} {| y}_{k}]$

$c o v (X_{k} {| y}_{k})$

использование стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно симулировать случайные выборки для отсутствующих значений от условного распределения

$X_{k} \sim N (E [X_{k} | y_{k}], c o v (X_{k} | y_{k})) .$

Выборки от этого распределения отражают шаблон того, чтобы избегать и ненедостающих значений для наблюдений k = 1..., m. Необходимо произвести от условных распределений для каждого наблюдения, чтобы сохранить структуру корреляции с ненедостающими значениями при каждом наблюдении.

Если вы выполняете эту процедуру, заполненный результант - в значениях случайны и генерируют среднее значение и оценки ковариации, которые асимптотически эквивалентны ECM-выведенному среднему значению и оценкам ковариации. Обратите внимание, однако, что заполненные - в значениях случайны и отражают вероятные выборки от распределения, оцененного по всем данным, и не могут отразить “истинные” значения для конкретного наблюдения.

Документация