Оценка наибольшего правдоподобия с Недостающими данными

Введение

Предположим, что фрагмент выборочных данных отсутствует, где отсутствующие значения представлены как NaNs. Если отсутствующие значения отсутствуют наугад и игнорируемые, где Мало и Рубин [7] имеют точные определения для этих терминов, возможно использовать версию Максимизации Ожидания, или EM, алгоритм Демпстера, Лэрда и Рубина [3], чтобы оценить параметры многомерной нормальной модели регрессии. Алгоритм, используемый в программном обеспечении Financial Toolbox™, является ECM (Условная Максимизация Ожидания) алгоритм Мэна и Рубина [8] с улучшениями Секстоном и Свенсеном [9].

Каждая выборка zk для k = 1..., m, или вместе ни с какими отсутствующими значениями, пустыми без наблюдаемых величин или неполными и с наблюдаемыми и отсутствующими значениями. Пустые выборки проигнорированы, поскольку они не вносят информации.

Чтобы изучить пропавших без вести наугад и игнорируемые условия, рассмотрите пример данных о курсе акций перед IPO. Для контрпримера, подвергнутых цензуре данных, в которых все значения, больше, чем некоторое сокращение, заменяются NaNs, не удовлетворяет этим условиям.

В выборке k, позвольте xk представлять отсутствующие значения в zk, и yk представляют наблюдаемые величины. Задайте матрицу перестановок Pk так, чтобы

zk=Pk[xkyk]

для k = 1..., m.

Алгоритм ECM

Алгоритм ECM имеет два шага – E, или шаг ожидания, и CM, или условная максимизация, шаг. Как с оценкой наибольшего правдоподобия, оценки параметра развиваются согласно итеративному процессу, где оценки для параметров после t итерации обозначаются как b(t) и C(t).

Шаг E формирует условные ожидания элементов недостающих данных с

E[Xk|Yk=yk;b(t),C(t)]cov[Xk|Yk=yk;b(t),C(t)]

для каждой выборки k{1,,m} это имеет недостающие данные.

Шаг CM продолжает таким же образом как процедура наибольшего правдоподобия без недостающих данных. Основное различие - то, что недостающие моменты данных являются оценочными от условных ожиданий, полученных на шаге E.

E и шаги CM повторяются, пока функция логарифмической правдоподобности не прекращает увеличиваться. Одно из важных свойств алгоритма ECM - то, что он, как всегда гарантируют, найдет максимум функции логарифмической правдоподобности и при подходящих условиях, этот максимум может быть глобальным максимумом.

Стандартные погрешности

Отрицание ожидаемого Гессиана функции логарифмической правдоподобности и матрицы информации о Фишере идентично, если никакие данные не отсутствуют. Однако, если данные отсутствуют, Гессиан, который вычисляется по доступным выборкам, составляет потерю информации из-за недостающих данных. Так, матрица информации о Фишере обеспечивает стандартные погрешности, которые являются нижней границей Крэмер-Рао, тогда как матрица Гессиана обеспечивает стандартные погрешности, которые могут быть больше, если там пропускает данные.

Увеличение данных

Функции ECM не “заполняют” отсутствующие значения, когда они оценивают параметры модели. В некоторых случаях можно хотеть заполнить отсутствующие значения. Несмотря на то, что можно заполнить отсутствующие значения в данных с условными ожиданиями, вы получили бы оптимистические и нереалистичные оценки, потому что условные оценки не являются случайной реализацией.

Несколько подходов возможны, включая передискретизацию методов и нескольких обвинение (см. Мало и Рубина [7] и Shafer [10] для деталей). Несколько неофициальный метод выборки для увеличения данных должен сформировать случайные выборки для отсутствующих значений на основе условного распределения для отсутствующих значений. Учитывая параметр оценивает для XRn и C^, каждое наблюдение имеет моменты

E[Zk]=Hkb^

и

cov(Zk)=HkC^HkT

для k = 1..., m, где вы пропустили зависимость параметра на левых сторонах для письменного удобства.

Для наблюдений с отсутствующими значениями, разделенными в отсутствующие значения Xk и наблюдаемые величины Yk = yk, можно составить условные мнения для любого поднабора случайных переменных в заданном наблюдении. Таким образом, учитывая оценки E [Zk] и cov (Zk) на основе оценок параметра, можно создать условные оценки

E[Xk|yk]

и

cov(Xk|yk)

использование стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно симулировать случайные выборки для отсутствующих значений от условного распределения

XkN(E[Xk|yk],cov(Xk|yk)).

Выборки от этого распределения отражают шаблон того, чтобы избегать и ненедостающих значений для наблюдений k = 1..., m. Необходимо произвести от условных распределений для каждого наблюдения, чтобы сохранить структуру корреляции с ненедостающими значениями при каждом наблюдении.

Если вы выполняете эту процедуру, заполненный результант - в значениях случайны и генерируют среднее значение и оценки ковариации, которые асимптотически эквивалентны ECM-выведенному среднему значению и оценкам ковариации. Обратите внимание, однако, что заполненные - в значениях случайны и отражают вероятные выборки от распределения, оцененного по всем данным, и не могут отразить “истинные” значения для конкретного наблюдения.

Смотрите также

| | | | | | | | | | | | | | | | | |

Похожие темы