Оценка максимальной вероятности с отсутствующими данными

Введение

Предположим, что фрагмент выборочных данных отсутствует, где отсутствующие значения представлены как NaNs. Если отсутствующие значения отсутствуют как случайные и игнорируемые, где Little и Rubin [7] имеют точные определения для этих терминов, можно использовать версию Максимизации Ожиданий, или EM, алгоритма Демпстера, Лэрда и Рубина [3], чтобы оценить параметры многомерной модели нормальной регрессии. Алгоритм, используемый в программном обеспечении Financial Toolbox™, является алгоритмом ECM (Ожидание Условной Максимизации) Meng и Rubin [8] с улучшениями Sexton и Swensen [9].

Каждая выборка zk для k = 1,..., m, либо завершена без отсутствующих значений, пуста без наблюдаемых значений, либо неполна как с наблюдаемыми, так и с отсутствующими значениями. Пустые выборки игнорируются, так как они не предоставляют никакой информации.

Чтобы понять отсутствующие на случайных и невежественных условиях, рассмотрим пример данных о ценах акций перед IPO. Для контрпримера подвергнутые цензуре данные, в которых все значения, большие, чем некоторые срезы, заменяются на NaNs, не удовлетворяет этим условиям.

В выборке k, пусть xk представляют отсутствующие значения в zk, а yk представляют наблюдаемые значения. Задайте матрицу сочетания Pk так, чтобы

zk=Pk[xkyk]

для k = 1,..., m.

Алгоритм ECM

Алгоритм ECM имеет два шага - шаг E, или ожидание, и шаг CM, или условная максимизация. Как и при максимальной оценке правдоподобия, оценки параметра развиваются согласно итеративному процессу, где оценки для параметров после t итераций обозначаются как b(t) и C(t).

Шаг E формирует условные ожидания для элементов недостающих данных с

E[Xk|Yk=yk;b(t),C(t)]cov[Xk|Yk=yk;b(t),C(t)]

для каждой выборки k{1,,m} который имеет отсутствующие данные.

Шаг CM выполняется так же, как и процедура максимальной правдоподобности, без пропущенных данных. Основным различием является то, что отсутствующие моменты данных вменяются из условных ожиданий, полученных на шаге E.

Шаги E и CM повторяются до тех пор, пока функция логарифмической правдоподобности не перестанет увеличиваться. Одним из важных свойств алгоритма ECM является то, что всегда гарантировано найти максимум функции логарифмической правдоподобности, и при подходящих условиях этот максимум может быть глобальным максимумом.

Стандартные ошибки

Отрицательное значение ожидаемого Гессиана функции логарифмической правдоподобности и информационной матрицы Фишера идентичны, если нет отсутствующих данных. Однако, если данные отсутствуют, Гессиан, который вычисляется по доступным выборкам, учитывает потерю информации из-за недостающих данных. Таким образом, информационная матрица Фишера предоставляет стандартные ошибки, которые являются нижней границей Крамера-Рао, в то время как матрица Гессиана предоставляет стандартные ошибки, которые могут быть больше, если отсутствуют данные.

Увеличение количества данных

Функции ECM не «заполняют» отсутствующие значения, так как они оценивают параметры модели. В некоторых случаях может потребоваться заполнить отсутствующие значения. Несмотря на то, что вы можете заполнить отсутствующие значения в данных с условными ожиданиями, вы получите оптимистичные и нереалистичные оценки, потому что условные оценки не являются случайными реализациями.

Возможно несколько подходов, включая методы повторной дискретизации и множественные вменения (для получения дополнительной информации см. Little и Rubin [7] и Shafer [10]). Несколько неформальный метод выборки для увеличения данных состоит в том, чтобы сформировать случайные выборки для отсутствующих значений на основе условного распределения для отсутствующих значений. Заданные оценки параметров для XRn и C^, каждое наблюдение имеет моменты

E[Zk]=Hkb^

и

cov(Zk)=HkC^HkT

для k = 1,..., m, где вы сбросили зависимость параметра с левой стороны для нотационного удобства.

Для наблюдений с отсутствующими значениями, разбитыми на отсутствующие значения Xk и наблюдаемые значения Yk = yk, можно сформировать условные оценки для любого поднабора случайных переменных в пределах заданного наблюдения. Таким образом, данные оценки E [Zk] и cov (Zk) на основе оценок параметров, можно создать условные оценки

E[Xk|yk]

и

cov(Xk|yk)

использование стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно моделировать случайные выборки для отсутствующих значений из условного распределения

XkN(E[Xk|yk],cov(Xk|yk)).

Выборки из этого распределения отражают шаблон отсутствующих и несовпадающих значений для наблюдений k = 1,..., m. Вы должны выбрать из условных распределений для каждого наблюдения, чтобы сохранить корреляционную структуру с несовпадающими значениями при каждом наблюдении.

Если вы следуете этой процедуре, результирующие заполненные значения являются случайными и генерируют средние и ковариационные оценки, которые асимптотически эквивалентны полученным ECM средним и ковариационным оценкам. Обратите внимание, однако, что заполненные значения являются случайными и отражают вероятные выборки из распределения, оцененного по всем данным, и могут не отражать «истинные» значения для конкретного наблюдения.

См. также

| | | | | | | | | | | | | | | | | |

Похожие темы