exponenta event banner

Оценка максимальной вероятности с отсутствующими данными

Введение

Предположим, что часть данных образца отсутствует, где отсутствующие значения представлены как NaNs. Если отсутствующие значения отсутствуют случайным образом и игнорируются, где Литтл и Рубин [7] имеют точные определения для этих терминов, то для оценки параметров многомерной нормальной регрессионной модели можно использовать версию алгоритма Empster, Laird и Rubin [3]. В программном обеспечении Financial Toolbox™ используется алгоритм ECM (Ожидание Условной Максимизации) Мэна и Рубина [8] с усовершенствованиями Секстона и Свенсена [9].

Каждый образец zk для k = 1,..., m, является либо полным без отсутствующих значений, пустым без наблюдаемых значений, либо неполным как с наблюдаемыми, так и с отсутствующими значениями. Пустые образцы игнорируются, так как они не содержат никакой информации.

Чтобы понять отсутствующие случайные и игнорируемые условия, рассмотрим пример данных о цене акций перед IPO. Для контрпримера цензурированные данные, в которых все значения, превышающие некоторый предел, заменяются на NaNs, не удовлетворяет этим условиям.

В выборке k пусть xk представляют отсутствующие значения в zk и yk представляют наблюдаемые значения. Определите матрицу перестановки Pk так, чтобы

zk = Pk [xkyk]

для k = 1,..., m.

Алгоритм ECM

Алгоритм ECM имеет два этапа - этап E, или этап ожидания, и этап CM, или этап условной максимизации. Как и при оценке максимального правдоподобия, оценки параметров развиваются в соответствии с итеративным процессом, где оценки для параметров после t итераций обозначаются как b (t) и C (t).

Шаг E формирует условные ожидания для элементов отсутствующих данных с

E [Xk 'Yk = yk; b (t), C (t)] cov [Xk' Yk = yk; b (t), C (t)]

для каждого k∈{1 выборки,..., m} с отсутствующими данными.

Этап CM продолжается таким же образом, как процедура максимального правдоподобия без пропуска данных. Основное отличие состоит в том, что недостающие моменты данных вменяются из условных ожиданий, полученных на шаге E.

Этапы E и CM повторяются до тех пор, пока функция логарифмического правдоподобия не перестанет увеличиваться. Одним из важных свойств алгоритма ЕСМ является то, что он всегда гарантированно находит максимум функции логарифмического правдоподобия и при подходящих условиях этот максимум может быть глобальным максимумом.

Стандартные ошибки

Негатив ожидаемого гессена функции логарифмического правдоподобия и информационной матрицы Фишера идентичны, если отсутствуют данные. Однако, если данные отсутствуют, гессен, который вычисляется по доступным выборкам, учитывает потерю информации из-за отсутствующих данных. Таким образом, информационная матрица Фишера предоставляет стандартные ошибки, которые являются нижней границей Крамера-Рао, в то время как матрица Гессена предоставляет стандартные ошибки, которые могут быть больше, если отсутствуют данные.

Увеличение объема данных

Функции ECM не «заполняют» отсутствующие значения, поскольку они оценивают параметры модели. В некоторых случаях может потребоваться заполнить отсутствующие значения. Хотя можно заполнить недостающие значения в данных условными ожиданиями, можно получить оптимистичные и нереалистичные оценки, поскольку условные оценки не являются случайными реализациями.

Возможны несколько подходов, в том числе методы повторной выборки и многократное вменение (подробнее см. Little and Rubin [7] и Shafer [10]). Несколько неформальным методом выборки для увеличения данных является формирование случайных выборок для отсутствующих значений на основе условного распределения для отсутствующих значений. Учитывая оценки параметров для X⊂Rn и C ^, каждое наблюдение имеет моменты

E [Zk] = Hkb ^

и

cov (Zk) = HkC ^ HkT

для k = 1,..., m, где вы уронили зависимость параметра от левой стороны для нотационного удобства.

Для наблюдений с отсутствующими значениями, разделенными на отсутствующие значения Xk и наблюдаемые значения Yk = yk, можно сформировать условные оценки для любой субколлекции случайных величин в пределах данного наблюдения. Таким образом, учитывая оценки E [Zk] и cov (Zk) на основе оценок параметров, можно создать условные оценки

E [Xk 'yk]

и

cov (Xk 'yk)

с использованием стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно смоделировать случайные выборки для отсутствующих значений из условного распределения.

Xk∼N (E [Xk 'yk], cov (Xk' yk)).

Выборки из этого распределения отражают паттерн отсутствующих и неточных значений для наблюдений k = 1,..., m. Необходимо выполнить выборку из условных распределений для каждого наблюдения, чтобы сохранить корреляционную структуру с неточными значениями при каждом наблюдении.

При выполнении этой процедуры результирующие заполненные значения являются случайными и генерируют средние и ковариационные оценки, которые асимптотически эквивалентны средним и ковариационным оценкам, полученным из ECM. Однако следует отметить, что заполненные значения являются случайными и отражают вероятные выборки из распределения, оцененного по всем данным, и могут не отражать «истинные» значения для конкретного наблюдения.

См. также

| | | | | | | | | | | | | | | | | |

Связанные темы