Оценка максимальной вероятности с отсутствующими данными

Введение

Предположим, что фрагмент выборочных данных отсутствует, где отсутствующие значения представлены как NaNs. Если отсутствующие значения отсутствуют как случайные и игнорируемые, где Little и Rubin [7] имеют точные определения для этих терминов, можно использовать версию Максимизации Ожиданий, или EM, алгоритма Демпстера, Лэрда и Рубина [3], чтобы оценить параметры многомерной модели нормальной регрессии. Алгоритм, используемый в программном обеспечении Financial Toolbox™, является алгоритмом ECM (Ожидание Условной Максимизации) Meng и Rubin [8] с улучшениями Sexton и Swensen [9].

Каждая выборка zk для k = 1,..., m, либо завершена без отсутствующих значений, пуста без наблюдаемых значений, либо неполна как с наблюдаемыми, так и с отсутствующими значениями. Пустые выборки игнорируются, так как они не предоставляют никакой информации.

Чтобы понять отсутствующие на случайных и невежественных условиях, рассмотрим пример данных о ценах акций перед IPO. Для контрпримера подвергнутые цензуре данные, в которых все значения, большие, чем некоторые срезы, заменяются на NaNs, не удовлетворяет этим условиям.

В выборке k, пусть xk представляют отсутствующие значения в zk, а yk представляют наблюдаемые значения. Задайте матрицу сочетания Pk _так,чтобы

$z_{k} = P_{k} [\begin{matrix} x_{k} \\ y_{k} \end{matrix}]$

для k = 1,..., m.

Алгоритм ECM

Алгоритм ECM имеет два шага - шаг E, или ожидание, и шаг CM, или условная максимизация. Как и при максимальной оценке правдоподобия, оценки параметра развиваются согласно итеративному процессу, где оценки для параметров после t итераций обозначаются как b⁽^t⁾ и C⁽^t⁾.

Шаг E формирует условные ожидания для элементов недостающих данных с

$\begin{array}{l} E [X_{k} {| Y}_{k} = y_{k}; b^{(t)}, C^{(t)}] \\ c o v [X_{k} {| Y}_{k} = y_{k}; b^{(t)}, C^{(t)}] \end{array}$

для каждой выборки $k \in {1, \dots, m}$ который имеет отсутствующие данные.

Шаг CM выполняется так же, как и процедура максимальной правдоподобности, без пропущенных данных. Основным различием является то, что отсутствующие моменты данных вменяются из условных ожиданий, полученных на шаге E.

Шаги E и CM повторяются до тех пор, пока функция логарифмической правдоподобности не перестанет увеличиваться. Одним из важных свойств алгоритма ECM является то, что всегда гарантировано найти максимум функции логарифмической правдоподобности, и при подходящих условиях этот максимум может быть глобальным максимумом.

Стандартные ошибки

Отрицательное значение ожидаемого Гессиана функции логарифмической правдоподобности и информационной матрицы Фишера идентичны, если нет отсутствующих данных. Однако, если данные отсутствуют, Гессиан, который вычисляется по доступным выборкам, учитывает потерю информации из-за недостающих данных. Таким образом, информационная матрица Фишера предоставляет стандартные ошибки, которые являются нижней границей Крамера-Рао, в то время как матрица Гессиана предоставляет стандартные ошибки, которые могут быть больше, если отсутствуют данные.

Увеличение количества данных

Функции ECM не «заполняют» отсутствующие значения, так как они оценивают параметры модели. В некоторых случаях может потребоваться заполнить отсутствующие значения. Несмотря на то, что вы можете заполнить отсутствующие значения в данных с условными ожиданиями, вы получите оптимистичные и нереалистичные оценки, потому что условные оценки не являются случайными реализациями.

Возможно несколько подходов, включая методы повторной дискретизации и множественные вменения (для получения дополнительной информации см. Little и Rubin [7] и Shafer [10]). Несколько неформальный метод выборки для увеличения данных состоит в том, чтобы сформировать случайные выборки для отсутствующих значений на основе условного распределения для отсутствующих значений. Заданные оценки параметров для $X \subset R^{n}$ и $\hat{C}$ , каждое наблюдение имеет моменты

$E [Z_{k}] = H_{k} \hat{b}$

$c o v (Z_{k}) = H_{k} \hat{C} H_{k}^{T}$

для k = 1,..., m, где вы сбросили зависимость параметра с левой стороны для нотационного удобства.

Для наблюдений с отсутствующими значениями, разбитыми на отсутствующие значения Xk и наблюдаемые значения Yk = yk, можно сформировать условные оценки для любого поднабора случайных переменных в пределах заданного наблюдения. Таким образом, данные оценки E [Zk] и cov (Zk) на основе оценок параметров, можно создать условные оценки

$E [X_{k} {| y}_{k}]$

$c o v (X_{k} {| y}_{k})$

использование стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно моделировать случайные выборки для отсутствующих значений из условного распределения

$X_{k} \sim N (E [X_{k} | y_{k}], c o v (X_{k} | y_{k})) .$

Выборки из этого распределения отражают шаблон отсутствующих и несовпадающих значений для наблюдений k = 1,..., m. Вы должны выбрать из условных распределений для каждого наблюдения, чтобы сохранить корреляционную структуру с несовпадающими значениями при каждом наблюдении.

Если вы следуете этой процедуре, результирующие заполненные значения являются случайными и генерируют средние и ковариационные оценки, которые асимптотически эквивалентны полученным ECM средним и ковариационным оценкам. Обратите внимание, однако, что заполненные значения являются случайными и отражают вероятные выборки из распределения, оцененного по всем данным, и могут не отражать «истинные» значения для конкретного наблюдения.

См. также

Документация