Предположим, что часть данных образца отсутствует, где отсутствующие значения представлены как NaNs. Если отсутствующие значения отсутствуют случайным образом и игнорируются, где Литтл и Рубин [7] имеют точные определения для этих терминов, то для оценки параметров многомерной нормальной регрессионной модели можно использовать версию алгоритма Empster, Laird и Rubin [3]. В программном обеспечении Financial Toolbox™ используется алгоритм ECM (Ожидание Условной Максимизации) Мэна и Рубина [8] с усовершенствованиями Секстона и Свенсена [9].
Каждый образец zk для k = 1,..., m, является либо полным без отсутствующих значений, пустым без наблюдаемых значений, либо неполным как с наблюдаемыми, так и с отсутствующими значениями. Пустые образцы игнорируются, так как они не содержат никакой информации.
Чтобы понять отсутствующие случайные и игнорируемые условия, рассмотрим пример данных о цене акций перед IPO. Для контрпримера цензурированные данные, в которых все значения, превышающие некоторый предел, заменяются на NaNs, не удовлетворяет этим условиям.
В выборке k пусть xk представляют отсутствующие значения в zk и yk представляют наблюдаемые значения. Определите матрицу перестановки Pk так, чтобы
xkyk]
для k = 1,..., m.
Алгоритм ECM имеет два этапа - этап E, или этап ожидания, и этап CM, или этап условной максимизации. Как и при оценке максимального правдоподобия, оценки параметров развиваются в соответствии с итеративным процессом, где оценки для параметров после t итераций обозначаются как b (t) и C (t).
Шаг E формирует условные ожидания для элементов отсутствующих данных с
(t), C (t)]
для каждого m} с отсутствующими данными.
Этап CM продолжается таким же образом, как процедура максимального правдоподобия без пропуска данных. Основное отличие состоит в том, что недостающие моменты данных вменяются из условных ожиданий, полученных на шаге E.
Этапы E и CM повторяются до тех пор, пока функция логарифмического правдоподобия не перестанет увеличиваться. Одним из важных свойств алгоритма ЕСМ является то, что он всегда гарантированно находит максимум функции логарифмического правдоподобия и при подходящих условиях этот максимум может быть глобальным максимумом.
Негатив ожидаемого гессена функции логарифмического правдоподобия и информационной матрицы Фишера идентичны, если отсутствуют данные. Однако, если данные отсутствуют, гессен, который вычисляется по доступным выборкам, учитывает потерю информации из-за отсутствующих данных. Таким образом, информационная матрица Фишера предоставляет стандартные ошибки, которые являются нижней границей Крамера-Рао, в то время как матрица Гессена предоставляет стандартные ошибки, которые могут быть больше, если отсутствуют данные.
Функции ECM не «заполняют» отсутствующие значения, поскольку они оценивают параметры модели. В некоторых случаях может потребоваться заполнить отсутствующие значения. Хотя можно заполнить недостающие значения в данных условными ожиданиями, можно получить оптимистичные и нереалистичные оценки, поскольку условные оценки не являются случайными реализациями.
Возможны несколько подходов, в том числе методы повторной выборки и многократное вменение (подробнее см. Little and Rubin [7] и Shafer [10]). Несколько неформальным методом выборки для увеличения данных является формирование случайных выборок для отсутствующих значений на основе условного распределения для отсутствующих значений. Учитывая оценки параметров для и C каждое наблюдение имеет моменты
Hkb ^
и
^ HkT
для k = 1,..., m, где вы уронили зависимость параметра от левой стороны для нотационного удобства.
Для наблюдений с отсутствующими значениями, разделенными на отсутствующие значения Xk и наблюдаемые значения Yk = yk, можно сформировать условные оценки для любой субколлекции случайных величин в пределах данного наблюдения. Таким образом, учитывая оценки E [Zk] и cov (Zk) на основе оценок параметров, можно создать условные оценки
]
и
)
с использованием стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно смоделировать случайные выборки для отсутствующих значений из условного распределения.
)).
Выборки из этого распределения отражают паттерн отсутствующих и неточных значений для наблюдений k = 1,..., m. Необходимо выполнить выборку из условных распределений для каждого наблюдения, чтобы сохранить корреляционную структуру с неточными значениями при каждом наблюдении.
При выполнении этой процедуры результирующие заполненные значения являются случайными и генерируют средние и ковариационные оценки, которые асимптотически эквивалентны средним и ковариационным оценкам, полученным из ECM. Однако следует отметить, что заполненные значения являются случайными и отражают вероятные выборки из распределения, оцененного по всем данным, и могут не отражать «истинные» значения для конкретного наблюдения.
convert2sur | ecmlsrmle | ecmlsrobj | ecmmvnrfish | ecmmvnrfish | ecmmvnrmle | ecmmvnrobj | ecmmvnrstd | ecmmvnrstd | ecmnfish | ecmnhess | ecmninit | ecmnmle | ecmnobj | ecmnstd | mvnrfish | mvnrmle | mvnrobj | mvnrstd