Предположим, что фрагмент выборочных данных отсутствует, где отсутствующие значения представлены как NaN
s. Если отсутствующие значения отсутствуют как случайные и игнорируемые, где Little и Rubin [7] имеют точные определения для этих терминов, можно использовать версию Максимизации Ожиданий, или EM, алгоритма Демпстера, Лэрда и Рубина [3], чтобы оценить параметры многомерной модели нормальной регрессии. Алгоритм, используемый в программном обеспечении Financial Toolbox™, является алгоритмом ECM (Ожидание Условной Максимизации) Meng и Rubin [8] с улучшениями Sexton и Swensen [9].
Каждая выборка zk для k = 1,..., m, либо завершена без отсутствующих значений, пуста без наблюдаемых значений, либо неполна как с наблюдаемыми, так и с отсутствующими значениями. Пустые выборки игнорируются, так как они не предоставляют никакой информации.
Чтобы понять отсутствующие на случайных и невежественных условиях, рассмотрим пример данных о ценах акций перед IPO. Для контрпримера подвергнутые цензуре данные, в которых все значения, большие, чем некоторые срезы, заменяются на NaN
s, не удовлетворяет этим условиям.
В выборке k, пусть xk представляют отсутствующие значения в zk, а yk представляют наблюдаемые значения. Задайте матрицу сочетания Pk так, чтобы
для k = 1,..., m.
Алгоритм ECM имеет два шага - шаг E, или ожидание, и шаг CM, или условная максимизация. Как и при максимальной оценке правдоподобия, оценки параметра развиваются согласно итеративному процессу, где оценки для параметров после t итераций обозначаются как b(t) и C(t).
Шаг E формирует условные ожидания для элементов недостающих данных с
для каждой выборки который имеет отсутствующие данные.
Шаг CM выполняется так же, как и процедура максимальной правдоподобности, без пропущенных данных. Основным различием является то, что отсутствующие моменты данных вменяются из условных ожиданий, полученных на шаге E.
Шаги E и CM повторяются до тех пор, пока функция логарифмической правдоподобности не перестанет увеличиваться. Одним из важных свойств алгоритма ECM является то, что всегда гарантировано найти максимум функции логарифмической правдоподобности, и при подходящих условиях этот максимум может быть глобальным максимумом.
Отрицательное значение ожидаемого Гессиана функции логарифмической правдоподобности и информационной матрицы Фишера идентичны, если нет отсутствующих данных. Однако, если данные отсутствуют, Гессиан, который вычисляется по доступным выборкам, учитывает потерю информации из-за недостающих данных. Таким образом, информационная матрица Фишера предоставляет стандартные ошибки, которые являются нижней границей Крамера-Рао, в то время как матрица Гессиана предоставляет стандартные ошибки, которые могут быть больше, если отсутствуют данные.
Функции ECM не «заполняют» отсутствующие значения, так как они оценивают параметры модели. В некоторых случаях может потребоваться заполнить отсутствующие значения. Несмотря на то, что вы можете заполнить отсутствующие значения в данных с условными ожиданиями, вы получите оптимистичные и нереалистичные оценки, потому что условные оценки не являются случайными реализациями.
Возможно несколько подходов, включая методы повторной дискретизации и множественные вменения (для получения дополнительной информации см. Little и Rubin [7] и Shafer [10]). Несколько неформальный метод выборки для увеличения данных состоит в том, чтобы сформировать случайные выборки для отсутствующих значений на основе условного распределения для отсутствующих значений. Заданные оценки параметров для и , каждое наблюдение имеет моменты
и
для k = 1,..., m, где вы сбросили зависимость параметра с левой стороны для нотационного удобства.
Для наблюдений с отсутствующими значениями, разбитыми на отсутствующие значения Xk и наблюдаемые значения Yk = yk, можно сформировать условные оценки для любого поднабора случайных переменных в пределах заданного наблюдения. Таким образом, данные оценки E [Zk] и cov (Zk) на основе оценок параметров, можно создать условные оценки
и
использование стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно моделировать случайные выборки для отсутствующих значений из условного распределения
Выборки из этого распределения отражают шаблон отсутствующих и несовпадающих значений для наблюдений k = 1,..., m. Вы должны выбрать из условных распределений для каждого наблюдения, чтобы сохранить корреляционную структуру с несовпадающими значениями при каждом наблюдении.
Если вы следуете этой процедуре, результирующие заполненные значения являются случайными и генерируют средние и ковариационные оценки, которые асимптотически эквивалентны полученным ECM средним и ковариационным оценкам. Обратите внимание, однако, что заполненные значения являются случайными и отражают вероятные выборки из распределения, оцененного по всем данным, и могут не отражать «истинные» значения для конкретного наблюдения.
convert2sur
| ecmlsrmle
| ecmlsrobj
| ecmmvnrfish
| ecmmvnrfish
| ecmmvnrmle
| ecmmvnrobj
| ecmmvnrstd
| ecmmvnrstd
| ecmnfish
| ecmnhess
| ecmninit
| ecmnmle
| ecmnobj
| ecmnstd
| mvnrfish
| mvnrmle
| mvnrobj
| mvnrstd