Предположим, что фрагмент выборочных данных отсутствует, где отсутствующие значения представлены как NaN
s. Если отсутствующие значения отсутствуют наугад и игнорируемые, где Мало и Рубин [7] имеют точные определения для этих условий, возможно использовать версию Максимизации Ожидания, или EM, алгоритм Демпстера, Лэрда и Рубина [3], чтобы оценить параметры многомерной нормальной модели регрессии. Алгоритм, используемый в программном обеспечении Financial Toolbox™, является ECM (Условная Максимизация Ожидания) алгоритм Мэна и Рубина [8] с улучшениями Секстоном и Свенсеном [9].
Каждая выборка zk для k = 1..., m, или вместе ни с какими отсутствующими значениями, пустыми без наблюдаемых величин или неполными и с наблюдаемыми и отсутствующими значениями. Пустые выборки проигнорированы, поскольку они не вносят информации.
Чтобы изучить пропавших без вести наугад и игнорируемые условия, рассмотрите пример данных о курсе акций перед IPO. Для контрпримера, подвергнутых цензуре данных, в которых все значения, больше, чем некоторое сокращение, заменяются NaN
s, не удовлетворяет этим условиям.
В выборке k, позвольте xk представлять отсутствующие значения в zk, и yk представляют наблюдаемые величины. Задайте матрицу перестановок Pk так, чтобы
для k = 1..., m.
Алгоритм ECM имеет два шага – E, или шаг ожидания, и CM, или условная максимизация, шаг. Как с оценкой наибольшего правдоподобия, оценки параметра развиваются согласно итеративному процессу, где оценки для параметров после t итерации обозначаются как b (t) и C (t).
Шаг E формирует условные ожидания элементов недостающих данных с
для каждой выборки это имеет недостающие данные.
Шаг CM продолжает таким же образом как процедура наибольшего правдоподобия без недостающих данных. Основное различие - то, что недостающие моменты данных являются оценочными от условных ожиданий, полученных на шаге E.
E и шаги CM повторяются, пока функция логарифмической правдоподобности не прекращает увеличиваться. Одно из важных свойств алгоритма ECM - то, что он, как всегда гарантируют, найдет максимум функции логарифмической правдоподобности и при подходящих условиях, этот максимум может быть глобальным максимумом.
Отрицание ожидаемого Гессиана функции логарифмической правдоподобности и матрицы информации о Фишере идентично, если никакие данные не отсутствуют. Однако, если данные отсутствуют, Гессиан, который вычисляется по доступным выборкам, составляет потерю информации из-за недостающих данных. Так, матрица информации о Фишере обеспечивает стандартные погрешности, которые являются нижней границей Крэмер-Рао, тогда как матрица Гессиана обеспечивает стандартные погрешности, которые могут быть больше, если там пропускает данные.
Функции ECM не “заполняют” отсутствующие значения, когда они оценивают параметры модели. В некоторых случаях можно хотеть заполнить отсутствующие значения. Несмотря на то, что можно заполнить отсутствующие значения в данных с условными ожиданиями, вы получили бы оптимистические и нереалистичные оценки, потому что условные оценки не являются случайной реализацией.
Несколько подходов возможны, включая передискретизацию методов и нескольких обвинение (см. Мало и Рубина [7] и Shafer [10] для деталей). Несколько неофициальный метод выборки для увеличения данных должен сформировать случайные выборки для отсутствующих значений на основе условного распределения для отсутствующих значений. Учитывая параметр оценивает для и , каждое наблюдение имеет моменты
и
для k = 1..., m, где вы пропустили зависимость параметра на левых сторонах для письменного удобства.
Для наблюдений с отсутствующими значениями, разделенными в отсутствующие значения Xk и наблюдаемые величины Yk = yk, можно составить условные мнения для любого поднабора случайных переменных в рамках данного наблюдения. Таким образом, учитывая оценки E [Zk] и cov (Zk) на основе оценок параметра, можно создать условные оценки
и
использование стандартной многомерной теории нормального распределения. Учитывая эти условные оценки, можно симулировать случайные выборки для отсутствующих значений от условного распределения
Выборки от этого распределения отражают шаблон того, чтобы избегать и ненедостающих значений для наблюдений k = 1..., m. Необходимо произвести от условных распределений для каждого наблюдения, чтобы сохранить структуру корреляции с ненедостающими значениями при каждом наблюдении.
Если вы выполняете эту процедуру, заполненный результант - в значениях случайны и генерируют среднее значение и оценки ковариации, которые асимптотически эквивалентны ECM-выведенному среднему значению и оценкам ковариации. Обратите внимание, однако, что заполненные - в значениях случайны и отражают вероятные выборки от распределения, оцененного по всем данным, и не могут отразить “истинные” значения для конкретного наблюдения.
convert2sur
| ecmlsrmle
| ecmlsrobj
| ecmmvnrfish
| ecmmvnrfish
| ecmmvnrmle
| ecmmvnrobj
| ecmmvnrstd
| ecmmvnrstd
| ecmnfish
| ecmnhess
| ecmninit
| ecmnmle
| ecmnobj
| ecmnstd
| mvnrfish
| mvnrmle
| mvnrobj
| mvnrstd