ecmnmle

Среднее значение и ковариация неполных многомерных нормальных данных

Синтаксис

[Mean,Covariance] = ecmnmle(Data,InitMethod,MaxIterations,Tolerance,Mean0,Covar0)

Аргументы

Data

NUMSAMPLES-by-NUMSERIES матрица с выборками NUMSAMPLES NUMSERIES - размерный случайный вектор. Отсутствующие значения обозначаются NaN s. Выборка также называется наблюдением или записью.

InitMethod

(Необязательно) Вектор символов, который идентифицирует один из трех заданных методов инициализации, чтобы вычислить первоначальные оценки для среднего значения и ковариации данных. Если InitMethod = [] или '', метод по умолчанию nanskip используется. Методы инициализации:

  • nanskip — Пропуск (по умолчанию) все записи с NaN s.

  • twostage — Оценочное среднее значение. Заполните NaN s со средним значением. Затем оцените ковариацию.

  • diagonal — Сформируйте диагональную ковариацию.

    Примечание

    Если вы предоставляете Mean0 и Covar0, InitMethod не выполняется.

MaxIterations

(Необязательно) Максимальное количество итераций для алгоритма условной максимизации ожидания (ECM). Значение по умолчанию = 50.

Tolerance

(Необязательно) Допуск сходимости для алгоритма ECM (Значение по умолчанию = 1.0e-8.), Если Tolerance0, выполните максимальные итерации, заданные MaxIterations, и не выполняйте целевую функцию на каждом шаге если в режиме отображения, как описано ниже.

Mean0

(Необязательно) Начальная буква NUMSERIES-by-1 оценка вектор-столбца для среднего значения. Если вы оставляете Mean0 незаданным ([]), метод, заданный InitMethod, используется. Если вы задаете Mean0, необходимо также задать Covar0.

Covar0

(Необязательно) NUMSERIES Начальной буквы-by-NUMSERIES матричная оценка для ковариации, где входная матрица должна быть положительно-определенной. Если вы оставляете Covar0 незаданным ([]), метод, заданный InitMethod, используется. Если вы задаете Covar0, необходимо также задать Mean0.

Описание

[Mean,Covariance] = ecmnmle(Data,InitMethod,MaxIterations,Tolerance,Mean0,Covar0) оценивает среднее значение и ковариацию набора данных. Если набор данных имеет отсутствующие значения, эта стандартная программа реализует алгоритм ECM Мэна и Рубина [2] с улучшениями Секстоном и Свенсеном [3]. ECM обозначает условную максимизацию ожидания, условную форму максимизации алгоритма EM Демпстера, Лэрда и Рубина [4].

Эта стандартная программа имеет два операционных режима.

Режим отображения

Без выходных аргументов этот режим отображает сходимость алгоритма ECM. Это оценивает и строит значения целевой функции для каждой итерации алгоритма ECM до завершения, как показано в следующем графике.

Режим отображения может определить MaxIter и значения Tolerance или служить диагностическим инструментом. Целевая функция является отрицательной логарифмической функцией правдоподобия наблюдаемых данных, и сходимость к оценке наибольшего правдоподобия соответствует минимизации цели.

Режим оценки

С выходными аргументами этот режим оценивает среднее значение и ковариацию с помощью алгоритма ECM.

Примеры

Чтобы видеть пример того, как использовать ecmnmle, запустите программу ecmguidemo.

Алгоритмы

свернуть все

Модель

Общая модель

ZN(Mean,Covariance),

где каждая строка Data является наблюдением за Z.

Каждое наблюдение за Z принято, чтобы быть iid (независимый, тождественно распределенный), многомерные нормальные, и отсутствующие значения приняты, чтобы быть пропавшими без вести наугад (MAR). Смотрите Мало и Рубина [1] для точного определения MAR.

Эта стандартная программа оценивает среднее значение и ковариацию от определенных данных. Если значения данных отсутствуют, стандартная программа реализует алгоритм ECM Мэна и Рубина [2] с улучшениями Секстоном и Свенсеном [3].

Если запись пуста (каждым значением в выборке является NaN), эта стандартная программа игнорирует запись, потому что это не вносит информации. Если такие записи существуют в данных, количеством непустых выборок, используемых по оценке, является ≤ NumSamples.

Оценка для ковариации является смещенной оценкой наибольшего правдоподобия (MLE). Чтобы преобразовать в объективную оценку, умножьте ковариацию на Count / (Count – 1), где Count является количеством непустых выборок, используемых по оценке.

Требования

Эта стандартная программа требует сопоставимых значений для NUMSAMPLES и NUMSERIES с NUMSAMPLES> NUMSERIES. Это должно иметь достаточно ненедостающих значений, чтобы сходиться. Наконец, это должно иметь положительно-определенную ковариационную матрицу. Несмотря на то, что ссылки обеспечивают некоторые необходимые и достаточные условия, общие условия для существования и уникальности решений в случае недостающих данных, не существовать. Основной тип отказа является плохо обусловленной оценкой ковариационной матрицы. Тем не менее, эта стандартная программа работает на большинство случаев, которые имеют меньше чем 15% недостающие данные (типичная верхняя граница для финансовых данных).

Методы инициализации

Эта стандартная программа имеет три метода инициализации, которые касаются большинства случаев, каждого с ее преимуществами и недостатками. Алгоритм ECM всегда сходится к минимуму наблюдаемой отрицательной логарифмической функции правдоподобия. Если вы заменяете методы инициализации, необходимо гарантировать, что первоначальная оценка для ковариационной матрицы является положительно-определенной.

Следующее является руководством по поддерживаемым методам инициализации.

nanskip

Метод nanskip работает хорошо с небольшими проблемами (меньше чем 10 рядов или с монотонностью недостающие шаблоны данных). Это перескакивает через любые записи с NaN s и оценивает, что начальные значения от полных данных записывают только. Этот метод инициализации имеет тенденцию приводить к самой быстрой сходимости алгоритма ECM. Эта стандартная программа переключается на метод twostage, если это решает, что значительное количество записей содержит NaN.

twostage

Метод twostage является лучшим выбором для больших проблем (больше чем 10 рядов). Это оценивает среднее значение для каждого ряда с помощью всех доступных данных для каждого ряда. Это затем оценивает ковариационную матрицу с отсутствующими значениями, обработанными как равную среднему значению, а не как NaN s. Этот метод инициализации устойчив, но имеет тенденцию приводить к более медленной сходимости алгоритма ECM.

диагональ

Метод diagonal является подходом худшего случая, который имеет дело с проблематичными данными, такими как непересекающийся ряд и чрезмерные недостающие данные (больше чем 33% пропавших без вести данных). Из трех методов инициализации этот метод вызывает самую медленную сходимость алгоритма ECM. Если проблемы происходят с этим методом, используйте режим отображения, чтобы исследовать сходимость и изменить или MaxIterations или Tolerance, или попробовать альтернативные первоначальные оценки Mean0 и Covar0. Если все остальное перестало работать, попробовать

Mean0 = zeros(NumSeries);
Covar0 = eye(NumSeries,NumSeries);

Учитывая оценки для среднего значения и ковариации от этой стандартной программы, можно оценить стандартные погрешности с сопутствующей стандартной программой ecmnstd.

Сходимость

Алгоритм ECM не работает на все шаблоны отсутствующих значений. Несмотря на то, что это работает в большинстве случаев, это может не сходиться, если ковариация становится сингулярной. Если это происходит, графики логарифмической функции правдоподобия имеют тенденцию иметь постоянный восходящий наклон по многим итерациям, когда журнал отрицательного детерминанта ковариации переходит к нулю. В некоторых случаях цели не удается сходиться из-за ошибок точности машины. Никакая общая теория недостающих шаблонов данных не существует, чтобы определить эти случаи. Пример известного отказа происходит, когда два временных рядов пропорциональны везде, где оба ряда содержат ненедостающие значения.

Ссылки

[1] Мало, Родерик Дж. А. и Дональд Б. Рубин. Статистический анализ с Недостающими данными. 2-й выпуск. John Wiley & Sons, Inc., 2002.

[2] Мэн, Xiao-литий и Дональд Б. Рубин. “Оценка Наибольшего правдоподобия с помощью Алгоритма ECM”. Biometrika. Издание 80, № 2, 1993, стр 267–278.

[3] Дьячок, Джо и Андерс Риг Свенсен. “Алгоритмы ECM, которые Сходятся по курсу EM”. Biometrika. Издание 87, № 3, 2000, стр 651–662.

[4] Демпстер, A. P. Н. М. Лэрд и Дональд Б. Рубин. “Наибольшее правдоподобие от Неполных данных с помощью Алгоритма EM”. Журнал Королевского Статистического Общества. Серии B, Издание 39, № 1, 1977, стр 1–37.

Представлено до R2006a

Для просмотра документации необходимо авторизоваться на сайте