exponenta event banner

ecmlsrmle

Регрессия методом наименьших квадратов с отсутствующими данными

Синтаксис

[Parameters,Covariance,Resid,Info] = ecmlsrmle(Data,Design,MaxIterations,TolParam,TolObj,Param0,Covar0,CovarFormat)

Аргументы

Data

NUMSAMPLESоколо-NUMSERIES матрица с NUMSAMPLES образцы NUMSERIES-мерный случайный вектор. Отсутствующие значения представлены как NaNs. Только образцы, которые полностью NaNs игнорируются. (Игнорировать образцы хотя бы с одним NaN, использовать mvnrmle.)

Design

Матрица или массив ячеек, который обрабатывает две структуры модели:

  • Если NUMSERIES = 1, Design является NUMSAMPLESоколо-NUMPARAMS матрица с известными значениями. Эта структура является стандартной формой для регрессии в одном ряду.

  • Если NUMSERIES1, Design является массивом ячеек. Массив ячеек содержит один или NUMSAMPLES клетки. Каждая ячейка содержит NUMSERIESоколо-NUMPARAMS матрица известных значений.

    Если Design имеет одну ячейку, предполагается, что она имеет одну и ту же Design матрица для каждого образца. Если Design имеет более одной ячейки, каждая ячейка содержит Design матрица для каждого образца.

MaxIterations

(Необязательно) Максимальное количество итераций для алгоритма оценки. Значение по умолчанию - 100.

TolParam

(Необязательно) Допуск сходимости для алгоритма оценки на основе изменений в оценках параметров модели. Значение по умолчанию: sqrt(eps) что составляет приблизительно 1,0e-8 для двойной точности. Тест сходимости для изменений параметров модели:

 

Paramk−Paramk−1‖<TolParam× (1+‖Paramk ‖)

 

где Param представляет выходные данные Parametersи итерация k = 2, 3,... Сходимость принимается, когда оба TolParam и TolObj условия выполнены. Если оба TolParam0 и TolObj0, выполнить максимальное количество итераций (MaxIterations), независимо от результатов тестов сходимости.

TolObj

(Необязательно) Допуск сходимости для алгоритма оценки на основе изменений целевой функции. Значение по умолчанию - eps ∧ 3/4, что составляет около 1.0e-12 для двойной точности. Тест сходимости для изменений целевой функции:

| Objk Objk 1 | < TolObj × (1 + | Objk |)

для итерации k = 2, 3,.... Сходимость принимается, когда оба TolParam и TolObj условия выполнены. Если оба TolParam0 и TolObj 0, выполнить максимальное количество итераций (MaxIterations), независимо от результатов тестов сходимости.

Param0

(Необязательно) NUMPARAMSоколо-1 вектор столбца, который содержит исходную оценку, предоставленную пользователем для параметров регрессионной модели. По умолчанию используется нулевой вектор.

Covar0

(Необязательно) NUMSERIESоколо-NUMSERIES матрица, которая содержит предоставленную пользователем начальную или известную оценку для ковариационной матрицы остатков регрессии. По умолчанию используется единичная матрица.

Для вычислений наименьших квадратов, взвешенных ковариацией, эта матрица соответствует весам для каждого ряда в регрессии. Матрица также служит в качестве начального предположения для остаточной ковариации в алгоритме ожидаемой условной максимизации (ЕСМ).

CovarFormat

(Необязательно) Символьный вектор, определяющий формат ковариационной матрицы. Возможны следующие варианты:

  • 'full' - Метод по умолчанию. Вычислите полную ковариационную матрицу.

  • 'diagonal' - Заставьте ковариационную матрицу быть диагональной матрицей.

Описание

[Parameters, Covariance, Resid, Info] = ecmlsrmle(Data, Design, MaxIterations, TolParam, TolObj, Param0, Covar0, CovarFormat) оценивает регрессионную модель наименьших квадратов с отсутствующими данными. Модель имеет форму

Datak∼N (Параметры Designk ×, ковариация)

для образцов k = 1,..., NUMSAMPLES.

ecmlsrmle оценивает NUMPARAMSоколо-1 вектор столбца параметров модели с именем Parametersи NUMSERIESоколо-NUMSERIES матрица ковариационных параметров называется Covariance.

ecmlsrmle(Data, Design) без выходных аргументов строит график логарифмической функции правдоподобия для каждой итерации алгоритма.

Подытожить результаты ecmlsrmle:

  • Parameters является NUMPARAMSоколо-1 столбчатый вектор оценок для параметров регрессионной модели.

  • Covariance является NUMSERIESоколо-NUMSERIES матрица оценок ковариации остатков регрессионной модели. Для моделей с наименьшими квадратами эта оценка не может быть оценкой максимального правдоподобия, за исключением особых обстоятельств.

  • Resid является NUMSAMPLESоколо-NUMSERIES матрица остатков из регрессии.

Другой выход, Info, - структура, содержащая дополнительную информацию из регрессии. Структура имеет следующие поля:

  • Info.Obj - вектор столбца переменной протяженности, не более MaxIterations элементы, которые содержат каждое значение целевой функции при каждой итерации алгоритма оценки. Последнее значение в этом векторе, Obj(end), - терминальная оценка целевой функции. При выполнении наименьших квадратов целевая функция является целевой функцией наименьших квадратов.

  • Info.PrevParametersNUMPARAMSоколо-1 вектор столбца оценок параметров модели из итерации непосредственно перед конечной итерацией.

  • Info.PrevCovarianceNUMSERIESоколо-NUMSERIES матрица оценок параметров ковариации из итерации непосредственно перед терминальной итерацией.

Примечания

При выполнении ковариационных взвешенных наименьших квадратов, Covar0 обычно должна быть диагональной матрицей. Серии с большим влиянием должны иметь меньшие диагональные элементы в Covar0 и ряды с меньшим влиянием должны иметь большие диагональные элементы. Обратите внимание, что при выполнении CWLS Covar0 не обязательно быть диагональной матрицей, даже если CovarFormat = 'diagonal'.

Можно настроить Design в качестве матрицы, если NUMSERIES = 1 или в виде массива ячеек, если NUMSERIES1.

  • Если Design является массивом ячеек и NUMSERIES = 1, каждая ячейка содержит NUMPARAMS вектор строки.

  • Если Design является массивом ячеек и NUMSERIES > 1, каждая ячейка содержит NUMSERIESоколо-NUMPARAMS матрица.

Эти моменты касаются того, как Design обрабатывает отсутствующие данные:

  • Хотя Design не должно иметь NaN значения, пропущенные выборки из-за NaN значения в Data также игнорируются в соответствующем Design массив.

  • Если Design является 1около-1 массив ячеек, который имеет один Design матрица для каждого образца, нет NaN допустимы значения в массиве. Модель с этой структурой должна иметь NUMSERIESNUMPARAMS с rank(Design{1}) = NUMPARAMS.

  • ecmlsrmle является более строгим, чем mvnrmle о наличии NaN значения в Design массив.

использовать оценки в дополнительной структуре вывода; Info для диагностических целей.

Примеры

См. разделы Многомерная нормальная регрессия, Регрессия наименьших квадратов, Ковариантно-взвешенные наименьшие квадраты, Выполнимые обобщенные наименьшие квадраты и, Казалось бы, несвязанная регрессия.

Ссылки

Родерик Дж. А. Литтл и Дональд Б. Рубин. Статистический анализ с отсутствующими данными. 2-е издание. John Wiley & Sons, Inc., 2002.

Сяо-Ли Мэн и Дональд Б. Рубин. «Оценка максимального правдоподобия через алгоритм ECM». Биометрика. т. 80, № 2, 1993, стр. 267-278.

Джо Секстон и Андерс Райг Свенсен. «Алгоритмы ECM, сходящиеся со скоростью EM». Биометрика. т. 87, № 3, 2000, стр. 651-662.

А. П. Демпстер, Н.М. Лэрд и Д. Б. Рубин. «Максимальное вероятность неполных данных через алгоритм EM». Журнал Королевского статистического общества. Серия В, т. 39, № 1, 1977, стр. 1-37.

Представлен в R2006a