ecmlsrmle

Регрессия методом наименьших квадратов с отсутствующими данными

Синтаксис

[Parameters,Covariance,Resid,Info] = ecmlsrmle(Data,Design,MaxIterations,TolParam,TolObj,Param0,Covar0,CovarFormat)

Аргументы

`Data`	`NUMSAMPLES`-by- `NUMSERIES` матрица с `NUMSAMPLES` выборки `NUMSERIES`-мерный случайный вектор. Отсутствующие значения представлены как `NaN`s. Только выборки, которые полностью `NaN`s игнорируются. (Чтобы игнорировать выборки хотя бы с одной `NaN`, использование `mvnrmle`.)
`Design`	Матрица или массив ячеек, который обрабатывает две структуры модели: Если `NUMSERIES = 1`, `Design` является `NUMSAMPLES`-by- `NUMPARAMS` матрица с известными значениями. Эта структура является стандартной формой для регрессии в одной серии. Если `NUMSERIES` ≥ `1`, `Design` - массив ячеек. Массив ячеек содержит один или `NUMSAMPLES` камеры. Каждая камера содержит `NUMSERIES`-by- `NUMPARAMS` матрица известных значений. Если `Design` имеет одну камеру, она принята такой же `Design` матрица для каждой выборки. Если `Design` имеет более одной камеры, каждая камера содержит `Design` матрица для каждой выборки.
`MaxIterations`	(Необязательно) Максимальное количество итераций для алгоритма оценки. Значение по умолчанию является 100.
`TolParam`	(Необязательно) Допуск сходимости для алгоритма оценки, основанный на изменениях в оценках параметра модели. Значение по умолчанию `sqrt(eps)` который около 1.0e-8 для двойной точности. Тест сходимости для изменений параметров модели
	$‖ P a r a m_{k} - P a r a m_{k - 1} ‖ < T o l P a r a m \times (1 + ‖ P a r a m_{k} ‖)$
	где `Param` представляет выходу `Parameters`, и итерация k = 2, 3,.... Сходимость принимается, когда оба `TolParam` и `TolObj` условия удовлетворены. Если оба `TolParam` ≤ `0` и `TolObj` ≤ `0`, выполните максимальное количество итераций (`MaxIterations`), независимо от результатов тестов сходимости.
`TolObj`	(Необязательно) Допуск сходимости для алгоритма оценки, основанный на изменениях в целевой функции. Значение по умолчанию eps ∧ 3/4, что около 1.0e-12 для двойной точности. Тест сходимости для изменений в целевой функции $\| O b j_{k} - O b j_{k - 1} \| < T o l O b j \times (1 + \| O b j_{k} \|)$ для итерации k = 2, 3,.... Сходимость принимается, когда оба `TolParam` и `TolObj` условия удовлетворены. Если оба `TolParam` ≤ `0` и `TolObj` ≤ `0`, выполните максимальное количество итераций (`MaxIterations`), независимо от результатов тестов сходимости.
`Param0`	(Необязательно) `NUMPARAMS`-by- `1` Вектор-столбец, который содержит предоставленную пользователем начальную оценку для параметров регрессионой модели. По умолчанию это нулевой вектор.
`Covar0`	(Необязательно) `NUMSERIES`-by- `NUMSERIES` матрица, которая содержит предоставленную пользователем начальную или известную оценку для ковариационной матрицы регрессионых невязок. По умолчанию это матрица тождеств. Для ковариационных взвешенных вычислений методом наименьших квадратов эта матрица соответствует весам для каждой серии в регрессии. Матрица также служит начальным предположением для остаточной ковариации в алгоритме условной максимизации ожидания (ECM).
`CovarFormat`	(Необязательно) Вектор символов, который задает формат ковариационной матрицы. Возможны следующие варианты: `'full'` - Метод по умолчанию. Вычислите полную ковариационную матрицу. `'diagonal'` - Заставить ковариационную матрицу быть диагональной матрицей.

Описание

[Parameters, Covariance, Resid, Info] = ecmlsrmle(Data, Design, MaxIterations, TolParam, TolObj, Param0, Covar0, CovarFormat) оценивает регрессионую модель методом наименьших квадратов с отсутствующими данными. Модель имеет вид

$D a t a_{k} \sim N (D e s i g n_{k} \times P a r a m e t e r s, C o v a r i a n c e)$

для выборок k = 1,..., NUMSAMPLES.

ecmlsrmle оценивает NUMPARAMS-by- 1 Вектор-столбец параметров модели называется Parameters, и NUMSERIES-by- NUMSERIES матрица ковариационных параметров, называемая Covariance.

ecmlsrmle(Data, Design) без выходных аргументов строит график функции логарифмической правдоподобности для каждой итерации алгоритма.

Результирующие выходы ecmlsrmle:

Parameters является NUMPARAMS-by- 1 Вектор-столбец оценок параметров регрессионной модели.
Covariance является NUMSERIES-by- NUMSERIES матрица оценок для ковариации невязок регрессионной модели. Для моделей с наименьшими квадратами эта оценка может быть не максимальной оценкой правдоподобия, кроме как при особых обстоятельствах.
Resid является NUMSAMPLES-by- NUMSERIES матрица невязок от регрессии.

Другой выход, Info, является структурой, которая содержит дополнительную информацию от регрессии. Структура имеет следующие поля:

Info.Obj - вектор-столбец с переменным расширением, не более MaxIterations элементы, которые содержат каждое значение целевой функции при каждой итерации алгоритма оценки. Последнее значение в этом векторе, Obj(end), - терминальная оценка целевой функции. Если вы делаете наименьшие квадраты, целевая функция является целевой функцией наименьших квадратов.
Info.PrevParameters — NUMPARAMS-by- 1 вектор-столбец оценок для параметров модели из итерации непосредственно перед итерацией терминала.
Info.PrevCovariance — NUMSERIES-by- NUMSERIES матрица оценок для ковариационных параметров из итерации непосредственно перед терминальной итерацией.

Примечания

При выполнении ковариационного взвешивания методом наименьших квадратов Covar0 обычно должен быть диагональной матрицей. Ряды с большим влиянием должны иметь меньшие диагональные элементы в Covar0 и ряды с меньшим влиянием должны иметь большие диагональные элементы. Обратите внимание, что при выполнении CWLS, Covar0 не обязательно быть матрицей диагонали, даже если CovarFormat = 'diagonal'.

Можно конфигурировать Design как матрица, если NUMSERIES = 1 или как массив ячеек, если NUMSERIES ≥ 1.

Если Design является массивом ячеек и NUMSERIES = 1каждая камера содержит NUMPARAMS Вектор-строка.
Если Design является массивом ячеек и NUMSERIES > 1каждая камера содержит NUMSERIES-by- NUMPARAMS матрица.

Эти точки касаются того, как Design обрабатывает отсутствующие данные:

Хотя Design не должен иметь NaN значения, проигнорированные выборки из-за NaN значения в Data также игнорируются в соответствующих Design массив.
Если Design является 1-by- 1 массив ячеек, который имеет одну Design матрица для каждой выборки, нет NaN значения разрешены в массиве. Модель с этой структурой должна иметь NUMSERIES ≥ NUMPARAMS с rank(Design{1}) = NUMPARAMS.
ecmlsrmle является более строгим, чем mvnrmle о наличии NaN значения в Design массив.

Используйте оценки в необязательной структуре output Info в диагностических целях.

Примеры

См. Многомерная нормальная регрессия, регрессия методом наименьших квадратов, ковариационная взвешенная методом наименьших квадратов, допустимые обобщенные методом наименьших квадратов и, кажется, несвязанная регрессия.

Ссылки

Родерик Дж. А. Литтл и Дональд Б. Рубин. Статистический анализ с отсутствующими данными. 2-е издание. John Wiley & Sons, Inc., 2002.

Сяо-Ли Мэн и Дональд Б. Рубин. «Максимальная оценка правдоподобия через алгоритм ECM». Биометрика. Том 80, № 2, 1993, стр. 267-278.

Джо Секстон и Андерс Райг Свенсен. «Алгоритмы ECM, которые сходятся со скоростью EM». Биометрика. Том 87, № 3, 2000, стр. 651-662.

А. П. Демпстер, Н.М. Лэрд и Д. Б. Рубин. «Максимальная правдоподобность из неполных данных через алгоритм EM». Журнал Королевского статистического общества. Серия B, том 39, № 1, 1977, стр. 1-37.