Настройка многомерных регрессионных задач

Матрица отклика

Для подгонки многомерной линейной регрессионой модели с использованием mvregressнеобходимо настроить матрицу отклика и разработать матрицы определенным способом. Учитывая правильно отформатированные входы, mvregress может справиться с множеством многомерных регрессионных задач.

mvregress ожидает, что n наблюдения потенциально коррелированных d -мерных откликов будут в матрице n -by- d с именем Y, для примера. То есть настройте свои ответы так, чтобы структура зависимостей была между наблюдениями в одной строке. Если вы задаете Y как вектор длины n (строка или вектор-столбец), затем mvregress принимает, что d = 1, и рассматривает элементы как n независимые наблюдения. Он не моделирует вектор как одну реализацию коррелированного ряда (такие как временные ряды).

Чтобы проиллюстрировать, как настроить матрицу отклика, предположим, что ваши многомерные отклики являются повторными измерениями, выполненными на субъектах в нескольких временных точках, как на следующем рисунке.

Предположим, что наблюдения внутри субъекта коррелируют.

В этом случае настройте матрицу отклика Y таким образом, каждая строка соответствует субъекту, а каждый столбец соответствует временной точке.

Затем снова предположим, что наблюдения, сделанные на субъектах в то же время, коррелируются (параллельная корреляция).

В этом случае настройте матрицу отклика Y таким образом, каждая строка соответствует временной точке, и каждый столбец соответствует субъекту.

Проект матриц

В многомерной линейной регрессионной модели каждая d -мерная характеристика имеет соответствующую матрицу проекта. В зависимости от модели матрица проекта может состоять из переменных экзогенного предиктора, фиктивных переменных, отстающих ответов или комбинации этих и других ковариационных терминов.

Если d > 1 и все d размерности имеют одинаковую матрицу проекта, задайте одну матрицу n -by p design, где p количество переменных предиктора. Чтобы определить точку пересечения для каждой размерности, добавьте столбец с таковыми в матрицу проекта. В этом случае,mvregress применяет матрицу проекта ко всем d размерностям.
Если d > 1 и все d размерности не имеют одинаковой матрицы проекта, задайте матрицы проекта с помощью массива ячеек n d -by K arrays с именем X, для примера. K - общее количество коэффициентов регрессии в модели. Обратите внимание, что строки массивов в X соответствуют столбцам матрицы отклика, Y.

Если все n наблюдения имеют одну и ту же матрицу проекта, можно задать массив ячеек, содержащий одну матрицу d -by K design. В этом случае mvregress применяет матрицу проекта ко всем n наблюдениям. Для примера эта ситуация может возникнуть, если предикторы являются функциями времени, и все наблюдения были измерены одновременно точки.
В частном случае, когда d = 1, можно задать одну матрицу n -by K проекта (не в массиве ячеек). Тем не менее, вы должны рассмотреть использование fitlm для подгонки регрессионных моделей к одномерным, непрерывным реакциям.

Следующие разделы иллюстрируют, как настроить некоторые общие многомерные регрессионые задачи для оценки с помощью mvregress.

Многомерная общая линейная модель

Многомерная общая линейная модель имеет вид

$Y_{n \times d} = X_{n \times (p + 1)} B_{(p + 1) \times d} + E_{n \times d} .$

В расширенном виде,

$[\begin{array}{l} y_{11} y_{12} \dots y_{1 d} \\ y_{21} y_{22} \dots y_{2 d} \\ ⋮ ⋮ ⋱ ⋮ \\ y_{n 1} y_{n 2} \dots y_{n d} \end{array}] = [\begin{array}{l} 1 x_{11} x_{12} \dots x_{1 p} \\ 1 x_{21} x_{22} \dots x_{2 p} \\ ⋮ ⋮ ⋮ ⋱ ⋮ \\ 1 x_{n 1} x_{n 2} \dots x_{n p} \end{array}] [\begin{array}{l} β_{01} β_{02} \dots β_{0 d} \\ β_{11} β_{12} \dots β_{1 d} \\ ⋮ ⋮ ⋱ ⋮ \\ β_{p 1} β_{p 2} \dots β_{p d} \end{array}] + [\begin{array}{l} ε_{11} ε_{12} \dots ε_{1 d} \\ ε_{21} ε_{22} \dots ε_{2 d} \\ ⋮ ⋮ ⋱ ⋮ \\ ε_{n 1} ε_{n 2} \dots ε_{n d} \end{array}] .$

То есть каждый d -мерный ответ имеет переменные точки пересечения и p предиктора, и каждая размерность имеет свой собственный набор коэффициентов регрессии. В этой форме решение методом наименьших квадратов B = X\Y. Чтобы оценить эту модель с помощью mvregress, используйте n -by - d матрицу ответов, как описано выше.

Если все d размерности имеют одинаковую матрицу проекта, используйте n матрицу проекта -by- (p + 1), как выше. Добавление столбца таковых к переменным предиктора p вычисляет точку пересечения для каждой размерности.

Если все d размерности не имеют той же матрицы проекта, переформатировали n (p + 1), проектируют матрицу в длину - n массив ячеек d K матрицами. Здесь K = (p + 1) d для точки пересечения и склонов для каждой размерности.

Для примера предположим, что n = 4, d = 3 и p = 2 (два предиктора в сложение к точке пересечения). Этот рисунок показывает, как форматировать i-й элемент массива ячеек.

Если вы предпочитаете, можно перестроить вектор коэффициентов K -на-1 назад в (p + 1) -by - d матрицу после оценки.

Чтобы наложить ограничения на параметры модели, скорректируйте матрицу проекта соответственно. Например, предположим, что три размерности в предыдущем примере имеют общий уклон. То есть, $β_{11} = β_{12} = β_{13} = β_{1}$ и $β_{21} = β_{22} = β_{23} = β_{2} .$ В этом случае каждая матрица проекта является 3 на 5, как показано на следующем рисунке.

Продольный анализ

В продольном анализе можно измерить ответы на n субъекты в d временных точек с корреляцией между наблюдениями, сделанными по той же теме. Для примера предположим, что вы измеряете ответы _yij в моменты времени _tij, i = 1,..., n и j = 1,..., d. Кроме сложения, предположим, что каждый субъект находится в одной из двух групп (таких как мужчина или женщина), заданных переменной показателя Gi. Можно смоделировать _yij как функцию Gi и _tij с групповыми точками пересечения и склонами следующим образом:

$y_{i j} = β_{0} + β_{1} G_{i} + β_{2} t_{i j} + β_{3} G_{i} \times t_{i j} + ε_{i j}, i = 1, \dots, n; j = 1, \dots, d,$

где

$ε_{i} = (ε_{i 1}, \dots, ε_{i d})^{'} \sim M V N (0, Σ) .$

Большинство продольных моделей включают время как явный предиктор.

Чтобы подогнать эту модель используя mvregress, расположите ответы в матрице n -by d, где n - количество субъектов и d - количество временных точек. Задайте матрицы проекта в n массиве ячеек -length из d -by - K матриц, где здесь K = 4 для четырех коэффициентов регрессии.

Для примера предположим d = 5 (пять наблюдений на субъекта). i матрица проекта и соответствующий вектор параметра для указанной модели показаны на следующем рисунке.

Анализ панелей

В панель анализе можно измерить ответы и ковариаты по d субъектам (таким как индивидуумы или страны) в n времени точек. Для примера предположим, что вы измеряете ответы _ytj и ковариаты, _xtj на субъектах j = 1,..., d временами t = 1,..., n. Модель панели фиксированных эффектов с специфическими для субъекта фиксированными эффектами и параллельной корреляцией может выглядеть следующим образом:

$y_{t j} = α_{j} + β x_{t j} + ε_{t j},$

где

$ε_{t} = (ε_{t 1}, ..., ε_{t d})^{'} \sim M V N (0, Σ) .$

В отличие от продольных моделей, модель панельного анализа обычно включает ковариаты, измеренные в каждой временной точке, вместо использования времени в качестве явного предиктора.

Чтобы подогнать эту модель используя mvregress, расположите ответы в n -by - d матрице, так что каждый столбец соответствует субъекту. Задайте матрицы проекта в n массиве ячеек -length из d K матриц, где here K = d + 1 для перехвата d и члена наклона.

Например, предположим d = 4 (четыре субъекта). t матрица проекта и соответствующий вектор параметра показаны на следующем рисунке.

Кажется, несвязанная регрессия

В, казалось бы, несвязанной регрессии (SUR), вы моделируете d отдельные регрессии, каждый со своими собственными точками пересечения и наклоном, но общей дисперсионно-ковариационной матрицей ошибок. Для примера предположим, что вы измеряете ответы _yij и ковариаты, _xij для регрессионых моделей j = 1,..., d, с i = 1,..., n наблюдениями, чтобы соответствовать каждой регрессии. Модель SUR может выглядеть следующим образом:

$y_{i j} = β_{0 j} + β_{j} x_{i j} + ε_{i j},$

где

$ε_{i} = (ε_{i 1}, \dots, ε_{i d})^{'} \sim M V N (0, Σ) .$

Эта модель очень похожа на многомерную общую линейную модель, за исключением того, что она имеет различные ковариаты для каждой размерности.

Чтобы подогнать эту модель используя mvregress, расположите ответы в матрице n -by d, так что каждый столбец имеет данные для j-й регрессионой модели. Задайте матрицы проекта в n массиве ячеек -length из d K матриц, где здесь K = 2 d для d перехватов и d склонов.

Например, предположим d = 3 (три регрессии). i матрица проекта и соответствующий вектор параметра показаны на следующем рисунке.

Векторная авторегрессивная модель

Векторная авторегрессионная модель VAR (p) выражает d -мерные отклики временных рядов как линейную функцию p отстающих d -мерных откликов от предыдущих раз. Для примера предположим, что вы измеряете _ответы, ytj для временных рядов j = 1,..., d временами t = 1,..., n. Модель VAR (p) может выглядеть следующим образом:

$[\begin{array}{l} y_{t 1} \\ y_{t 2} \\ ⋮ \\ y_{t d} \end{array}] = [\begin{array}{l} c_{1} \\ c_{2} \\ ⋮ \\ c_{d} \end{array}] + [\begin{array}{l} φ_{11}^{(1)} φ_{12}^{(1)} \dots φ_{1 d}^{(1)} \\ ⋮ ⋮ ⋱ ⋮ \\ φ_{d 1}^{(1)} φ_{d 2}^{(1)} \dots φ_{d d}^{(1)} \end{array}] [\begin{array}{l} y_{t - 1, 1} \\ y_{t - 1, 2} \\ ⋮ \\ y_{t - 1, d} \end{array}] + \dots + [\begin{array}{l} φ_{11}^{(p)} φ_{12}^{(p)} \dots φ_{1 d}^{(p)} \\ ⋮ ⋮ ⋱ ⋮ \\ φ_{d 1}^{(p)} φ_{d 2}^{(p)} \dots φ_{d d}^{(p)} \end{array}] [\begin{array}{l} y_{t - p, 1} \\ y_{t - p, 2} \\ ⋮ \\ y_{t - p, d} \end{array}] + [\begin{array}{l} ε_{t 1} \\ ε_{t 2} \\ ⋮ \\ ε_{t d} \end{array}],$

где

$ε_{t} = (ε_{t 1}, ..., ε_{t d})^{'} \sim M V N (0, Σ) .$

При оценке векторных авторегрессивных моделей вам обычно нужно использовать первые p наблюдения, чтобы инициировать модель или предоставить некоторые другие предварительные значения отклика.

Чтобы подогнать эту модель используя mvregress, расположите отклики в матрице n -by d, так что каждый столбец соответствует временному ряду. Задайте матрицы проекта в n массиве ячеек -length из d -by- K матриц, где here K = d + pd².

Для примера предположим, что d = 2 (два временных рядов) и p = 1 (одна задержка). t матрица проекта и соответствующий вектор параметра показаны на следующем рисунке.

Кроме того, Econometrics Toolbox™ имеет функции для подбора кривой и прогнозирования моделей VAR (p), включая опцию для задания переменных экзогенного предиктора.

См. также

mvregress | mvregresslike

Документация