Многомерная линейная регрессия

Введение в многомерные методы

Большие, высоко-размерные наборы данных распространены в современную эру компьютерного инструментирования и электронного хранения данных. Высоко-размерные данные представляют собой много проблем для статистической визуализации, анализа и моделирования.

Визуализация данных, конечно, невозможна вне нескольких размерностей. В результате распознавание образов, предварительная обработка данных и выбор модели должны положиться в большой степени на численные методы.

Основной проблемой в высоко-размерном анализе данных является так называемый curse of dimensionality. Наблюдения в высоком мерном пространстве являются обязательно более разреженными и менее представительными, чем те в низком мерном пространстве. В более высоких размерностях данные сверхпредставляют ребра распределения выборки, потому что области более многомерного пробела содержат большинство своего объема около поверхности. (d - размерная сферическая оболочка имеет объем относительно суммарного объема сферы, которая приближается 1 как бесконечность подходов d.) В высоких размерностях типичные точки данных во внутренней части распределения производятся менее часто.

Часто, многие размерности в наборе данных — измеренные функции — не полезны в создании модели. Функции могут быть не важными или избыточными. Алгоритмы регрессии и классификации могут потребовать, чтобы большие суммы устройства хранения данных и время вычисления обработали необработанные данные, и даже если алгоритмы успешны, получившиеся модели могут содержать непостижимое количество условий.

Из-за этих проблем многомерные статистические методы часто начинаются с некоторого типа dimension reduction, в котором данные аппроксимированы точками в более низком мерном пространстве. Сокращение размерности является целью методик, представленных в этой главе. Сокращение размерности часто приводит к более простым моделям и меньшему количеству измеренных переменных с последовательными преимуществами, когда измерения являются дорогими, и визуализация важна.

Многомерная модель линейной регрессии

Многомерная модель линейной регрессии выражает d - размерный непрерывный вектор отклика как линейная комбинация условий предиктора плюс вектор остаточных членов с многомерным нормальным распределением. Пусть $y_{i} = {(y_{i 1}, \dots, y_{i d})}^{'}$ обозначьте вектор отклика для наблюдения i, i = 1..., n. В наиболее общем случае, учитывая d-by-K проектируют матрицу $X_{i}$ и K-by-1 вектор коэффициентов $β$ , многомерная модель линейной регрессии

$y_{i} = X_{i} β + ε_{i},$

где d - размерный вектор остаточных членов следует за многомерным нормальным распределением,

$ε_{i} \sim M V N_{d} (0, Σ) .$

Модель принимает независимость между наблюдениями, означая, что ошибочная ковариационная матрица отклонения для n сложила d - размерные векторы отклика

$I_{n} \otimes Σ = (\begin{matrix} Σ & 0 \\ ⋱ \\ 0 & Σ \end{matrix}) .$

Если $y$ обозначает nd-by-1 вектор сложенного d - размерные ответы, и $X$ обозначает nd-by-K матрица сложенных матриц проекта, затем распределение вектора отклика

$y \sim M V N_{n d} (X β, I_{n} \otimes Σ) .$

Решение многомерных задач регрессии

Подбирать многомерные модели линейной регрессии формы

$y_{i} = X_{i} β + ε_{i}, ε_{i} \sim M V N_{d} (0, Σ)$

в Statistics and Machine Learning Toolbox™ используйте mvregress. Эта функция подбирает многомерные модели регрессии с диагональю (heteroscedastic) или неструктурированный (heteroscedastic и коррелируемый) ошибочная ковариационная матрица отклонения, $Σ,$ использование наименьших квадратов или оценки наибольшего правдоподобия.

Много изменений многомерной регрессии, может первоначально казаться, не имеют форму, поддержанную mvregress, такой как:

Многомерная общая линейная модель
Многомерный дисперсионный анализ (MANOVA)
Продольный анализ
Анализ данных панели
На вид несвязанная регрессия (SUR)
Векторная авторегрессивная модель (VAR)

Во многих случаях можно структурировать эти проблемы в форме, используемой mvregress (но mvregress не поддерживает параметрированные ошибочные ковариационные матрицы отклонения). Для особого случая одностороннего MANOVA можно альтернативно использовать manova1. Econometrics Toolbox™ имеет функции для оценки VAR.

Примечание

Многомерная модель линейной регрессии отлична от модели многофакторной линейной регрессии, которая моделирует одномерный непрерывный ответ как линейную комбинацию внешних условий плюс независимый и тождественно распределенный остаточный член. Чтобы подбирать модель линейной регрессии кратного, используйте fitlm.

Документация