Многомерная линейная регрессия

Введение в многомерные методы

Большие, высоко-размерные наборы данных распространены в современную эпоху компьютерного инструментирования и электронного хранения данных. Высокомерные данные представляют много проблем для статистической визуализации, анализа и моделирования.

Визуализация данных, конечно, невозможна за пределами нескольких размерностей. В результате распознавание шаблона, предварительная обработка данных и выбор модели должны в большой степени опираться на числовые методы.

Фундаментальной проблемой в высокомерном анализе данных является так называемая curse of dimensionality. Наблюдения в высокомерном пространстве обязательно более разреженны и менее показательны, чем наблюдения в низкомерном пространстве. В более высоких размерностях данные сверх-представляют ребра дискретизирующего распределения, потому что области более высоко-размерного пространства содержат большую часть их объема около поверхности. (A d -мерный сферический интерпретатор имеет объем, относительно общего объема сферы, который приближается к 1, когда d приближается к бесконечности.) В высоких размерностях типичные точки данных внутри распределения отбираются реже.

Часто многие размерности в наборе данных - измеренные функции - не полезны при создании модели. Функции могут быть нерелевантными или избыточными. Алгоритмы регрессии и классификации могут потребовать больших объемов времени хранения и расчета для обработки необработанных данных, и даже если алгоритмы успешны, получившиеся модели могут содержать непонятное количество членов.

Из-за этих проблем многомерные статистические методы часто начинаются с некоторых типов dimension reduction, в которых данные аппроксимируются точками в низкомерном пространстве. Уменьшение размерности является целью методов, представленных в этой главе. Уменьшение размерности часто приводит к более простым моделям и меньшему количеству измеренных переменных с последующими преимуществами, когда измерения дороги, и визуализация важна.

Многомерная линейная регрессионая модель

Многомерная линейная регрессионная модель выражает d-мерный непрерывный вектор отклика как линейную комбинацию членов предиктора плюс вектор членов ошибки с многомерным нормальным распределением. Давайте $y_{i} = {(y_{i 1}, \dots, y_{i d})}^{'}$ обозначить вектор отклика для i наблюдений, i = 1,..., n. В самом общем случае, учитывая d -by K матрицу проекта $X_{i}$ и вектор K -by-1 коэффициентов $β$ , многомерная линейная регрессионая модель

$y_{i} = X_{i} β + ε_{i},$

где d -мерный вектор членов ошибки следует многомерному нормальному распределению,

$ε_{i} \sim M V N_{d} (0, Σ) .$

Модель принимает независимость между наблюдениями, что означает, что дисперсионно-ковариационная матрица для n сложенных d -мерных векторов отклика

$I_{n} \otimes Σ = (\begin{matrix} Σ & 0 \\ ⋱ \\ 0 & Σ \end{matrix}) .$

Если $y$ обозначает вектор nd -by-1 сложенных d -мерных откликов, и $X$ обозначает nd -by - K матрицу сложенных матриц проекта, тогда распределение вектора отклика равняется

$y \sim M V N_{n d} (X β, I_{n} \otimes Σ) .$

Решение многомерных регрессионных задач

Для аппроксимации многомерных линейных регрессионых моделей вида

$y_{i} = X_{i} β + ε_{i}, ε_{i} \sim M V N_{d} (0, Σ)$

в Statistics and Machine Learning Toolbox™ используйте mvregress. Эта функция подходит для многомерных регрессионных моделей с диагональю (гетероскедастической) или неструктурированной (гетероскедастической и коррелированной) дисперсионно-ковариационной матрицей ошибок, $Σ,$ использование оценки наименьших квадратов или максимальной вероятностной оценки.

Многие изменения многомерной регрессии, возможно, изначально не имеют формы, поддерживаемой mvregress, таких как:

Многомерная общая линейная модель
Многомерный дисперсионный анализ (MANOVA)
Продольный анализ
Панельный анализ данных
Кажущаяся несвязанной регрессия (SUR)
Векторная авторегрессивная (VAR) модель

Во многих случаях можно подставить эти задачи в форму, используемую mvregress (но mvregress не поддерживает параметризованные дисперсионно-ковариационные матрицы ошибок). Для особого случая одностороннего MANOVA можно также использовать manova1. Econometrics Toolbox™ имеет функции для оценки VAR.

Примечание

Многомерная линейная регрессионая модель отличается от многофакторной линейной регрессии, которая моделирует одномерную непрерывную реакцию как линейную комбинацию экзогенных членов плюс независимый и идентично распределенный член ошибки. Чтобы подогнать под множественную линейную регрессионую модель, используйте fitlm.

См. также

fitlm | manova1 | mvregress | mvregresslike

Подробнее о

Оценка многомерных регрессионных моделей

Документация