Многомерная линейная регрессия

Введение в многомерные методы

Большие, высоко-размерные наборы данных распространены в современную эпоху компьютерного инструментирования и электронного хранения данных. Высокомерные данные представляют много проблем для статистической визуализации, анализа и моделирования.

Визуализация данных, конечно, невозможна за пределами нескольких размерностей. В результате распознавание шаблона, предварительная обработка данных и выбор модели должны в большой степени опираться на числовые методы.

Фундаментальной проблемой в высокомерном анализе данных является так называемая curse of dimensionality. Наблюдения в высокомерном пространстве обязательно более разреженны и менее показательны, чем наблюдения в низкомерном пространстве. В более высоких размерностях данные сверх-представляют ребра дискретизирующего распределения, потому что области более высоко-размерного пространства содержат большую часть их объема около поверхности. (A d -мерный сферический интерпретатор имеет объем, относительно общего объема сферы, который приближается к 1, когда d приближается к бесконечности.) В высоких размерностях типичные точки данных внутри распределения отбираются реже.

Часто многие размерности в наборе данных - измеренные функции - не полезны при создании модели. Функции могут быть нерелевантными или избыточными. Алгоритмы регрессии и классификации могут потребовать больших объемов времени хранения и расчета для обработки необработанных данных, и даже если алгоритмы успешны, получившиеся модели могут содержать непонятное количество членов.

Из-за этих проблем многомерные статистические методы часто начинаются с некоторых типов dimension reduction, в которых данные аппроксимируются точками в низкомерном пространстве. Уменьшение размерности является целью методов, представленных в этой главе. Уменьшение размерности часто приводит к более простым моделям и меньшему количеству измеренных переменных с последующими преимуществами, когда измерения дороги, и визуализация важна.

Многомерная линейная регрессионая модель

Многомерная линейная регрессионная модель выражает d-мерный непрерывный вектор отклика как линейную комбинацию членов предиктора плюс вектор членов ошибки с многомерным нормальным распределением. Давайтеyi=(yi1,,yid) обозначить вектор отклика для i наблюдений, i = 1,..., n. В самом общем случае, учитывая d -by K матрицу проектаXi и вектор K -by-1 коэффициентовβ, многомерная линейная регрессионая модель

yi=Xiβ+εi,

где d -мерный вектор членов ошибки следует многомерному нормальному распределению,

εiMVNd(0,Σ).

Модель принимает независимость между наблюдениями, что означает, что дисперсионно-ковариационная матрица для n сложенных d -мерных векторов отклика

InΣ=(Σ00Σ).

Если y обозначает вектор nd -by-1 сложенных d -мерных откликов, иX обозначает nd -by - K матрицу сложенных матриц проекта, тогда распределение вектора отклика равняется

yMVNnd(Xβ,InΣ).

Решение многомерных регрессионных задач

Для аппроксимации многомерных линейных регрессионых моделей вида

yi=Xiβ+εi,εiMVNd(0,Σ)

в Statistics and Machine Learning Toolbox™ используйте mvregress. Эта функция подходит для многомерных регрессионных моделей с диагональю (гетероскедастической) или неструктурированной (гетероскедастической и коррелированной) дисперсионно-ковариационной матрицей ошибок, Σ, использование оценки наименьших квадратов или максимальной вероятностной оценки.

Многие изменения многомерной регрессии, возможно, изначально не имеют формы, поддерживаемой mvregress, таких как:

  • Многомерная общая линейная модель

  • Многомерный дисперсионный анализ (MANOVA)

  • Продольный анализ

  • Панельный анализ данных

  • Кажущаяся несвязанной регрессия (SUR)

  • Векторная авторегрессивная (VAR) модель

Во многих случаях можно подставить эти задачи в форму, используемую mvregress (но mvregress не поддерживает параметризованные дисперсионно-ковариационные матрицы ошибок). Для особого случая одностороннего MANOVA можно также использовать manova1. Econometrics Toolbox™ имеет функции для оценки VAR.

Примечание

Многомерная линейная регрессионая модель отличается от многофакторной линейной регрессии, которая моделирует одномерную непрерывную реакцию как линейную комбинацию экзогенных членов плюс независимый и идентично распределенный член ошибки. Чтобы подогнать под множественную линейную регрессионую модель, используйте fitlm.

См. также

| | |

Похожие примеры

Подробнее о