Многомерная линейная регрессия

Введение в многомерные методы

Большие, высоко-размерные наборы данных распространены в современную эру компьютерного инструментирования и электронного хранения данных. Высоко-размерные данные представляют собой много проблем для статистической визуализации, анализа и моделирования.

Визуализация данных, конечно, невозможна вне нескольких размерностей. В результате распознавание образов, предварительная обработка данных и выбор модели должны положиться в большой степени на численные методы.

Основной проблемой в высоко-размерном анализе данных является так называемый curse of dimensionality. Наблюдения в высоком мерном пространстве являются обязательно более разреженными и менее представительными, чем те в низком мерном пространстве. В более высоких размерностях данные сверхпредставляют ребра распределения выборки, потому что области более многомерного пробела содержат большинство своего объема около поверхности. (d - размерная сферическая оболочка имеет объем относительно суммарного объема сферы, которая приближается 1 как бесконечность подходов d.) В высоких размерностях типичные точки данных во внутренней части распределения производятся менее часто.

Часто, многие размерности в наборе данных — измеренные функции — не полезны в создании модели. Функции могут быть не важными или избыточными. Алгоритмы регрессии и классификации могут потребовать, чтобы большие суммы устройства хранения данных и время вычисления обработали необработанные данные, и даже если алгоритмы успешны, получившиеся модели могут содержать непостижимое количество условий.

Из-за этих проблем многомерные статистические методы часто начинаются с некоторого типа dimension reduction, в котором данные аппроксимированы точками в более низком мерном пространстве. Сокращение размерности является целью методик, представленных в этой главе. Сокращение размерности часто приводит к более простым моделям и меньшему количеству измеренных переменных с последовательными преимуществами, когда измерения являются дорогими, и визуализация важна.

Многомерная модель линейной регрессии

Многомерная модель линейной регрессии выражает d - размерный непрерывный вектор отклика как линейная комбинация условий предиктора плюс вектор остаточных членов с многомерным нормальным распределением. Пусть yi=(yi1,,yid) обозначьте вектор отклика для наблюдения i, i = 1..., n. В наиболее общем случае, учитывая d-by-K проектируют матрицу Xi и K-by-1 вектор коэффициентовβ, многомерная модель линейной регрессии

yi=Xiβ+εi,

где d - размерный вектор остаточных членов следует за многомерным нормальным распределением,

εiMVNd(0,Σ).

Модель принимает независимость между наблюдениями, означая, что ошибочная ковариационная матрица отклонения для n сложила d - размерные векторы отклика

InΣ=(Σ00Σ).

Если y обозначает nd-by-1 вектор сложенного d - размерные ответы, и X обозначает nd-by-K матрица сложенных матриц проекта, затем распределение вектора отклика

yMVNnd(Xβ,InΣ).

Решение многомерных задач регрессии

Подбирать многомерные модели линейной регрессии формы

yi=Xiβ+εi,εiMVNd(0,Σ)

в Statistics and Machine Learning Toolbox™ используйте mvregress. Эта функция подбирает многомерные модели регрессии с диагональю (heteroscedastic) или неструктурированный (heteroscedastic и коррелируемый) ошибочная ковариационная матрица отклонения, Σ, использование наименьших квадратов или оценки наибольшего правдоподобия.

Много изменений многомерной регрессии, может первоначально казаться, не имеют форму, поддержанную mvregress, такой как:

  • Многомерная общая линейная модель

  • Многомерный дисперсионный анализ (MANOVA)

  • Продольный анализ

  • Анализ данных панели

  • На вид несвязанная регрессия (SUR)

  • Векторная авторегрессивная модель (VAR)

Во многих случаях можно структурировать эти проблемы в форме, используемой mvregress (но mvregress не поддерживает параметризованные ошибочные ковариационные матрицы отклонения). Для особого случая одностороннего MANOVA можно альтернативно использовать manova1. Econometrics Toolbox™ имеет функции для оценки VAR.

Примечание

Многомерная модель линейной регрессии отлична от модели многофакторной линейной регрессии, которая моделирует одномерный непрерывный ответ как линейную комбинацию внешних условий плюс независимый и тождественно распределенный остаточный член. Чтобы подбирать модель линейной регрессии кратного, используйте fitlm.

Смотрите также

| | |

Связанные примеры

Больше о