exponenta event banner

Многомерная линейная регрессия

Введение в многомерные методы

Большие, высокоразмерные наборы данных распространены в современную эпоху компьютерного приборостроения и электронного хранения данных. Высокоразмерные данные создают множество проблем для статистической визуализации, анализа и моделирования.

Визуализация данных, конечно, невозможна за пределами нескольких измерений. В результате распознавание образов, предварительная обработка данных и выбор модели должны в значительной степени зависеть от численных методов.

Фундаментальной проблемой в высокоразмерном анализе данных является так называемое проклятие размерности. Наблюдения в высокомерном пространстве обязательно более скудны и менее репрезентативны, чем наблюдения в низкомерном пространстве. В более высоких измерениях данные чрезмерно представляют края распределения выборки, поскольку области более пространственного пространства содержат большую часть своего объема вблизи поверхности. (D-мерная сферическая оболочка имеет объем относительно общего объема сферы, который приближается к 1, когда d приближается к бесконечности.) В больших измерениях типичные точки данных во внутренней части распределения отбираются реже.

Часто многие размеры в наборе данных - измеренные элементы - не полезны при создании модели. Функции могут быть неактуальными или избыточными. Алгоритмы регрессии и классификации могут требовать больших объемов времени хранения и вычислений для обработки необработанных данных, и даже если алгоритмы успешны, результирующие модели могут содержать непонятное количество терминов.

Из-за этих проблем многомерные статистические методы часто начинаются с некоторого типа уменьшения размеров, при котором данные аппроксимируются точками в более низкомерном пространстве. Целью методов, представленных в этой главе, является уменьшение размеров. Уменьшение размеров часто приводит к более простым моделям и меньшему количеству измеряемых переменных, с последующими преимуществами, когда измерения дороги и визуализация важна.

Многомерная модель линейной регрессии

Многомерная модель линейной регрессии выражает d-мерный вектор непрерывного отклика как линейную комбинацию предикторных членов плюс вектор ошибочных членов с многомерным нормальным распределением. Пусть yi = (yi1,..., yid) ′ обозначает вектор отклика для наблюдения i, i = 1,..., n. В наиболее общем случае, учитывая матрицу конструкции d-by-K Xi и вектор K-by-1 коэффициентов β, многомерная модель линейной регрессии равна

yi = Xiβ + αi,

где d-мерный вектор членов ошибки следует многомерному нормальному распределению,

εi∼MVNd (0, Λ).

Модель предполагает независимость между наблюдениями, что означает, что матрица дисперсии-ковариации ошибок для n сложенных d-мерных векторов отклика является

In⊗Σ= (Σ0⋱0Σ).

Если y обозначает вектор nd-by-1 сложенных d-мерных откликов, а X обозначает матрицу nd-by-K сложенных матриц проектирования, то распределение вектора отклика равно

y∼MVNnd (Xβ,In⊗Σ).

Решение проблем многомерной регрессии

Подгонка многомерных моделей линейной регрессии формы

yi = Xiβ + αi, εi∼MVNd (0,Σ)

в Toolbox™ статистики и машинного обучения mvregress. Эта функция вписывается в многомерные регрессионные модели с диагональной (гетероскедастической) или неструктурированной (гетероскедастической и коррелированной) матрицей дисперсии-ковариации "" "" "с использованием наименьших квадратов или оценки максимального правдоподобия.

Многие вариации многомерной регрессии могут изначально не выглядеть в форме, поддерживаемой mvregress, например:

  • Многомерная общая линейная модель

  • Многомерный анализ дисперсии (MANOVA)

  • Продольный анализ

  • Анализ данных панели

  • Кажущаяся несвязанная регрессия (SUR)

  • Векторная авторегрессионная (VAR) модель

Во многих случаях эти проблемы могут быть оформлены в форме, используемой mvregress (но mvregress не поддерживает параметризованные матрицы дисперсия-ковариация ошибок). Для специального случая одностороннего MANOVA можно также использовать manova1. Эконометрика Toolbox™ имеет функции для оценки VAR.

Примечание

Модель многомерной линейной регрессии отличается от модели множественной линейной регрессии, которая моделирует одномерный непрерывный ответ как линейную комбинацию экзогенных членов плюс независимый и одинаково распределенный член ошибки. Чтобы подогнать модель с несколькими линейными регрессиями, используйте fitlm.

См. также

| | |

Связанные примеры

Подробнее