Большие, высокоразмерные наборы данных распространены в современную эпоху компьютерного приборостроения и электронного хранения данных. Высокоразмерные данные создают множество проблем для статистической визуализации, анализа и моделирования.
Визуализация данных, конечно, невозможна за пределами нескольких измерений. В результате распознавание образов, предварительная обработка данных и выбор модели должны в значительной степени зависеть от численных методов.
Фундаментальной проблемой в высокоразмерном анализе данных является так называемое проклятие размерности. Наблюдения в высокомерном пространстве обязательно более скудны и менее репрезентативны, чем наблюдения в низкомерном пространстве. В более высоких измерениях данные чрезмерно представляют края распределения выборки, поскольку области более пространственного пространства содержат большую часть своего объема вблизи поверхности. (D-мерная сферическая оболочка имеет объем относительно общего объема сферы, который приближается к 1, когда d приближается к бесконечности.) В больших измерениях типичные точки данных во внутренней части распределения отбираются реже.
Часто многие размеры в наборе данных - измеренные элементы - не полезны при создании модели. Функции могут быть неактуальными или избыточными. Алгоритмы регрессии и классификации могут требовать больших объемов времени хранения и вычислений для обработки необработанных данных, и даже если алгоритмы успешны, результирующие модели могут содержать непонятное количество терминов.
Из-за этих проблем многомерные статистические методы часто начинаются с некоторого типа уменьшения размеров, при котором данные аппроксимируются точками в более низкомерном пространстве. Целью методов, представленных в этой главе, является уменьшение размеров. Уменьшение размеров часто приводит к более простым моделям и меньшему количеству измеряемых переменных, с последующими преимуществами, когда измерения дороги и визуализация важна.
Многомерная модель линейной регрессии выражает d-мерный вектор непрерывного отклика как линейную комбинацию предикторных членов плюс вектор ошибочных членов с многомерным нормальным распределением. Пусть yid) ′ обозначает вектор отклика для наблюдения i, i = 1,..., n. В наиболее общем случае, учитывая матрицу конструкции d-by-K Xi и вектор K-by-1 коэффициентов β, многомерная модель линейной регрессии равна
αi,
где d-мерный вектор членов ошибки следует многомерному нормальному распределению,
).
Модель предполагает независимость между наблюдениями, что означает, что матрица дисперсии-ковариации ошибок для n сложенных d-мерных векторов отклика является
).
Если обозначает вектор nd-by-1 сложенных d-мерных откликов, а обозначает матрицу nd-by-K сложенных матриц проектирования, то распределение вектора отклика равно
).
Подгонка многомерных моделей линейной регрессии формы
0,Σ)
в Toolbox™ статистики и машинного обучения mvregress. Эта функция вписывается в многомерные регрессионные модели с диагональной (гетероскедастической) или неструктурированной (гетероскедастической и коррелированной) матрицей дисперсии-ковариации "" "" "использованием наименьших квадратов или оценки максимального правдоподобия.
Многие вариации многомерной регрессии могут изначально не выглядеть в форме, поддерживаемой mvregress, например:
Многомерная общая линейная модель
Многомерный анализ дисперсии (MANOVA)
Продольный анализ
Анализ данных панели
Кажущаяся несвязанная регрессия (SUR)
Векторная авторегрессионная (VAR) модель
Во многих случаях эти проблемы могут быть оформлены в форме, используемой mvregress (но mvregress не поддерживает параметризованные матрицы дисперсия-ковариация ошибок). Для специального случая одностороннего MANOVA можно также использовать manova1. Эконометрика Toolbox™ имеет функции для оценки VAR.
Примечание
Модель многомерной линейной регрессии отличается от модели множественной линейной регрессии, которая моделирует одномерный непрерывный ответ как линейную комбинацию экзогенных членов плюс независимый и одинаково распределенный член ошибки. Чтобы подогнать модель с несколькими линейными регрессиями, используйте fitlm.
fitlm | manova1 | mvregress | mvregresslike