Большие, высоко-размерные наборы данных распространены в современную эпоху компьютерного инструментирования и электронного хранения данных. Высокомерные данные представляют много проблем для статистической визуализации, анализа и моделирования.
Визуализация данных, конечно, невозможна за пределами нескольких размерностей. В результате распознавание шаблона, предварительная обработка данных и выбор модели должны в большой степени опираться на числовые методы.
Фундаментальной проблемой в высокомерном анализе данных является так называемая curse of dimensionality. Наблюдения в высокомерном пространстве обязательно более разреженны и менее показательны, чем наблюдения в низкомерном пространстве. В более высоких размерностях данные сверх-представляют ребра дискретизирующего распределения, потому что области более высоко-размерного пространства содержат большую часть их объема около поверхности. (A d -мерный сферический интерпретатор имеет объем, относительно общего объема сферы, который приближается к 1, когда d приближается к бесконечности.) В высоких размерностях типичные точки данных внутри распределения отбираются реже.
Часто многие размерности в наборе данных - измеренные функции - не полезны при создании модели. Функции могут быть нерелевантными или избыточными. Алгоритмы регрессии и классификации могут потребовать больших объемов времени хранения и расчета для обработки необработанных данных, и даже если алгоритмы успешны, получившиеся модели могут содержать непонятное количество членов.
Из-за этих проблем многомерные статистические методы часто начинаются с некоторых типов dimension reduction, в которых данные аппроксимируются точками в низкомерном пространстве. Уменьшение размерности является целью методов, представленных в этой главе. Уменьшение размерности часто приводит к более простым моделям и меньшему количеству измеренных переменных с последующими преимуществами, когда измерения дороги, и визуализация важна.
Многомерная линейная регрессионная модель выражает d-мерный непрерывный вектор отклика как линейную комбинацию членов предиктора плюс вектор членов ошибки с многомерным нормальным распределением. Давайте обозначить вектор отклика для i наблюдений, i = 1,..., n. В самом общем случае, учитывая d -by K матрицу проекта и вектор K -by-1 коэффициентов, многомерная линейная регрессионая модель
где d -мерный вектор членов ошибки следует многомерному нормальному распределению,
Модель принимает независимость между наблюдениями, что означает, что дисперсионно-ковариационная матрица для n сложенных d -мерных векторов отклика
Если обозначает вектор nd -by-1 сложенных d -мерных откликов, и обозначает nd -by - K матрицу сложенных матриц проекта, тогда распределение вектора отклика равняется
Для аппроксимации многомерных линейных регрессионых моделей вида
в Statistics and Machine Learning Toolbox™ используйте mvregress
. Эта функция подходит для многомерных регрессионных моделей с диагональю (гетероскедастической) или неструктурированной (гетероскедастической и коррелированной) дисперсионно-ковариационной матрицей ошибок, использование оценки наименьших квадратов или максимальной вероятностной оценки.
Многие изменения многомерной регрессии, возможно, изначально не имеют формы, поддерживаемой mvregress
, таких как:
Многомерная общая линейная модель
Многомерный дисперсионный анализ (MANOVA)
Продольный анализ
Панельный анализ данных
Кажущаяся несвязанной регрессия (SUR)
Векторная авторегрессивная (VAR) модель
Во многих случаях можно подставить эти задачи в форму, используемую mvregress
(но mvregress
не поддерживает параметризованные дисперсионно-ковариационные матрицы ошибок). Для особого случая одностороннего MANOVA можно также использовать manova1
. Econometrics Toolbox™ имеет функции для оценки VAR.
Примечание
Многомерная линейная регрессионая модель отличается от многофакторной линейной регрессии, которая моделирует одномерную непрерывную реакцию как линейную комбинацию экзогенных членов плюс независимый и идентично распределенный член ошибки. Чтобы подогнать под множественную линейную регрессионую модель, используйте fitlm
.
fitlm
| manova1
| mvregress
| mvregresslike