Большие, высоко-размерные наборы данных распространены в современную эру компьютерного инструментирования и электронного хранения данных. Высоко-размерные данные представляют собой много проблем для статистической визуализации, анализа и моделирования.
Визуализация данных, конечно, невозможна вне нескольких размерностей. В результате распознавание образов, предварительная обработка данных и выбор модели должны положиться в большой степени на численные методы.
Основной проблемой в высоко-размерном анализе данных является так называемый curse of dimensionality. Наблюдения в высоком мерном пространстве являются обязательно более разреженными и менее представительными, чем те в низком мерном пространстве. В более высоких размерностях данные сверхпредставляют ребра распределения выборки, потому что области более многомерного пробела содержат большинство своего объема около поверхности. (d - размерная сферическая оболочка имеет объем относительно суммарного объема сферы, которая приближается 1 как бесконечность подходов d.) В высоких размерностях типичные точки данных во внутренней части распределения производятся менее часто.
Часто, многие размерности в наборе данных — измеренные функции — не полезны в создании модели. Функции могут быть не важными или избыточными. Алгоритмы регрессии и классификации могут потребовать, чтобы большие суммы устройства хранения данных и время вычисления обработали необработанные данные, и даже если алгоритмы успешны, получившиеся модели могут содержать непостижимое количество условий.
Из-за этих проблем многомерные статистические методы часто начинаются с некоторого типа dimension reduction, в котором данные аппроксимированы точками в более низком мерном пространстве. Сокращение размерности является целью методик, представленных в этой главе. Сокращение размерности часто приводит к более простым моделям и меньшему количеству измеренных переменных с последовательными преимуществами, когда измерения являются дорогими, и визуализация важна.
Многомерная модель линейной регрессии описывает d - размерный непрерывный вектор отклика как линейная комбинация условий предиктора плюс вектор из остаточных членов с многомерным нормальным распределением. Пусть обозначьте вектор отклика для наблюдения i, i = 1..., n. В наиболее общем случае, учитывая d-by-K проектируют матрицу и K-by-1 вектор из коэффициентов, многомерная модель линейной регрессии
где d - размерный вектор из остаточных членов следует за многомерным нормальным распределением,
Модель принимает независимость между наблюдениями, означая, что ошибочная ковариационная матрица отклонения для n сложила d - размерные векторы отклика
Если обозначает nd-by-1 вектор из сложенного d - размерные ответы, и обозначает nd-by-K матрица сложенных матриц проекта, затем распределение вектора отклика
Подбирать многомерные модели линейной регрессии формы
в Statistics and Machine Learning Toolbox™ используйте mvregress
. Эта функция подбирает многомерные модели регрессии с диагональю (heteroscedastic) или неструктурированный (heteroscedastic и коррелируемый) ошибочная ковариационная матрица отклонения, использование наименьших квадратов или оценки наибольшего правдоподобия.
Много изменений многомерной регрессии, может первоначально казаться, не имеют форму, поддержанную mvregress
, такой как:
Многомерная общая линейная модель
Многомерный дисперсионный анализ (MANOVA)
Продольный анализ
Анализ данных панели
На вид несвязанная регрессия (SUR)
Векторная авторегрессивная модель (VAR)
Во многих случаях можно структурировать эти проблемы в форме, используемой mvregress
(но mvregress
не поддерживает параметрированные ошибочные ковариационные матрицы отклонения). Для особого случая одностороннего MANOVA можно альтернативно использовать manova1
. Econometrics Toolbox™ имеет функции для оценки VAR.
Примечание
Многомерная модель линейной регрессии отлична от модели многофакторной линейной регрессии, которая моделирует одномерный непрерывный ответ как линейную комбинацию внешних условий плюс независимый и тождественно распределенный остаточный член. Чтобы подбирать модель линейной регрессии кратного, использовать fitlm
.
fitlm
| manova1
| mvregress
| mvregresslike