Уменьшение размерности и редукция данных

PCA, факторный анализ, выбор признаков, редукция данных и многое другое

Методов преобразования признаков уменьшают размерность данных путем преобразования данных в новые возможности. Методы выбора признаков предпочтительны, когда преобразование переменных невозможно, например, когда в данных есть категориальные переменные. Для метода выбора признаков, который специально подходит для подбора кривой методом наименьших квадратов, смотрите Ступенчатая Регрессия.

Функции

расширить все

fscchi2Рейтинг одномерных функций для классификации с использованием тестов хи-квадрат
fscmrmrОцените функции для классификации, используя алгоритм максимальной релевантности минимальной избыточности (MRMR)
fscncaВыбор признаков с помощью анализа соседних компонентов для классификации
fsrftestОдномерный рейтинг функций для регрессии с использованием F -tests
fsrncaВыбор признаков с помощью анализа компонента окрестности для регрессии
fsulaplacianРанг функции для неконтролируемого обучения с использованием Laplacian счетов
partialDependenceВычисление частичной зависимости
plotPartialDependenceСоздайте график частичной зависимости (PDP) и отдельные графики условного ожидания (ICE)
oobPermutedPredictorImportanceОценки важности предиктора путем сочетания наблюдений предиктора вне мешка для случайного леса деревьев классификации
oobPermutedPredictorImportanceОценки важности предиктора путем сочетания наблюдений предиктора вне мешка для случайного леса деревьев регрессии
predictorImportanceОценки предикторной важности для дерева классификации
predictorImportanceОценки предикторной важности для классификационного ансамбля деревьев решений
predictorImportanceОценки предикторной важности для дерева регрессии
predictorImportanceОценки предикторной важности для регрессионого ансамбля
relieffОцените важность предикторов, использующих алгоритм ReliefF или RReliefF
sequentialfsПоследовательный выбор признаков с использованием пользовательского критерия
stepwiselmВыполните ступенчатую регрессию
stepwiseglmСоздайте обобщенную линейную регрессионую модель путем ступенчатой регрессии
ricaРедукция данных с помощью reconstruction ICA
sparsefiltРедукция данных с помощью разреженной фильтрации
transformПреобразуйте предикторы в извлечённые функции
tsnet-распределенное стохастическое соседнее встраивание
barttestТест Бартлетта
canoncorrКаноническая корреляция
pcaАнализ основных компонентов необработанных данных
pcacovАнализ основных компонентов на ковариационной матрице
pcaresНевязки из анализа основных компонентов
ppcaВероятностный анализ основных компонентов
factoranФакторный анализ
rotatefactorsКоэффициент поворота загрузок
nnmfНеотрицательная матричная факторизация
cmdscaleКлассическое многомерное масштабирование
mahalРасстояние Махаланобиса
mdscaleНеклассическое многомерное масштабирование
pdistПарное расстояние между парами наблюдений
squareformФорматируйте матрицу расстояния
procrustesАнализ Простростеса

Объекты

расширить все

FeatureSelectionNCAClassificationВыбор признаков для классификации с помощью анализа компонентов окрестностей (NCA)
FeatureSelectionNCARegressionВыбор признаков для регрессии с использованием анализа соседних компонентов (NCA)
ReconstructionICAРедукция данных реконструкцией ICA
SparseFilteringРедукция данных разреженной фильтрацией

Темы

Выбор признаков

Введение в выбор признаков

Узнайте об алгоритмах выбора признаков и исследуйте функции, доступные для выбора объектов.

Последовательный выбор признаков

В этом разделе описывается последовательный выбор признаков и приводится пример, который выбирает функции последовательно с помощью пользовательского критерия и sequentialfs функция.

Анализ компонентов по соседству (NCA) Выбора признаков

Анализ компонента окрестности (NCA) является непараметрическим методом для выбора функций с целью максимизации точности предсказания алгоритмов регрессии и классификации.

Упорядочение классификатора дискриминантного анализа

Создайте более устойчивую и более простую модель путем удаления предикторов, не ставя под угрозу прогнозирующую степень модели.

Выберите предикторы для случайных лесов

Выберите предикторы разделения для случайных лесов с помощью алгоритма тестирования взаимодействия.

Редукция данных

Редукция данных

Редукция данных является набором методов для извлечения высокоуровневых функций из данных.

Рабочий процесс редукции данных

Этот пример показывает полный рабочий процесс редукции данных из данных изображения.

Извлечение смешанных сигналов

В этом примере показано, как использовать rica для распутывания смешанных аудиосигналов.

Многомерная визуализация t-SNE

t-SNE

t-SNE является методом визуализации высокомерных данных путем нелинейного сокращения до двух или трёх размерностей с сохранением некоторых функций исходных данных.

Визуализация высоко-размерных данных с помощью t-SNE

В этом примере показано, как t-SNE создает полезное маломерное вложение высоко-размерных данных.

Настройки tsne

Этот пример показывает эффекты различных tsne настройки.

Выходная функция t-SNE

Описание выходной функции и пример для t-SNE.

PCA и каноническая корреляция

Анализ основных компонентов (PCA)

Анализ основных компонентов уменьшает размерность данных, заменяя несколько коррелированных переменных на новый набор переменных, которые являются линейными комбинациями исходных переменных.

Анализ качества жизни в городах США с помощью PCA

Выполните анализ взвешенных основных компонентов и интерпретируйте результаты.

Факторный анализ

Факторный анализ

Факторный анализ является способом подгонки модели к многомерным данным для оценки взаимозависимости измеренных переменных с меньшим количеством незащищенных (латентных) факторов.

Анализ цен на акции с помощью факторного анализа

Используйте факторный анализ, чтобы выяснить, испытывают ли компании в том же секторе аналогичные изменения цен на акции от недели к неделе.

Выполните анализ фактора на экзаменационных оценках

В этом примере показов, как выполнить анализ фактора с помощью Statistics and Machine Learning Toolbox™.

Неотрицательная матричная факторизация

Неотрицательная матричная факторизация

Nonnegative matrix factorization (NMF) является методом уменьшения размерности, основанным на низкоранговом приближении пространства функций.

Выполните неотрицательную матричную факторизацию

Выполните неотрицательную матричную факторизацию, используя мультипликативный и переменный алгоритмы наименьших квадратов.

Многомерное масштабирование

Многомерное масштабирование

Многомерное масштабирование позволяет вам визуализировать, как близко точки находятся друг к другу для многих видов метрик расстояния или неоднородности, и может создать представление данных в небольшом количестве размерностей.

Классическое многомерное масштабирование

Использование cmdscale для выполнения классического (метрического) многомерного масштабирования, также известного как анализ основных координат.

Классическое многомерное масштабирование, примененное к непространственным расстояниям

В этом примере показано, как выполнить классическое многомерное масштабирование с помощью cmdscale функция в Statistics and Machine Learning Toolbox™.

Неклассическое многомерное масштабирование

Этот пример показывает, как визуализировать данные о различии с помощью неклассических форм многомерного масштабирования (MDS).

Неклассическое и неметрическое многомерное масштабирование

Выполните неклассическое многомерное масштабирование с помощью mdscale.

Анализ Простростей

Анализ Простростей

Анализ Procrustes минимизирует различия в местоположении между сравненными историческими данными, используя лучшие евклидовы преобразования, сохраняющие форму.

Сравнение рукописных фигур с помощью анализа Procrustes

Используйте анализ Procrustes, чтобы сравнить две рукописные цифры.

Рекомендуемые примеры

Partial Least Squares Regression and Principal Components Regression

Частичная регрессия методом наименьших квадратов и регрессия основных компонентов

Применение частичной регрессии методом наименьших квадратов (PLSR) и регрессии основных компонентов (PCR) и обсуждение эффективности двух методов. PLSR и PCR являются обоими методами для моделирования переменной отклика, когда существует большое количество переменных предиктора, и эти предикторы сильно коррелируют или даже коллинеарны. Оба метода создают новые переменные предиктора, известные как компоненты, как линейные комбинации исходных переменных предиктора, но они строят эти компоненты по-разному. ПЦР создает компоненты, чтобы объяснить наблюдаемую изменчивость в переменных предиктора, не рассматривая переменную отклика вообще. С другой стороны, PLSR принимает во внимание переменную отклика, и, следовательно, часто приводит к моделям, которые способны соответствовать переменной отклика с меньшим количеством компонентов. Преобразуется ли это в конечном счете в более скупую модель с точки зрения ее практического использования, зависит от контекста.

Для просмотра документации необходимо авторизоваться на сайте