exponenta event banner

Уменьшение размерности и извлечение элементов

PCA, факторный анализ, выбор элементов, извлечение элементов и многое другое

Методы преобразования элементов уменьшают размерность данных путем преобразования данных в новые элементы. Методы выбора признаков предпочтительны, когда преобразование переменных невозможно, например, когда в данных имеются категориальные переменные. Метод выбора элемента, который специально подходит для фитинга методом наименьших квадратов, см. в разделе Ступенчатая регрессия.

Функции

развернуть все

fscchi2Одномерное ранжирование элементов для классификации с использованием тестов хи-квадрат
fscmrmrРанговые характеристики для классификации с использованием алгоритма минимальной максимальной релевантности избыточности (MRMR)
fscncaВыбор элемента с использованием анализа компонентов окрестности для классификации
fsrftestОдномерное ранжирование элементов для регрессии с использованием F-тестов
fsrncaВыбор элемента с использованием анализа компонента окрестности для регрессии
fsulaplacianРанговые характеристики для неконтролируемого обучения с использованием лапласианских баллов
partialDependenceВычислить частичную зависимость
plotPartialDependenceСоздание графиков частичной зависимости (PDP) и индивидуального условного ожидания (ICE)
oobPermutedPredictorImportanceОценки важности предиктора путем перестановки наблюдений предиктора вне мешка для случайного леса деревьев классификации
oobPermutedPredictorImportanceОценки важности предиктора путем перестановки наблюдений предиктора вне мешка для случайного леса деревьев регрессии
predictorImportanceОценки важности предиктора для дерева классификации
predictorImportanceОценки важности предиктора для классификационного ансамбля деревьев решений
predictorImportanceОценки важности предиктора для дерева регрессии
predictorImportanceОценки важности предиктора для регрессионного ансамбля
relieffРанговая важность предикторов с использованием алгоритма ReliefF или RReloringF
sequentialfsПоследовательный выбор элемента с использованием пользовательского критерия
stepwiselmВыполнить пошаговую регрессию
stepwiseglmСоздание обобщенной модели линейной регрессии путем пошаговой регрессии
ricaИзвлечение признаков с использованием реконструкции ICA
sparsefiltИзвлечение элементов с помощью разреженной фильтрации
transformПреобразование предикторов в извлеченные функции
tsnet-Распределенное внедрение стохастического соседа
barttestТест Бартлетта
canoncorrКаноническая корреляция
pcaАнализ основных компонентов необработанных данных
pcacovАнализ основных компонентов ковариационной матрицы
pcaresОстатки из анализа основных компонентов
ppcaВероятностный анализ основных компонентов
factoranФакторный анализ
rotatefactorsНагрузки коэффициента поворота
nnmfНеотрицательная факторизация матрицы
cmdscaleКлассическое многомерное масштабирование
mahalРасстояние Махаланобиса
mdscaleНеклассическое многомерное масштабирование
pdistПопарное расстояние между парами наблюдений
squareformФормат матрицы расстояний
procrustesАнализ заготовок

Объекты

развернуть все

FeatureSelectionNCAClassificationВыбор элемента для классификации с использованием анализа компонентов окрестности (NCA)
FeatureSelectionNCARegressionВыбор элемента для регрессии с использованием анализа компонентов окрестности (NCA)
ReconstructionICAИзвлечение признаков посредством реконструкции ICA
SparseFilteringИзвлечение элементов с помощью разреженной фильтрации

Темы

Выбор элемента

Введение в выбор элементов

Узнайте о алгоритмах выбора элементов и изучите функции, доступные для выбора элементов.

Выбор последовательного элемента

В этом разделе описывается последовательный выбор элементов и приводится пример последовательного выбора элементов с использованием пользовательского критерия и sequentialfs функция.

Выбор элементов для анализа компонентов соседства (NCA)

Анализ компонентов окрестности (NCA) - непараметрический метод выбора признаков с целью максимизации точности прогнозирования алгоритмов регрессии и классификации.

Упорядочить классификатор дискриминантного анализа

Сделайте модель более надежной и простой, удалив предикторы без ущерба для прогнозирующей силы модели.

Выбор предикторов для случайных лесов

Выберите предикторы разделения для случайных лесов с помощью алгоритма тестирования взаимодействия.

Извлечение элементов

Извлечение элементов

Извлечение элементов - это набор методов извлечения элементов высокого уровня из данных.

Рабочий процесс извлечения элементов

В этом примере показан полный рабочий процесс извлечения элемента из данных изображения.

Извлечение смешанных сигналов

В этом примере показано, как использовать rica распутывать смешанные звуковые сигналы.

Многомерная визуализация t-SNE

t-SNE

t-SNE - метод визуализации высокоразмерных данных путем нелинейного уменьшения до двух или трех измерений при сохранении некоторых особенностей исходных данных.

Визуализация высокоразмерных данных с помощью t-SNE

В этом примере показано, как t-SNE создает полезное низкоразмерное встраивание высокомерных данных.

Настройки tsne

В этом примере показаны эффекты различных tsne настройки.

Выходная функция t-SNE

Описание и пример функции вывода для t-SNE.

PCA и каноническая корреляция

Анализ основных компонентов (PCA)

Анализ главных компонентов уменьшает размерность данных, заменяя несколько коррелированных переменных новым набором переменных, которые являются линейными комбинациями исходных переменных.

Анализ качества жизни в городах США с помощью PCA

Выполните взвешенный анализ главных компонентов и интерпретируйте результаты.

Факторный анализ

Факторный анализ

Факторный анализ - это способ подгонки модели к многомерным данным для оценки взаимозависимости измеряемых переменных по меньшему числу ненаблюдаемых (скрытых) факторов.

Анализ цен на акции с использованием факторного анализа

Используйте факторный анализ, чтобы выяснить, испытывают ли компании в том же секторе аналогичные изменения котировок акций из недели в неделю.

Выполнить факторный анализ экзаменационных оценок

В этом примере показано, как выполнять факторный анализ с использованием Toolbox™ статистики и машинного обучения.

Неотрицательная факторизация матрицы

Неотрицательная факторизация матрицы

Неотрицательная матричная факторизация (NMF) - метод уменьшения размерности, основанный на низкоранговой аппроксимации пространства признаков.

Выполнение факторизации неотрицательной матрицы

Выполнение факторизации неотрицательной матрицы с использованием алгоритмов умножения и чередования наименьших квадратов.

Многомерное масштабирование

Многомерное масштабирование

Многомерное масштабирование позволяет визуализировать, как близкие точки находятся друг к другу для многих видов метрик расстояния или разнородности, и может создавать представление данных в небольшом количестве измерений.

Классическое многомерное масштабирование

Использовать cmdscale для выполнения классического (метрического) многомерного масштабирования, также известного как анализ главных координат.

Классическое многомерное масштабирование, применяемое к непространственным расстояниям

В этом примере показано, как выполнить классическое многомерное масштабирование с помощью cmdscale функция в Toolbox™ статистики и машинного обучения.

Неклассическое многомерное масштабирование

В этом примере показано, как визуализировать разнородные данные с помощью неклассических форм многомерного масштабирования (MDS).

Неклассическое и неметрическое многомерное масштабирование

Выполнение неклассического многомерного масштабирования с помощью mdscale.

Анализ заготовок

Анализ заготовок

Анализ Procrustes минимизирует различия в местоположении между сравниваемыми данными ориентиров, используя наилучшие преобразования Евклидова, сохраняющие форму.

Сравнение рукописных фигур с помощью анализа Procrustes

Используйте анализ Procrustes для сравнения двух рукописных цифр.

Характерные примеры

Partial Least Squares Regression and Principal Components Regression

Частичная регрессия методом наименьших квадратов и регрессия основных компонентов

Примените частичную регрессию методом наименьших квадратов (PLSR) и регрессию основных компонентов (PCR) и обсудите эффективность этих двух методов. PLSR и PCR являются методами моделирования переменной ответа, когда существует большое количество переменных предиктора, и эти предикторы сильно коррелируют или даже коллинеарны. Оба метода строят новые переменные предиктора, известные как компоненты, как линейные комбинации исходных переменных предиктора, но они строят эти компоненты по-разному. ПЦР создает компоненты для объяснения наблюдаемой изменчивости переменных предиктора, вообще не рассматривая переменную ответа. С другой стороны, PLSR действительно учитывает переменную отклика и, следовательно, часто приводит к моделям, которые способны совместить переменную отклика с меньшим количеством компонентов. Будет ли это в конечном итоге преобразовано в более благоразумную модель с точки зрения ее практического использования, зависит от контекста.