Выбор элементов для анализа компонентов соседства (NCA)

Анализ компонентов окрестности (NCA) - непараметрический метод выбора признаков с целью максимизации точности прогнозирования алгоритмов регрессии и классификации. Функции Toolbox™ статистики и машинного обучения fscnca и fsrnca выполнить выбор признаков NCA с регуляризацией, чтобы узнать веса признаков для минимизации целевой функции, которая измеряет среднюю классификацию отпуска или потерю регрессии по учебным данным.

Выбор функций NCA для классификации

Рассмотрим проблему классификации нескольких классов с обучающим набором, содержащим n наблюдений:

$\begin{array}{l} S = {_{(} {xi}_{,} yi), i = \end{array} 1,2$ ,..., n},

где $_{}^{xi∈ℝp}$ - векторы признаков, $_{} yi∈{1,2, . . .,$ c} - метки классов, а c - число классов. Целью является изучение $классификатора^{} f:ℝp\to{1,2, .$ .., c}, который принимает вектор признаков и делает предсказание f (x) для истинной $метки$ y из x.

Рассмотрим рандомизированный классификатор, который:

Случайный выбор точки, $Ref (x$ ), из S в качестве «опорной точки» для x
Метки $x$ с использованием метки опорной точки $Ref (x$ ).

Эта схема аналогична схеме классификатора 1-NN, где опорная точка выбирается в качестве ближайшего соседа новой точки x. В NCA опорная точка выбирается случайным образом, и все точки в $S$ имеют некоторую вероятность выбора в качестве опорной точки. Вероятность $P (Ref (x)_{=}$ xj 'S) того, что $_{точка}$ xj выбирается из S в качестве опорной точки для x, выше, $_{если}$ xj ближе к x, что измеряется $_{функцией}$ расстояния dw, где

$_{dw} (_{} xi,_{} xj)_{}^{}_{}^{}_{}_{}$ =∑r=1pwr2|xir−xjr|,

и $_{wr}$ являются весами признаков. Предположим, что

$\begin{array}{l} P (Ref (x)_{=} xj 'S)_{} \proptok (_{dw} ( \end{array} x$ , xj)),

где $k$ - некоторое ядро или функция подобия, которая предполагает большие значения, когда $_{dw} (x,_{}$ xj) мал. Предположим, что это

$k (z) = \frac{\exp}{} (-$ zλ),

как предложено в [1]. Опорная точка для $x$ выбрана из $S$ , поэтому сумма $P (Ref (x)_{=}$ xj 'S) для всех j должна быть равна 1. Поэтому возможна запись

$\begin{array}{l} P (Ref (x)_{=} \frac{xj 'S)_{=} k (_{} dw}{(_{x,}^{} xj))_{}_{} \sumj=1nk} \end{array} ($ dw (x, xj)).

Теперь рассмотрим безвыходное применение этого рандомизированного классификатора, то есть предсказание метки $_{xi}$ с использованием данных в $S^{-}$ i, обучающий $набор$ S исключая $точку_{(} {xi}_{,}$ yi). Вероятность того, что $_{точка}$ xj выбрана в качестве опорной точки $_{для}$ xi, равна

$_{pij} = P (_{Ref} ({xi}_{)} =^{} \frac{xj 'S -_{} i)_{} =_{k} (}{_{dw (xi,}^{} xj))_{}_{}_{}}$ ∑j=1,j≠ink (dw (xi, xj)).

Средняя вероятность отказа от правильной классификации - это вероятность, $_{}$ что рандомизированный классификатор правильно классифицирует наблюдение i, используя $S^{-}$ i.

$\begin{array}{l} _{}_{}^{} pi=∑j=1,j≠inP (Ref_{(} xi)_{} =^{} xj 'S -_{} i)_{} I \end{array} (_{yi = yj}^{)}_{}_{}$ =∑j=1,j≠inpijyij,

где

$_{yij} = I_{} (_{yi} = \begin{matrix} yj) =_{} {_{1если} \\ yi = yj, \end{matrix}$ 0 в противном случае.

Средняя вероятность отказа от правильной классификации с использованием рандомизированного классификатора может быть записана как

$F (w) \frac{}{}_{}^{}_{}$ =1n∑i=1npi.

Правая сторона $F (w$ ) зависит от вектора веса w. Целью анализа компонента окрестности является максимизация $F ($ w) $относительно$ w.fscnca использует регуляризованную целевую функцию, введенную в [1].

$\begin{array}{l} F (w & ) \frac{}{}_{}^{}_{}_{}^{}_{}^{} \\ \frac{}{}_{}^{} \underset{]_{} ︸}{\underset{=1n\sumi=1npi-λ\sumr=1pwr2=1n\sumi=1n[\sumj=1,j\neqinpijyij-λ\sumr=1pwr2}{_{}^{}_{}_{}_{}^{}_{}^{}}} \\ Fi \frac{}{(} w_{)}^{}_{} \end{array}$ =1n∑i=1nFi (w),

где $λ$ - параметр регуляризации. Термин регуляризации приводит многие веса в $w$ к 0.

После выбора в качестве $_{}$ 1 параметра δ ядра в pij определение вектора веса $w$ может быть выражено как следующая задача минимизации для данного $λ$ .

$\overset{}{w}^\underset{}{=} argminwf \underset{}{(w)} \frac{}{}_{}^{}_{}$ =argminw1n∑i=1nfi (w),

где f (w) = -F (w) и fi (w) = -Fi (w).

Обратите внимание, что

$\frac{}{}_{}^{}_{}^{}_{} 1n∑i=1n∑j=1,j≠inpij=1,$

и аргумент минимума не изменяется, если добавить константу к целевой функции. Поэтому можно переписать целевую функцию, добавив константу 1.

$\begin{matrix} \overset{}{w}^\underset{}{=} argminw {1 + \\ \underset{}{f (w)}} \frac{}{}_{}^{}_{}^{}_{} \frac{}{}_{}^{}_{}^{}_{}_{}_{}^{}_{}^{} \\ \underset{}{} \frac{}{}_{}^{}_{}^{}_{}_{} =argminw{1n\sumi=1n\sumj=1,j\neqinpij-1n\sumi=1n\sumj=1,j\neqinpijyij+λ\sumr=1pwr2}=argminw{1n\sumi=1n\sumj=1,j\neqinpij (_{1 −}^{}_{}^{yij}) \\ \underset{}{} \frac{}{}_{}^{}_{}^{}_{}_{}_{}_{+λ\sumr=1pwr2}=argminw{1n\sumi=1n\sumj=1,j\neqinpijl}^{(}_{yi}^{,} \end{matrix}$ yj) +λ∑r=1pwr2},

где функция потерь определяется как

$l (_{} yi,_{} yj) \begin{matrix} = {_{} 1если_{} \end{matrix}$ yi≠yj,0otherwise.

Аргументом минимума является весовой вектор, минимизирующий ошибку классификации. Можно указать пользовательскую функцию потерь с помощью LossFunction аргумент пары имя-значение в вызове fscnca.

Выбор элемента NCA для регрессии

fsrnca функция выполняет выбор элемента NCA, измененного для регрессии. Учитывая n наблюдений

$\begin{array}{l} S = {_{(} {xi}_{,} yi), i = \end{array} 1,2$ ,..., n},

единственное отличие от проблемы классификации заключается в том, что $_{} yi∈ℝ$ значения ответа являются непрерывными. В этом случае цель состоит в том, чтобы предсказать ответ $y$ с учетом обучающего набора $S$ .

Рассмотрим рандомизированную регрессионную модель, которая:

Случайным образом выбирает точку ( $Ref (x$ )) из Sas «контрольная точка» для x
Устанавливает значение ответа x равным значению ответа опорной точки $Ref (x$ ).

Опять же, вероятность $P (Ref (x)_{=}$ xj 'S), что $_{точка}$ xj выбирается из S в качестве опорной точки для x, равна

$\begin{array}{l} P (Ref (x)_{=} \frac{xj 'S)_{=} k (_{} dw}{(_{x,}^{} xj))_{}_{} \sumj=1nk} \end{array} ($ dw (x, xj)).

Теперь рассмотрим применение отказа от этой рандомизированной регрессионной модели, то есть предсказание ответа для $_{xi}$ с использованием данных в $S^{-}$ i, обучающий $набор$ S, исключая $точку_{(} {xi}_{,}$ yi). Вероятность того, что $_{точка}$ xj выбрана в качестве опорной точки $_{для}$ xi, равна

$_{pij} = P (_{Ref} ({xi}_{)} =^{} \frac{xj 'S -_{} i)_{} =_{k} (}{_{dw (xi,}^{} xj))_{}_{}_{}}$ ∑j=1,j≠ink (dw (xi, xj)).

Пусть ${\overset{}{y}}_{^}$ i является значением ответа, которое предсказывает модель рандомизированной регрессии, $и_{}$ yi является фактическим ответом ${для}_{}$ xi. и $пусть^{}$ l:ℝ2→ℝ быть функцией потерь, которая измеряет разногласия ${\overset{}{между}}_{y}$ ^ i $_{}$ и yi. Затем среднее значение $_{} l {\overset{(}{}}_{} yi$ , y ^ i) равно

$_{li} = E (_{l} {\overset{}{(}}_{yi}, y^{^} i)_{| S -}^{i})_{}_{}_{}$ =∑j=1,j≠inpijl (yi, yj).

После добавления термина регуляризации целевой функцией минимизации является:

$f (w) \frac{}{}_{}^{}_{}_{}^{}_{}^{}$ =1n∑i=1nli+λ∑r=1pwr2.

Функция потерь по умолчанию $l (_{} yi,_{}$ yj) для NCA для регрессии является средним абсолютным отклонением, но можно указать другие функции потерь, включая пользовательские, используя LossFunction аргумент пары имя-значение в вызове fsrnca.

Влияние стандартизации

Термин регуляризации выводит веса неактуальных предикторов до нуля. В целевых функциях для NCA для классификации или регрессии имеется только один параметр регуляризации $λ$ для всех весов. Этот факт требует, чтобы величины весов были сравнимы друг с другом. Когда векторы xi признаков $_{}$ в $S$ находятся в разных масштабах, это может привести к весам, которые находятся в разных масштабах и не имеют значения. Чтобы избежать этой ситуации, стандартизируйте предикторы, чтобы иметь нулевое среднее и единичное стандартное отклонение перед применением NCA. Можно стандартизировать предикторы с помощью 'Standardize',true аргумент пары имя-значение в вызове fscnca или fsrnca.

Выбор значения параметра регуляризации

Обычно необходимо выбрать значение параметра регуляризации, рассчитав точность рандомизированного классификатора NCA или регрессионной модели на независимом тестовом наборе. Если вместо одного тестового набора используется перекрестная проверка, выберите значение λ, которое минимизирует средние потери по складкам перекрестной проверки. Примеры см. в разделе Настройка параметра регуляризации для обнаружения элементов с использованием NCA для классификации и настройка параметра регуляризации в NCA для регрессии.

Ссылки

[1] Ян, У., К. Ван, У. Цзо. «Выбор компонентов соседства для высокоразмерных данных». Журнал компьютеров. Том 7, номер 1, январь 2012 года.

См. также

FeatureSelectionNCAClassification | FeatureSelectionNCARegression | fscnca | fsrnca

Документация