Выбор признаков Анализа компонента окружения (NCA)

Анализ компонента окружения (NCA) является непараметрическим методом для выбора функций с целью максимизации точности предсказания алгоритмов регрессии и классификации. Функции Statistics and Machine Learning Toolbox™ fscnca и fsrnca выполните выбор признаков NCA с регуляризацией, чтобы изучить веса функции для минимизации целевой функции, которая измеряется, средняя классификация "пропускают один" или потеря регрессии по обучающим данным.

Выбор признаков NCA для классификации

Рассмотрите многоклассовую задачу классификации с набором обучающих данных, содержащим наблюдения n:

$\begin{array}{l} S = {(x_{i}, y_{i}), i = 1, 2, \dots, n} \end{array},$

где $x_{i} \in ℝ^{p}$ характеристические векторы, $y_{i} \in {1, 2, \dots, c}$ метки класса, и c является количеством классов. Цель состоит в том, чтобы изучить классификатор $f : ℝ^{p} \to {1, 2, \dots, c}$ это принимает характеристический вектор и делает предсказание $f (x)$ для истинной метки $y$ из $x$ .

Рассмотрите рандомизированный классификатор что:

Случайным образом выбирает точку, $Ref (x)$ , от $S$ как 'контрольная точка' для $x$
Метки $x$ использование метки контрольной точки $Ref (x)$ .

Эта схема похожа на тот из классификатора на 1 нН, где контрольная точка выбрана, чтобы быть самым близким соседом новой точки $x$ . В NCA контрольная точка выбрана случайным образом и все точки в $S$ имейте некоторую вероятность того, чтобы быть выбранным как контрольная точка. Вероятность $P (Ref (x) = x_{j} | S)$ та точка $x_{j}$ выбран от $S$ как контрольная точка для $x$ выше если $x_{j}$ ближе к $x$ как измерено функцией расстояния $d_{w}$ , где

$d_{w} (x_{i}, x_{j}) = \sum_{r = 1}^{p} w_{r}^{2} | x_{i r} - x_{j r} |,$

и $w_{r}$ веса функции. AssumeThat

$\begin{array}{l} P (Ref (x) = x_{j} | S) \propto k (d_{w} (x, x_{j})) \end{array},$

где $k$ некоторое ядро или функция подобия, которая принимает большие значения когда $d_{w} (x, x_{j})$ мал. Предположим, что это

$k (z) = \exp (- \frac{z}{σ}),$

как предложено в [1]. Контрольная точка для $x$ выбран из $S$ , так сумма $P (Ref (x) = x_{j} | S)$ поскольку весь j должен быть равен 1. Поэтому возможно записать

$\begin{array}{l} P (Ref (x) = x_{j} | S) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} .$

Теперь полагайте, что приложение "пропускает один" этого рандомизированного классификатора, то есть, предсказывая метку $x_{i}$ использование данных в $S^{- i}$ , набор обучающих данных $S$ исключая точку $(x_{i}, y_{i})$ . Вероятность та точка $x_{j}$ выбран как контрольная точка для $x_{i}$

$p_{i j} = P (Ref (x_{i}) = x_{j} | S^{- i}) = \frac{k (d_{w} (x_{i}, x_{j}))}{\sum_{j = 1, j \neq i}^{n} k (d_{w} (x_{i}, x_{j}))} .$

Средняя вероятность "пропускает один" правильной классификации, вероятность $p_{i}$ то, что рандомизированный классификатор правильно классифицирует наблюдение использование i $S^{- i}$ .

$\begin{array}{l} p_{i} = \sum_{j = 1, j \neq i}^{n} P (Ref (x_{i}) = x_{j} | S^{- i}) I (y_{i} = y_{j}) \end{array} = \sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j},$

где

$y_{i j} = I (y_{i} = y_{j}) = {\begin{matrix} 1 & если y_{i} = y_{j,} \\ 0 & в противном случае . \end{matrix}$

Средняя вероятность "пропускает один" правильной классификации с помощью рандомизированного классификатора, может быть записан как

$F (w) = \frac{1}{n} \sum_{i = 1}^{n} p_{i} .$

Правая сторона $F (w)$ зависит от вектора веса $w$ . Цель анализа компонента окружения состоит в том, чтобы максимизировать $F (w)$ относительно $w$ . fscnca использует упорядоченную целевую функцию, как введено в [1].

$\begin{array}{l} F (w) & = \frac{1}{n} \sum_{i = 1}^{n} p_{i} - λ \sum_{r = 1}^{p} w_{r}^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} \underset{F_{i} (w)}{\underset{︸}{[\sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j} - λ \sum_{r = 1}^{p} w_{r}^{2}]}} \\ = \frac{1}{n} \sum_{i = 1}^{n} F_{i} (w) \end{array},$

где $λ$ параметр регуляризации. Термин регуляризации управляет многими весами в $w$ к 0.

После выбора параметра ядра $σ$ \in $p_{i j}$ как 1, находя вектор веса $w$ может быть описан как следующая проблема минимизации для данного $λ$ .

$\hat{w} = \underset{w}{argmin} f (w) = \underset{w}{argmin} \frac{1}{n} \sum_{i = 1}^{n} f_{i} (w),$

где f (w) =-F (w) и f _i (w) =-F_i (w).

Обратите внимание на то, что

$\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} = 1,$

и аргумент минимума не изменяется, если вы добавляете константу в целевую функцию. Поэтому можно переписать целевую функцию путем добавления постоянного 1.

$\begin{matrix} \hat{w} = \underset{w}{argmin} {1 + f (w)} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} - \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j} + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} (1 - y_{i j}) + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} l (y_{i}, y_{j}) + λ \sum_{r = 1}^{p} w_{r}^{2}}, \end{matrix}$

где функция потерь задана как

$l (y_{i}, y_{j}) = {\begin{matrix} 1 & если y_{i} \neq y_{j,} \\ 0 & в противном случае . \end{matrix}$

Аргумент минимума является вектором веса, который минимизирует ошибку классификации. Можно задать пользовательскую функцию потерь с помощью LossFunction аргумент пары "имя-значение" в вызове fscnca.

Выбор признаков NCA для регрессии

fsrnca функция выполняет выбор признаков NCA, измененный для регрессии. Учитывая наблюдения n

$\begin{array}{l} S = {(x_{i}, y_{i}), i = 1, 2, \dots, n} \end{array},$

единственная разница от проблемы классификации то, что значения отклика $y_{i} \in ℝ$ непрерывны. В этом случае цель состоит в том, чтобы предсказать ответ $y$ учитывая набор обучающих данных $S$ .

Рассмотрите рандомизированную модель регрессии что:

Случайным образом выбирает точку ( $Ref (x)$ ) от $S$ как 'контрольная точка' для $x$
Устанавливает значение отклика в $x$ равняйтесь значению отклика контрольной точки $Ref (x)$ .

Снова, вероятность $P (Ref (x) = x_{j} | S)$ та точка $x_{j}$ выбран от $S$ как контрольная точка для $x$

$\begin{array}{l} P (Ref (x) = x_{j} | S) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} .$

Теперь полагайте, что приложение "пропускает один" этой рандомизированной модели регрессии, то есть, предсказывая ответ для $x_{i}$ использование данных в $S^{- i}$ , набор обучающих данных $S$ исключая точку $(x_{i}, y_{i})$ . Вероятность та точка $x_{j}$ выбран как контрольная точка для $x_{i}$

$p_{i j} = P (Ref (x_{i}) = x_{j} | S^{- i}) = \frac{k (d_{w} (x_{i}, x_{j}))}{\sum_{j = 1, j \neq i}^{n} k (d_{w} (x_{i}, x_{j}))} .$

Пусть ${\hat{y}}_{i}$ будьте значением отклика, которое рандомизированная модель регрессии предсказывает и $y_{i}$ будьте фактическим ответом для $x_{i}$ . И позвольте $l : ℝ^{2} \to ℝ$ будьте функцией потерь, которая измеряет разногласие между ${\hat{y}}_{i}$ и $y_{i}$ . Затем среднее значение $l (y_{i}, {\hat{y}}_{i})$

$l_{i} = E (l (y_{i}, {\hat{y}}_{i}) | S^{- i}) = \sum_{j = 1, j \neq i}^{n} p_{i j} l (y_{i}, y_{j}) .$

После добавления термина регуляризации целевая функция для минимизации:

$f (w) = \frac{1}{n} \sum_{i = 1}^{n} l_{i} + λ \sum_{r = 1}^{p} w_{r}^{2} .$

Функция потерь по умолчанию $l (y_{i}, y_{j})$ поскольку NCA для регрессии является средним абсолютным отклонением, но можно задать другие функции потерь, включая пользовательскую, с помощью LossFunction аргумент пары "имя-значение" в вызове fsrnca.

Удар стандартизации

Термин регуляризации выводит веса несоответствующих предикторов, чтобы обнулить. В целевых функциях для NCA для классификации или регрессии, существует только один параметр регуляризации $λ$ для всех весов. Этот факт требует, чтобы величины весов были сопоставимы друг с другом. Когда характеристические векторы $x_{i}$ \in $S$ находятся в различных шкалах, этом результате силы в весах, которые находятся в различных шкалах и не значимы. Чтобы избежать этой ситуации, стандартизируйте предикторы, чтобы иметь нулевое среднее значение и модульное стандартное отклонение прежде, чем применить NCA. Можно стандартизировать предикторы с помощью 'Standardize',true аргумент пары "имя-значение" в вызове fscnca или fsrnca.

Выбор значения параметров регуляризации

Обычно необходимо выбрать значение параметра регуляризации путем вычисления точности рандомизированного классификатора NCA или модели регрессии на независимом наборе тестов. Если вы используете перекрестную проверку вместо одного набора тестов, выберите $λ$ значение, которое минимизирует среднюю потерю через сгибы перекрестной проверки. Для примеров смотрите Параметр Регуляризации Мелодии, чтобы Обнаружить Функции Используя NCA для Параметра Регуляризации Классификации и Мелодии в NCA для Регрессии.

Ссылки

[1] Ян, W., К. Ван, В. Цзо. "Выбор признаков компонента окружения для высоко-размерных данных". Журнал компьютеров. Издание 7, номер 1, январь 2012.

Документация