Выбор функции Анализа компонента окружения (NCA)

Анализ компонента окружения (NCA) является непараметрическим и встроенным методом для выбора функций с целью максимизации точности прогноза алгоритмов классификации и регрессии. Функции Statistics and Machine Learning Toolbox™ fscnca и fsrnca выполняют выбор функции NCA с регуляризацией, чтобы изучить веса функции для минимизации целевой функции, которая измеряет среднюю классификацию, "пропускают один" или потеря регрессии по данным тренировки.

Выбор функции NCA для классификации

Рассмотрите проблему классификации мультиклассов с набором обучающих данных, содержащим наблюдения n:

$\begin{array}{l} S = {(x_{i}, y_{i}), i = 1, 2, \dots, n} \end{array},$

где $x_{i} \in ℝ^{p}$ характеристические векторы, $y_{i} \in {1, 2, \dots, c}$ метки класса, и c является количеством классов. Цель состоит в том, чтобы изучить классификатор $f : ℝ^{p} \to {1, 2, \dots, c}$ это принимает характеристический вектор и делает прогноз $f (x)$ для истинной метки $y$ из $x$ .

Рассмотрите рандомизированный классификатор что:

Случайным образом выбирает точку, $Касательно (x)$ , от $S$ как 'контрольная точка' для $x$
Метки $x$ использование метки контрольной точки $Касательно (x)$ .

Эта схема подобна тому из классификатора на 1 нН, где контрольная точка выбрана, чтобы быть самым близким соседом новой точки $x$ . В NCA контрольная точка выбрана случайным образом и все точки в $S$ имейте некоторую вероятность того, чтобы быть выбранным как контрольная точка. Вероятность $P (Касательно (x) = x_{j} | S)$ та точка $x_{j}$ выбран от $S$ как контрольная точка для $x$ выше если $x_{j}$ ближе к $x$ как измерено функцией расстояния $d_{w}$ , где

$d_{w} (x_{i}, x_{j}) = \sum_{r = 1}^{p} w_{r}^{2} | x_{i r} - x_{j r} |,$

и $w_{r}$ веса функции. AssumeThat

$\begin{array}{l} P (Касательно (x) = x_{j} | S) \propto k (d_{w} (x, x_{j})) \end{array},$

где $k$ некоторое ядро или функция подобия, которая принимает большие значения когда $d_{w} (x, x_{j})$ является маленьким. Предположим, что это

$k (z) = \exp (- \frac{z}{σ}),$

как предложено в [1]. Контрольная точка для $x$ выбран из $S$ , так сумма $P (Касательно (x) = x_{j} | S)$ поскольку весь j должен быть равен 1. Поэтому возможно записать

$\begin{array}{l} P (Касательно (x) = x_{j} | S) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} .$

Теперь полагайте, что приложение "пропускает один" этого рандомизированного классификатора, то есть, предсказывая метку $x_{i}$ использование данных в $S^{- i}$ , набор обучающих данных $S$ исключая точку $(x_{i}, y_{i})$ . Вероятность та точка $x_{j}$ выбран как контрольная точка для $x_{i}$

$p_{i j} = P (Касательно (x_{i}) = x_{j} | S^{- i}) = \frac{k (d_{w} (x_{i}, x_{j}))}{\sum_{j = 1, j \neq i}^{n} k (d_{w} (x_{i}, x_{j}))} .$

Средняя вероятность "пропускает один" правильной классификации, вероятность $p_{i}$ то, что рандомизированный классификатор правильно классифицирует наблюдение использование i $S^{- i}$ .

$\begin{array}{l} p_{i} = \sum_{j = 1, j \neq i}^{n} P (Касательно (x_{i}) = x_{j} | S^{- i}) I (y_{i} = y_{j}) \end{array} = \sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j},$

где

$y_{i j} = I (y_{i} = y_{j}) = {\begin{matrix} 1 & если y_{i} = y_{j,} \\ 0 & в противном случае . \end{matrix}$

Средняя вероятность "пропускает один" правильной классификации с помощью рандомизированного классификатора, может быть записан как

$F (w) = \frac{1}{n} \sum_{i = 1}^{n} p_{i} .$

Правая сторона $F (w)$ зависит от вектора веса $w$ . Цель анализа компонента окружения состоит в том, чтобы максимизировать $F (w)$ относительно $w$ . fscnca использует упорядоченную целевую функцию, как введено в [1].

$\begin{array}{l} F (w) & = \frac{1}{n} \sum_{i = 1}^{n} p_{i} - λ \sum_{r = 1}^{p} w_{r}^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} \underset{F_{i} (w)}{\underset{︸}{[\sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j} - λ \sum_{r = 1}^{p} w_{r}^{2}]}} \\ = \frac{1}{n} \sum_{i = 1}^{n} F_{i} (w) \end{array},$

где $λ$ параметр регуляризации. Срок регуляризации управляет многими весами в $w$ к 0.

После выбора параметра ядра $σ$ \in $p_{i j}$ как 1, находя вектор веса $w$ может быть выражен как следующая проблема минимизации для данного $λ$ .

$\hat{w} = \underset{w}{argmin} f (w) = \underset{w}{argmin} \frac{1}{n} \sum_{i = 1}^{n} f_{i} (w),$

где f (w) =-F (w) и f _i (w) =-F_i (w).

Обратите внимание на то, что

$\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} = 1,$

и аргумент минимума не изменяется, если вы добавляете константу в целевую функцию. Поэтому можно переписать целевую функцию путем добавления постоянного 1.

$\begin{matrix} \hat{w} = \underset{w}{argmin} {1 + f (w)} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} - \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} y_{i j} + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} (1 - y_{i j}) + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1, j \neq i}^{n} p_{i j} l (y_{i}, y_{j}) + λ \sum_{r = 1}^{p} w_{r}^{2}}, \end{matrix}$

где функция потерь задана как

$l (y_{i}, y_{j}) = {\begin{matrix} 1 & если y_{i} \neq y_{j,} \\ 0 & в противном случае . \end{matrix}$

Аргумент минимума является вектором веса, который минимизирует ошибку классификации. Можно задать пользовательскую функцию потерь с помощью аргумента пары "имя-значение" LossFunction в вызове fscnca.

Выбор функции NCA для регрессии

Функция fsrnca выполняет выбор функции NCA, измененный для регрессии. Учитывая наблюдения n

$\begin{array}{l} S = {(x_{i}, y_{i}), i = 1, 2, \dots, n} \end{array},$

единственная разница от проблемы классификации то, что значения ответа $y_{i} \in ℝ$ непрерывны. В этом случае цель состоит в том, чтобы предсказать ответ $y$ учитывая набор обучающих данных $S$ .

Рассмотрите рандомизированную модель регрессии что:

Случайным образом выбирает точку ( $Касательно (x)$ ) от $S$ как 'контрольная точка' для $x$
Устанавливает значение ответа в $x$ равняйтесь значению ответа контрольной точки $Касательно (x)$ .

Снова, вероятность $P (Касательно (x) = x_{j} | S)$ та точка $x_{j}$ выбран от $S$ как контрольная точка для $x$

$\begin{array}{l} P (Касательно (x) = x_{j} | S) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} .$

Теперь полагайте, что приложение "пропускает один" этой рандомизированной модели регрессии, то есть, предсказывая ответ для $x_{i}$ использование данных в $S^{- i}$ , набор обучающих данных $S$ исключая точку $(x_{i}, y_{i})$ . Вероятность та точка $x_{j}$ выбран как контрольная точка для $x_{i}$

$p_{i j} = P (Касательно (x_{i}) = x_{j} | S^{- i}) = \frac{k (d_{w} (x_{i}, x_{j}))}{\sum_{j = 1, j \neq i}^{n} k (d_{w} (x_{i}, x_{j}))} .$

Пусть ${\hat{y}}_{i}$ будьте значением ответа, которое рандомизированная модель регрессии предсказывает и $y_{i}$ будьте фактическим ответом для $x_{i}$ . И позвольте $l : ℝ^{2} \to ℝ$ будьте функцией потерь, которая измеряет разногласие между ${\hat{y}}_{i}$ и $y_{i}$ . Затем среднее значение $l (y_{i}, {\hat{y}}_{i})$

$l_{i} = E (l (y_{i}, {\hat{y}}_{i}) | S^{- i}) = \sum_{j = 1, j \neq i}^{n} p_{i j} l (y_{i}, y_{j}) .$

После добавления срока регуляризации целевая функция для минимизации:

$f (w) = \frac{1}{n} \sum_{i = 1}^{n} l_{i} + λ \sum_{r = 1}^{p} w_{r}^{2} .$

Функция потерь по умолчанию $l (y_{i}, y_{j})$ поскольку NCA для регрессии является средним абсолютным отклонением, но можно задать другие функции потерь, включая пользовательскую, с помощью аргумента пары "имя-значение" LossFunction в вызове fsrnca.

Влияние стандартизации

Срок регуляризации выводит веса несоответствующих предикторов, чтобы обнулить. В целевых функциях для NCA для классификации или регрессии, существует только один параметр регуляризации $λ$ для всех весов. Этот факт требует, чтобы значения весов были сопоставимы друг с другом. Когда характеристические векторы $x_{i}$ \in $S$ находятся в различных шкалах, этом результате силы в весах, которые находятся в различных шкалах и не значимы. Чтобы избежать этой ситуации, стандартизируйте предикторы, чтобы иметь нулевое среднее значение и модульное стандартное отклонение прежде, чем применить NCA. Можно стандартизировать предикторы с помощью аргумента пары "имя-значение" 'Standardize',true в вызове fscnca или fsrnca.

Выбор значения параметров регуляризации

Обычно необходимо выбрать значение параметра регуляризации путем вычисления точности рандомизированного классификатора NCA или модели регрессии на независимом наборе тестов. Если вы используете перекрестную проверку вместо одного набора тестов, выберите $λ$ значение, которое минимизирует среднюю потерю через сгибы перекрестной проверки. Для примеров смотрите Параметр Регуляризации Мелодии, чтобы Обнаружить Функции Используя NCA для Параметра Регуляризации Классификации и Мелодии в NCA для Регрессии.

Ссылки

[1] Ян, W., К. Ван, В. Цзо. "Компонент окружения показывает выбор для высоко-размерных данных". Журнал компьютеров. Издание 7, номер 1, январь 2012.

Смотрите также

fscnca | fsrnca

Документация