Извлечение элементов

Что такое извлечение функций?

Извлечение элементов - это набор методов, которые сопоставляют элементы ввода с новыми элементами вывода. Многие методы извлечения признаков используют неконтролируемое обучение извлечению признаков. В отличие от некоторых методов извлечения признаков, таких как PCA и NNMF, методы, описанные в этом разделе, могут увеличить размерность (и уменьшить размерность). Внутренние методы включают оптимизацию нелинейных целевых функций. Дополнительные сведения см. в разделе Алгоритм разреженной фильтрации или Алгоритм восстановления ICA.

Одним из типичных способов использования извлечения элементов является поиск элементов на изображениях. Использование этих функций может привести к повышению точности классификации. Пример см. в разделе Рабочий процесс извлечения элементов. Другим типичным применением является извлечение отдельных сигналов из суперпозиций, которые часто называют слепым разделением источников. Пример см. в разделе Извлечение смешанных сигналов.

Существует две функции извлечения элементов: rica и sparsefilt. С этими функциями связаны создаваемые ими объекты: ReconstructionICA и SparseFiltering.

Алгоритм разреженной фильтрации

Алгоритм разреженной фильтрации начинается с матрицы данных X который имеет n строки и p столбцы. Каждая строка представляет одно наблюдение, а каждый столбец представляет одно измерение. Столбцы также называются элементами или предикторами. Алгоритм затем принимает либо начальный случайный pоколо-q весовая матрица W или использует матрицу веса, переданную в InitialTransformWeights пара имя-значение. q - запрашиваемое количество функций, sparsefilt вычисляет.

Алгоритм пытается минимизировать целевую функцию Sparse Filtering, используя стандартный оптимизатор с ограниченной памятью Broyden-Fletcher-Goldfarb-Shanno (LBFGS). См. Нокедаль и Райт [2]. Этот оптимизатор занимает до IterationLimit итерации. Он прекращает итерацию раньше, когда делает шаг, норма которого меньше StepToleranceили когда вычисляется, что норма градиента в текущей точке меньше, чем GradientTolerance умножить на скаляр, где

$start= max (1, min {(|_{} f}_{} |,$ ‖ g0‖∞)).

| f | - норма целевой функции, ${а_{‖}}_{}$ g0‖∞ - бесконечная норма начального градиента.

Целевая функция пытается одновременно получить несколько ненулевых признаков для каждой точки данных и для каждого результирующего признака иметь почти одинаковый вес. Чтобы понять, как целевая функция пытается достичь этих целей, см. Ngiam, Koh, Chen, Bhaskar и Ng [1].

Часто вы получаете хорошие функции, устанавливая относительно небольшое значение IterationLimit, от 5 до нескольких сотен. Продолжение работы оптимизатора может привести к переобучению, когда извлеченные функции плохо обобщаются в новых данных.

После построения SparseFiltering объект, используйте transform способ сопоставления входных данных с новыми выходными элементами.

Целевая функция разреженной фильтрации

Для вычисления целевой функции алгоритм разреженной фильтрации использует следующие шаги. Целевая функция зависит от nоколо-p матрица данных X и весовая матрица W что оптимизатор изменяется. Весовая матрица W имеет размеры pоколо-q, где p - количество исходных элементов и q - количество запрошенных функций.

Вычислите nоколо-q матрица X*W. Примените функцию аппроксимации абсолютного значения ( $u) \sqrt{^{=} {u2}^{+}}$ 10 − 8 к каждому элементуX*W для получения матрицы F. start- гладкая неотрицательная симметричная функция, которая близко аппроксимирует функцию абсолютного значения.
Нормализация столбцов F по приблизительной L2 норме. Другими словами, определите нормализованную матрицу $\overset{F˜}{} (i,$ j)
$\begin{matrix} ‖ F (j) \sqrt{_{‖}^{} {=∑i=1n (F}^{(} i,^{j)}} \\ \overset{}{)} 2+10-8F˜ (i, j) = F \end{matrix}$ (i, j )/ ‖ F (j) ‖.
Нормализуйте ряды $\overset{F˜}{} (i,$ j) по приблизительной L2 норме. Другими словами, определите нормализованную $\overset{}{матрицу} F^($ i, j) посредством
$\begin{matrix} ‖ \overset{}{} F˜ (i) \sqrt{_{‖}^{} {\overset{}{} =\sumj=1q (F˜}^{(} i,^{j)}} \\ \overset{}{)} 2 + 10 \bar{} 8F^(\overset{,}{i} j) \end{matrix}$ =F˜ (i, j )/ ‖ F˜ (i) ‖.
Матрица $\overset{}{F}$ ^ является матрицей преобразованных элементов вX. Однажды sparsefilt находит веса W которые минимизируют целевую функцию h (см. ниже), которая хранится в выходном объекте Mdl в Mdl.TransformWeights свойство, transform функция может выполнять те же шаги преобразования для преобразования новых данных в элементы вывода.
Вычислите целевую функцию h (W) в качестве 1-нормы матрицы $\overset{}{F}^(i,$ j), означающей сумму всех элементов в матрице (которые неотрицательны по конструкции):
$h (W)_{}^{}_{}^{} \overset{}{} =∑j=1q∑i=1nF^(i,$ j).
Если установить Lambda пара имя-значение к строго положительному значению, sparsefilt использует следующую измененную целевую функцию:
$h (W)_{}^{}_{}^{} \overset{}{} =∑j=1q∑i=1nF^(i, j_{)}^{}_{}^{}_{}$ +λ∑j=1qwjTwj.
Здесь _wj - j-й столбец матрицы W и λ - значение Lambda. Эффект этого термина заключается в уменьшении веса W. При печати столбцов W как изображения, с положительными Lambda эти изображения выглядят гладкими по сравнению с теми же изображениями с нулем Lambda.

Алгоритм восстановления ICA

Алгоритм анализа независимых компонентов реконструкции (RICA) основан на минимизации целевой функции. Алгоритм отображает входные данные в элементы вывода.

Исходная модель ICA выглядит следующим образом. Каждое наблюдение x генерируется случайным вектором s в соответствии с

$x = λ +$ As.

x - вектор-столбец длины p.
λ - вектор-столбец длины p представляет постоянный член.
s - вектор столбца длины q элементы которого являются нулевыми средними, единичными дисперсионными случайными величинами, статистически независимыми друг от друга.
А - смешивающая матрица размера pоколо-q.

Эту модель можно использовать в rica для оценки А по наблюдениям x. См. Извлечение смешанных сигналов.

Алгоритм RICA начинается с матрицы данных X который имеет n строки и p колонки, состоящие из наблюдений _xi:

$\begin{matrix} _{}^{} \\ _{}^{} \\ _{}^{X=[x1Tx2T⋮xnT} \end{matrix}].$

Каждая строка представляет одно наблюдение, а каждый столбец представляет одно измерение. Столбцы также называются элементами или предикторами. Алгоритм затем принимает либо начальный случайный pоколо-q весовая матрица W или использует матрицу веса, переданную в InitialTransformWeights пара имя-значение. q - запрашиваемое количество функций, rica вычисляет. Весовая матрица W состоит из столбцов _{размера wi} p-по-1:

$W = \begin{matrix} _{[} & _{} & {w1w2}_{.} \end{matrix} . .$ wq].

Алгоритм пытается минимизировать целевую функцию реконструкции ICA, используя стандартный оптимизатор с ограниченной памятью Бройдена-Флетчера-Гольдфарба-Шанно (LBFGS). См. Нокедаль и Райт [2]. Этот оптимизатор занимает до IterationLimit итерации. Он прекращает итерацию, когда делает шаг, норма которого меньше StepToleranceили когда вычисляется, что норма градиента в текущей точке меньше, чем GradientTolerance умножить на скаляр, где

$start= max (1, min {(|_{} f}_{} |,$ ‖ g0‖∞)).

| f | - норма целевой функции, ${а_{‖}}_{}$ g0‖∞ - бесконечная норма начального градиента.

Целевая функция пытается получить почти ортонормированную весовую матрицу, которая минимизирует сумму элементов g (XW), где g - функция (описанная ниже), которая применяется элементарно к XW. Чтобы понять, как объективная функция пытается достичь этих целей, см. Ле, Карпенко, Нгиам и Нг [3].

После построения ReconstructionICA объект, используйте transform способ сопоставления входных данных с новыми выходными элементами.

Целевая функция реконструкции ICA

Целевая функция использует контрастную функцию, которая задается с помощью ContrastFcn пара имя-значение. Контрастная функция является гладкой выпуклой функцией, которая подобна абсолютной величине. По умолчанию функция контрастности - $g \frac{=}{} 12log (\cosh ($ 2x)). Другие доступные функции контрастности см. в разделеContrastFcn.

Для nоколо-p матрица данных X и q выходные признаки, с параметром регуляризации λ в качестве значения Lambda пара имя-значение, целевая функция в терминах pоколо-q матрица W является

$\frac{}{}_{}^{} {^{}_{}_{}}_{}^{} \frac{}{}_{}^{}_{}^{}_{} h=λn∑i=1n‖WWTxi−xi‖22+1n∑i=1n∑j=1qσjg (_{}^{}_{} wjTxi$ )

_{δ j} - известные константы, которые равны ± 1. При _{λ j} = + 1 минимизация целевой функции h стимулирует $_{}^{}_{}$ резкий пик гистограммы wjTxi при 0 (супер гауссов). При λ j = -1 минимизация целевой функции h стимулирует более $_{}^{}_{}$ плоскую гистограмму wjTxi вблизи 0 (sub Gaussian). Задайте значения, используя rica NonGaussianityIndicator пара имя-значение.

Целевая функция h может иметь ложный минимум, равный нулю, когда λ равно нулю. Поэтому rica минимизирует h над W, нормализованные к 1. Другими словами, каждый столбец _wj W определяется в терминах вектора столбца _vj

$_{wj} \frac{=_{}}{\sqrt{_{}^{}_{} {vjvjTvj}^{+}}}$ 10 − 8.

rica минимизирует по отношению к _vj. Результирующая минимальная матрица W обеспечивает преобразование из входных данных X для вывода элементов XW.

Ссылки

[1] Нгиам, Цзицюань, Чжэнхао Чен, Соня А. Бхаскар, Панг У. Ко и Эндрю Я. Нг. «Разреженная фильтрация». Достижения в системах обработки нейронной информации. т. 24, 2011, стр. 1125-1133. https://papers.nips.cc/paper/4334-sparse-filtering.pdf.

[2] Nocedal, J. и С. Дж. Райт. Численная оптимизация, второе издание. Springer Series in Operations Research, Springer Verlag, 2006.

[3] Ле, Квок В., Александр Карпенко, Джикан Нгиам и Эндрю Я. Нг. «ICA с затратами на реконструкцию для эффективного сверхполного обучения функциям». Достижения в системах обработки нейронной информации. Том 24, 2011, стр. 1017-1025. https://papers.nips.cc/paper/4467-ica-with-reconstruction-cost-for-efficient-overcomplete-feature-learning.pdf.

См. также

ReconstructionICA | rica | sparsefilt | SparseFiltering

Документация