exponenta event banner

Извлечение элементов

Что такое извлечение функций?

Извлечение элементов - это набор методов, которые сопоставляют элементы ввода с новыми элементами вывода. Многие методы извлечения признаков используют неконтролируемое обучение извлечению признаков. В отличие от некоторых методов извлечения признаков, таких как PCA и NNMF, методы, описанные в этом разделе, могут увеличить размерность (и уменьшить размерность). Внутренние методы включают оптимизацию нелинейных целевых функций. Дополнительные сведения см. в разделе Алгоритм разреженной фильтрации или Алгоритм восстановления ICA.

Одним из типичных способов использования извлечения элементов является поиск элементов на изображениях. Использование этих функций может привести к повышению точности классификации. Пример см. в разделе Рабочий процесс извлечения элементов. Другим типичным применением является извлечение отдельных сигналов из суперпозиций, которые часто называют слепым разделением источников. Пример см. в разделе Извлечение смешанных сигналов.

Существует две функции извлечения элементов: rica и sparsefilt. С этими функциями связаны создаваемые ими объекты: ReconstructionICA и SparseFiltering.

Алгоритм разреженной фильтрации

Алгоритм разреженной фильтрации начинается с матрицы данных X который имеет n строки и p столбцы. Каждая строка представляет одно наблюдение, а каждый столбец представляет одно измерение. Столбцы также называются элементами или предикторами. Алгоритм затем принимает либо начальный случайный pоколо-q весовая матрица W или использует матрицу веса, переданную в InitialTransformWeights пара имя-значение. q - запрашиваемое количество функций, sparsefilt вычисляет.

Алгоритм пытается минимизировать целевую функцию Sparse Filtering, используя стандартный оптимизатор с ограниченной памятью Broyden-Fletcher-Goldfarb-Shanno (LBFGS). См. Нокедаль и Райт [2]. Этот оптимизатор занимает до IterationLimit итерации. Он прекращает итерацию раньше, когда делает шаг, норма которого меньше StepToleranceили когда вычисляется, что норма градиента в текущей точке меньше, чем GradientTolerance умножить на скаляр, где

start= max (1, min (| f |, ‖ g0‖∞)).

| f | - норма целевой функции, а g0‖∞ - бесконечная норма начального градиента.

Целевая функция пытается одновременно получить несколько ненулевых признаков для каждой точки данных и для каждого результирующего признака иметь почти одинаковый вес. Чтобы понять, как целевая функция пытается достичь этих целей, см. Ngiam, Koh, Chen, Bhaskar и Ng [1].

Часто вы получаете хорошие функции, устанавливая относительно небольшое значение IterationLimit, от 5 до нескольких сотен. Продолжение работы оптимизатора может привести к переобучению, когда извлеченные функции плохо обобщаются в новых данных.

После построения SparseFiltering объект, используйте transform способ сопоставления входных данных с новыми выходными элементами.

Целевая функция разреженной фильтрации

Для вычисления целевой функции алгоритм разреженной фильтрации использует следующие шаги. Целевая функция зависит от nоколо-p матрица данных X и весовая матрица W что оптимизатор изменяется. Весовая матрица W имеет размеры pоколо-q, где p - количество исходных элементов и q - количество запрошенных функций.

  1. Вычислите nоколо-q матрица X*W. Примените функцию аппроксимации абсолютного значения (u) = u2 + 10 − 8 к каждому элементуX*W для получения матрицы F. start- гладкая неотрицательная симметричная функция, которая близко аппроксимирует функцию абсолютного значения.

  2. Нормализация столбцов F по приблизительной L2 норме. Другими словами, определите нормализованную матрицу (i, j)

    F (j) =∑i=1n (F (i, j)) 2+10−8F˜ (i, j) = F (i, j )/ ‖ F (j) ‖.

  3. Нормализуйте ряды (i, j) по приблизительной L2 норме. Другими словами, определите нормализованную матрицу F ^ (i, j) посредством

    (i) =∑j=1q ((i, j)) 2 + 10 8F ^ (i, j) =F˜ (i, j )/ ‖ F˜ (i) ‖.

    Матрица F ^ является матрицей преобразованных элементов вX. Однажды sparsefilt находит веса W которые минимизируют целевую функцию h (см. ниже), которая хранится в выходном объекте Mdl в Mdl.TransformWeights свойство, transform функция может выполнять те же шаги преобразования для преобразования новых данных в элементы вывода.

  4. Вычислите целевую функцию h (W) в качестве 1-нормы матрицы F ^ (i, j), означающей сумму всех элементов в матрице (которые неотрицательны по конструкции):

    h (W) =∑j=1q∑i=1nF^ (i, j).

  5. Если установить Lambda пара имя-значение к строго положительному значению, sparsefilt использует следующую измененную целевую функцию:

    h (W) =∑j=1q∑i=1nF^ (i, j) +λ∑j=1qwjTwj.

    Здесь wj - j-й столбец матрицы W и λ - значение Lambda. Эффект этого термина заключается в уменьшении веса W. При печати столбцов W как изображения, с положительными Lambda эти изображения выглядят гладкими по сравнению с теми же изображениями с нулем Lambda.

Алгоритм восстановления ICA

Алгоритм анализа независимых компонентов реконструкции (RICA) основан на минимизации целевой функции. Алгоритм отображает входные данные в элементы вывода.

Исходная модель ICA выглядит следующим образом. Каждое наблюдение x генерируется случайным вектором s в соответствии с

x = λ + As.

  • x - вектор-столбец длины p.

  • λ - вектор-столбец длины p представляет постоянный член.

  • s - вектор столбца длины q элементы которого являются нулевыми средними, единичными дисперсионными случайными величинами, статистически независимыми друг от друга.

  • А - смешивающая матрица размера pоколо-q.

Эту модель можно использовать в rica для оценки А по наблюдениям x. См. Извлечение смешанных сигналов.

Алгоритм RICA начинается с матрицы данных X который имеет n строки и p колонки, состоящие из наблюдений xi:

X=[x1Tx2T⋮xnT].

Каждая строка представляет одно наблюдение, а каждый столбец представляет одно измерение. Столбцы также называются элементами или предикторами. Алгоритм затем принимает либо начальный случайный pоколо-q весовая матрица W или использует матрицу веса, переданную в InitialTransformWeights пара имя-значение. q - запрашиваемое количество функций, rica вычисляет. Весовая матрица W состоит из столбцов размера wi p-по-1:

W = [w1w2... wq].

Алгоритм пытается минимизировать целевую функцию реконструкции ICA, используя стандартный оптимизатор с ограниченной памятью Бройдена-Флетчера-Гольдфарба-Шанно (LBFGS). См. Нокедаль и Райт [2]. Этот оптимизатор занимает до IterationLimit итерации. Он прекращает итерацию, когда делает шаг, норма которого меньше StepToleranceили когда вычисляется, что норма градиента в текущей точке меньше, чем GradientTolerance умножить на скаляр, где

start= max (1, min (| f |, ‖ g0‖∞)).

| f | - норма целевой функции, а g0‖∞ - бесконечная норма начального градиента.

Целевая функция пытается получить почти ортонормированную весовую матрицу, которая минимизирует сумму элементов g (XW), где g - функция (описанная ниже), которая применяется элементарно к XW. Чтобы понять, как объективная функция пытается достичь этих целей, см. Ле, Карпенко, Нгиам и Нг [3].

После построения ReconstructionICA объект, используйте transform способ сопоставления входных данных с новыми выходными элементами.

Целевая функция реконструкции ICA

Целевая функция использует контрастную функцию, которая задается с помощью ContrastFcn пара имя-значение. Контрастная функция является гладкой выпуклой функцией, которая подобна абсолютной величине. По умолчанию функция контрастности - g = 12log (cosh (2x)). Другие доступные функции контрастности см. в разделеContrastFcn.

Для nоколо-p матрица данных X и q выходные признаки, с параметром регуляризации λ в качестве значения Lambda пара имя-значение, целевая функция в терминах pоколо-q матрица W является

h=λn∑i=1n‖WWTxi−xi‖22+1n∑i=1n∑j=1qσjg (wjTxi)

δ j - известные константы, которые равны ± 1. При λ j  = + 1 минимизация целевой функции h стимулирует резкий пик гистограммы wjTxi при 0 (супер гауссов). При  λ j = -1 минимизация целевой функции h стимулирует более плоскую гистограмму wjTxi вблизи 0 (sub Gaussian). Задайте значения, используя rica NonGaussianityIndicator пара имя-значение.

Целевая функция h может иметь ложный минимум, равный нулю, когда λ равно нулю. Поэтому rica минимизирует h над W, нормализованные к 1. Другими словами, каждый столбец wj W определяется в терминах вектора столбца vj

wj = vjvjTvj + 10 − 8.

rica минимизирует по отношению к vj. Результирующая минимальная матрица W обеспечивает преобразование из входных данных X для вывода элементов XW.

Ссылки

[1] Нгиам, Цзицюань, Чжэнхао Чен, Соня А. Бхаскар, Панг У. Ко и Эндрю Я. Нг. «Разреженная фильтрация». Достижения в системах обработки нейронной информации. т. 24, 2011, стр. 1125-1133. https://papers.nips.cc/paper/4334-sparse-filtering.pdf.

[2] Nocedal, J. и С. Дж. Райт. Численная оптимизация, второе издание. Springer Series in Operations Research, Springer Verlag, 2006.

[3] Ле, Квок В., Александр Карпенко, Джикан Нгиам и Эндрю Я. Нг. «ICA с затратами на реконструкцию для эффективного сверхполного обучения функциям». Достижения в системах обработки нейронной информации. Том 24, 2011, стр. 1017-1025. https://papers.nips.cc/paper/4467-ica-with-reconstruction-cost-for-efficient-overcomplete-feature-learning.pdf.

См. также

| | |

Связанные темы