Редукция данных

Что такое редукция данных?

Редукция данных является набором методов, которые сопоставляют входные функции с новыми выходными функциями. Многие методы редукции данных используют неконтролируемое обучение для извлечения функций. В отличие от некоторых методов редукции данных, таких как PCA и NNMF, методы, описанные в этом разделе, могут увеличить размерность (и уменьшить размерность). Внутренне методы включают оптимизацию нелинейных целевых функций. Для получения дополнительной информации смотрите Разреженный Алгоритм фильтрации или Алгоритм Реконструкции ICA.

Одним из типичных способов редукции данных является нахождение функций в изображениях. Использование этих функций может привести к повышению точности классификации. Для получения примера смотрите Редукцию данных Workflow. Другим типичным применением является извлечение отдельных сигналов из суперпозиций, которые часто называют слепым разделением источников. Для получения примера смотрите Извлечение смешанных сигналов.

Существует две функции редукции данных: rica и sparsefilt. С этими функциями связаны объекты, которые они создают: ReconstructionICA и SparseFiltering.

Разреженные Алгоритмы фильтрации

Разреженный алгоритм фильтрации начинается с матрицы данных X который имеет n строки и p столбцы. Каждая строка представляет одно наблюдение, а каждый столбец представляет одно измерение. Столбцы также называются функциями или предикторами. Затем алгоритм принимает либо начальный случайный p-by- q матрица весов W или использует матрицу веса, переданную в InitialTransformWeights Пара "имя-значение". q - запрашиваемое количество функций, которые sparsefilt вычисляет.

Алгоритм пытается минимизировать Разреженную Целевую Функцию Фильтрации с помощью стандартной ограниченной памяти Broyden-Fletcher-Goldfarb-Shanno (LBFGS) quasi-Newton optimizer. См. Nocedal и Wright [2]. Этот оптимизатор занимает до IterationLimit итераций. Он останавливает итерацию раньше, когда делает шаг, чья норма меньше StepTolerance, или когда вычисляет, что норма градиента в текущей точке меньше GradientTolerance умножает на скалярное τ, где

$τ = \max (1, \min (| f |, {‖ g_{0} ‖}_{\infty})) .$

|<reservedrangesplaceholder0>| является нормой целевой функции, и ${‖ g_{0} ‖}_{\infty}$ - норма по бесконечности начального градиента.

Целевая функция пытается одновременно получить несколько ненулевые функции для каждой точки данных и для каждой получившейся характеристики, чтобы иметь почти равный вес. Чтобы понять, как целевая функция пытается достичь этих целей, смотрите Ngiam, Koh, Chen, Bhaskar и Ng [1].

Часто, вы получаете хорошие функции, задавая относительно небольшое значение IterationLimit, от низких до 5 до нескольких сотен. Разрешение оптимизатору продолжать, может привести к переобучению, где извлеченные функции плохо обобщаются к новым данным.

После построения SparseFiltering объект, использовать transform метод для сопоставления входных данных с новыми выходными функциями.

Разреженная целевая функция фильтрации

Чтобы вычислить целевую функцию, алгоритм разреженной фильтрации использует следующие шаги. Целевая функция зависит от n-by- p матрица данных X и весовую матрицу W что оптимизатор изменяется. Матрица весов W имеет размерности p-by- q, где p количество оригинальных функций и q количество запрошенных функций.

Вычислите n-by- q матрица X*W. Примените приблизительную абсолютную функцию ценности $ϕ (u) = \sqrt{u^{2} + 10^{- 8}}$ каждому элементу X*W для получения матрицы F. ϕ является гладкой неотрицательной симметричной функцией, которая близко аппроксимирует абсолютную функцию ценности.
Нормализуйте столбцы F по аппроксимации L² норма. Другими словами, задайте нормированную матрицу $\tilde{F} (i, j)$ около
$\begin{matrix} ‖ F (j) ‖ = \sqrt{\sum_{i = 1}^{n} {(F (i, j))}^{2} + 10^{- 8}} \\ \tilde{F} (i, j) = F (i, j) / ‖ F (j) ‖ . \end{matrix}$
Нормализуйте строки из $\tilde{F} (i, j)$ по аппроксимации L² норма. Другими словами, задайте нормированную матрицу $\hat{F} (i, j)$ около
$\begin{matrix} ‖ \tilde{F} (i) ‖ = \sqrt{\sum_{j = 1}^{q} {(\tilde{F} (i, j))}^{2} + 10^{- 8}} \\ \hat{F} (i, j) = \tilde{F} (i, j) / ‖ \tilde{F} (i) ‖ . \end{matrix}$
Матрица $\hat{F}$ - матрица преобразованных функций в X. Однажды sparsefilt находит веса W которые минимизируют h целевой функции (см. ниже), которую функция сохраняет в выходном объекте Mdl в Mdl.TransformWeights свойство, transform функция может следовать тем же шагам преобразования, чтобы преобразовать новые данные в выходные функции.
Вычислите целевую функцию h (W) как 1-норма матрицы $\hat{F} (i, j)$ , что означает сумму всех элементов матрицы (которые по конструкции неотрицательны):
$h (W) = \sum_{j = 1}^{q} \sum_{i = 1}^{n} \hat{F} (i, j) .$
Если вы задаете Lambda Пара "имя-значение" к строго положительному значению, sparsefilt использует следующую измененную целевую функцию:
$h (W) = \sum_{j = 1}^{q} \sum_{i = 1}^{n} \hat{F} (i, j) + λ \sum_{j = 1}^{q} w_{j}^{T} w_{j} .$
Здесь _wj является j-м столбцом матрицы W и λ является значением Lambda. Эффект этого термина заключается в сокращении весов W. Если вы строите график столбцов W как изображения, с положительными Lambda эти изображения выглядят гладкими по сравнению с теми же изображениями с нулем Lambda.

Алгоритм восстановления ICA

Алгоритм Reconstruction Independent Component Analysis (RICA) основан на минимизации целевой функции. Алгоритм преобразует входные данные в выходные функции.

Исходная модель ICA следующая. Каждый x наблюдения сгенерирован случайным вектором s согласно

$x = μ + A s .$

x является вектором-столбцом длины p.
μ является вектором-столбцом длины p представление постоянного члена.
s является вектором-столбцом длины q элементы которых являются случайными переменными с нулевым средним, единичным отклонением, которые статистически независимы друг от друга.
A является смешивающей матрицей размера p-by- q.

Вы можете использовать эту модель в rica для оценки A от наблюдений x. См. Раздел «Извлечение смешанных сигналов»

Алгоритм RICA начинается с матрицы данных X который имеет n строки и p столбцы, состоящие из _xi наблюдений:

$X = [\begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ ⋮ \\ x_{n}^{T} \end{matrix}] .$

Каждая строка представляет одно наблюдение, а каждый столбец представляет одно измерение. Столбцы также называются функциями или предикторами. Затем алгоритм принимает либо начальный случайный p-by- q матрица весов W или использует матрицу веса, переданную в InitialTransformWeights Пара "имя-значение". q - запрашиваемое количество функций, которые rica вычисляет. Матрица весов W состоит из столбцов _wi размера p-by-1:

$W = [\begin{matrix} w_{1} & w_{2} & \dots & w_{q} \end{matrix}] .$

Алгоритм пытается минимизировать Восстановительную Целевую Функцию ICA с помощью стандартной ограниченной памяти Broyden-Fletcher-Goldfarb-Shanno (LBFGS) quasi-Newton optimizer. См. Nocedal и Wright [2]. Этот оптимизатор занимает до IterationLimit итераций. Он останавливает итерацию, когда делает шаг, чья норма меньше StepTolerance, или когда вычисляет, что норма градиента в текущей точке меньше GradientTolerance умножает на скалярное τ, где

$τ = \max (1, \min (| f |, {‖ g_{0} ‖}_{\infty})) .$

Целевая функция пытается получить почти ортонормальную матрицу веса, которая минимизирует сумму элементов g (XW), где g является функцией (описанной ниже), которая применяется элементарно к XW. Чтобы понять, как целевая функция пытается достичь этих целей, см. Ле, Карпенко, Нгиам и Нг [3].

После построения ReconstructionICA объект, использовать transform метод для сопоставления входных данных с новыми выходными функциями.

Реконструкция Целевой Функции ICA

Целевая функция использует контрастную функцию, которую вы задаете при помощи ContrastFcn Пара "имя-значение". Контрастная функция является сглаженной выпуклой функцией, которая подобна абсолютному значению. По умолчанию контрастная функция является $g = \frac{1}{2} \log (\cosh (2 x))$ . Для других доступных контрастных функций смотрите ContrastFcn.

Для n-by- p матрица данных X и q выходные функции с параметром регуляризации λ как значение Lambda Пара "имя-значение", целевая функция с точки зрения p-by- q матрица W является

$h = \frac{λ}{n} \sum_{i = 1}^{n} {‖ W W^{T} x_{i} - x_{i} ‖}_{2}^{2} + \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1}^{q} σ_{j} g (w_{j}^{T} x_{i})$

Эти _σj являются известными константами, которые ± 1. Когда _σj = + 1, минимизация целевой функции h поощряет гистограмму $w_{j}^{T} x_{i}$ быть резко доведенным до 0 (супер Гауссов). Когда _σj = -1, минимизация целевой функции h поощряет гистограмму $w_{j}^{T} x_{i}$ быть более плоским около 0 (sub Gaussian). Задайте значения _σj используя rica NonGaussianityIndicator Пара "имя-значение".

Целевая функция h может иметь ложный минимум нуля, когда λ равен нулю. Поэтому, rica минимизирует h по W, которые нормированы к 1. Другими словами, каждый _wj столбцов W определяется в терминах вектора-столбца, _vj

$w_{j} = \frac{v_{j}}{\sqrt{v_{j}^{T} v_{j} + 10^{- 8}}} .$

rica минимизирует по _vj. Получившаяся минимальная матрица W обеспечивает преобразование из входных данных X для вывода функций XW.

Ссылки

[1] Ngiam, Jiquan, Zhenghao Chen, Sonia A. Bhaskar, Pang W. Koh, and Andrew Y. Ng. «Разреженная фильтрация». Усовершенствования в системах нейронной обработки информации. Том 24, 2011, стр. 1125-1133. https://papers.nips.cc/paper/4334-sparse-filtering.pdf.

[2] Nocedal, J. and S. J. Wright. Численная оптимизация, второе издание. Springer Series in Operations Research, Springer Verlag, 2006.

[3] Le, Quoc V., Alexandre Karpenko, Jiquan Ngiam, and Andrew Y. Ng. «ICA с затратами на реконструкцию для эффективного избыточного обучения функциям». Усовершенствования в системах нейронной обработки информации. Том 24, 2011, стр. 1017-1025. https://papers.nips.cc/paper/4467-ica-with-reconstruction-cost-for-efficient-overcomplete-feature-learning.pdf.

См. также

ReconstructionICA | rica | sparsefilt | SparseFiltering

Документация