Обучите сложенные автоэнкодеры классификации изображений

Этот пример показывает, как обучить сложенные автоэнкодеры классифицировать изображения цифр.

Нейронные сети с несколькими скрытыми слоями могут быть полезными для решения проблем классификации с комплексными данными, такими как изображения. Каждый слой может изучить функции на другом уровне абстракции. Однако обучение нейронных сетей с несколькими скрытыми слоями может быть трудным на практике.

Одним способом эффективно обучить нейронную сеть с несколькими слоями является по образованию один слой за один раз. Можно достигнуть этого по образованию специальный тип сети, известной как автоэнкодер для каждого желаемого скрытого слоя.

Этот пример показывает вам, как обучить нейронную сеть с двумя скрытыми слоями, чтобы классифицировать цифры на изображения. Сначала вы обучаете скрытые слои индивидуально безнадзорным способом с помощью автоэнкодеров. Затем вы обучаете финал softmax слой и соединяете слои вместе, чтобы сформировать сложенную сеть, которая вы обучаете одно итоговое время контролируемым способом.

Набор данных

Этот пример использует синтетические данные повсюду для обучения и тестирования. Синтетические изображения были сгенерированы путем применения случайных аффинных преобразований к изображениям цифры, созданным с помощью различных шрифтов.

Каждое изображение цифры является 28 28 пикселями, и существует 5 000 учебных примеров. Можно загрузить данные тренировки и просмотреть некоторые изображения.

% Load the training data into memory
[xTrainImages,tTrain] = digitTrainCellArrayData;

% Display some of the training images
clf
for i = 1:20
    subplot(4,5,i);
    imshow(xTrainImages{i});
end

Метки для изображений хранятся в 10 5000 матрица, где в каждом столбце один элемент будет 1, чтобы указать на класс, что цифра принадлежит, и все другие элементы в столбце будут 0. Нужно отметить что, если десятый элемент равняется 1, то изображение цифры является нулем.

Обучение первый автоэнкодер

Начните по образованию разреженный автоэнкодер на данных тренировки, не используя метки.

Автоэнкодер является нейронной сетью, которая пытается реплицировать ее вход при ее выводе. Таким образом размер его входа совпадет с размером своего вывода. Когда количество нейронов в скрытом слое является меньше, чем размер входа, автоэнкодер изучает сжатое представление входа.

Нейронным сетям инициализировали веса случайным образом перед обучением. Поэтому результаты обучения отличаются каждый раз. Чтобы избежать этого поведения, явным образом установите seed генератора случайных чисел.

rng('default')

Установите размер скрытого слоя для автоэнкодера. Для автоэнкодера, который вы собираетесь обучить, это - хорошая идея сделать это меньшим, чем входной размер.

hiddenSize1 = 100;

Тип автоэнкодера, который вы обучите, является разреженным автоэнкодером. Этот автоэнкодер использует regularizers, чтобы изучить разреженное представление в первом слое. Можно управлять влиянием этих regularizers путем установки различных параметров:

  • L2WeightRegularization управляет влиянием L2 regularizer для весов сети (а не смещения). Это должно обычно быть довольно маленьким.

  • SparsityRegularization управляет влиянием разреженности regularizer, который пытается осуществить ограничение на разреженность вывода от скрытого слоя. Обратите внимание на то, что это отличается от применения разреженности regularizer к весам.

  • SparsityProportion является параметром разреженности regularizer. Это управляет разреженностью вывода от скрытого слоя. Низкая стоимость для SparsityProportion обычно приводит к каждому нейрону в скрытом слое, "специализирующемся", только давая высокую производительность для небольшого количества учебных примеров. Например, если SparsityProportion установлен в 0,1, это эквивалентно высказыванию, что каждый нейрон в скрытом слое должен иметь средний вывод 0,1 по учебным примерам. Это значение должно быть между 0 и 1. Идеальное значение отличается в зависимости от природы проблемы.

Теперь обучите автоэнкодер, задав значения для regularizers, которые описаны выше.

autoenc1 = trainAutoencoder(xTrainImages,hiddenSize1, ...
    'MaxEpochs',400, ...
    'L2WeightRegularization',0.004, ...
    'SparsityRegularization',4, ...
    'SparsityProportion',0.15, ...
    'ScaleData', false);

Можно просмотреть схему автоэнкодера. Автоэнкодер состоит из энкодера, сопровождаемого декодером. Энкодер сопоставляет вход со скрытым представлением, и декодер пытается инвертировать это отображение, чтобы восстановить исходный вход.

view(autoenc1)

Визуализация весов первого автоэнкодера

Отображение, изученное частью энкодера автоэнкодера, может быть полезно для извлечения функций от данных. Каждый нейрон в энкодере имеет вектор весов, сопоставленных с ним, который будет настроен, чтобы ответить на конкретную визуальную функцию. Можно просмотреть представление этих функций.

figure()
plotWeights(autoenc1);

Вы видите, что функции, изученные автоэнкодером, представляют завихрения и перечеркивают шаблоны от изображений цифры.

100-мерный вывод от скрытого слоя автоэнкодера является сжатой версией входа, который обобщает его ответ на функции, визуализируемые выше. Обучите следующий автоэнкодер на наборе этих векторов, извлеченных от данных тренировки. Во-первых, необходимо использовать энкодер от обученного автоэнкодера, чтобы сгенерировать функции.

feat1 = encode(autoenc1,xTrainImages);

Обучение второй автоэнкодер

После обучения первый автоэнкодер вы обучаете второй автоэнкодер похожим способом. Основное различие - то, что вы используете функции, которые были сгенерированы от первого автоэнкодера как данные тренировки во втором автоэнкодере. Кроме того, вы уменьшаете размер скрытого представления 50, так, чтобы энкодер во втором автоэнкодере изучил еще меньшее представление входных данных.

hiddenSize2 = 50;
autoenc2 = trainAutoencoder(feat1,hiddenSize2, ...
    'MaxEpochs',100, ...
    'L2WeightRegularization',0.002, ...
    'SparsityRegularization',4, ...
    'SparsityProportion',0.1, ...
    'ScaleData', false);

Еще раз можно просмотреть схему автоэнкодера с функцией view.

view(autoenc2)

Можно извлечь второй набор функций путем передачи предыдущего набора через энкодер от второго автоэнкодера.

feat2 = encode(autoenc2,feat1);

Исходные векторы в данных тренировки имели 784 размерности. После передачи их через первый энкодер это уменьшалось до 100 размерностей. После использования второго энкодера это уменьшалось снова до 50 размерностей. Можно теперь обучить последний слой классифицировать эти 50-мерные векторы в различные классы цифры.

Обучение финал softmax слой

Обучите softmax слой классифицировать 50-мерные характеристические векторы. В отличие от автоэнкодеров, вы обучаетесь, softmax слой в контролируемом использовании вида маркирует для данных тренировки.

softnet = trainSoftmaxLayer(feat2,tTrain,'MaxEpochs',400);

Можно просмотреть схему softmax слоя с функцией view.

view(softnet)

Формирование сложенной нейронной сети

Вы обучили три отдельных компонента сложенной нейронной сети в изоляции. На данном этапе может быть полезно просмотреть три нейронных сети, которые вы обучили. Они - autoenc1, autoenc2 и softnet.

view(autoenc1)
view(autoenc2)
view(softnet)

Как был объяснен, энкодеры от автоэнкодеров использовались, чтобы извлечь функции. Можно сложить энкодеры от автоэнкодеров вместе с softmax слоем, чтобы сформировать сложенную сеть для классификации.

stackednet = stack(autoenc1,autoenc2,softnet);

Можно просмотреть схему сложенной сети с функцией view. Сеть формируется энкодерами из автоэнкодеров и softmax слоя.

view(stackednet)

С полной сформированной сетью можно вычислить результаты на наборе тестов. Чтобы использовать изображения со сложенной сетью, необходимо изменить тестовые изображения в матрицу. Можно сделать это путем укладки столбцов изображения, чтобы сформировать вектор, и затем формирования матрицы из этих векторов.

% Get the number of pixels in each image
imageWidth = 28;
imageHeight = 28;
inputSize = imageWidth*imageHeight;

% Load the test images
[xTestImages,tTest] = digitTestCellArrayData;

% Turn the test images into vectors and put them in a matrix
xTest = zeros(inputSize,numel(xTestImages));
for i = 1:numel(xTestImages)
    xTest(:,i) = xTestImages{i}(:);
end

Можно визуализировать результаты с матрицей беспорядка. Числа в правом нижнем квадрате матрицы дают общую точность.

y = stackednet(xTest);
plotconfusion(tTest,y);

Точная настройка сложенной нейронной сети

Результаты для сложенной нейронной сети могут быть улучшены путем выполнения обратной связи в целой многоуровневой сети. Этот процесс часто упоминается как точная настройка.

Вы точно настраиваете сеть путем переквалификации его на данных тренировки контролируемым способом. Прежде чем можно будет сделать это, необходимо изменить учебные изображения в матрицу, как был сделан для тестовых изображений.

% Turn the training images into vectors and put them in a matrix
xTrain = zeros(inputSize,numel(xTrainImages));
for i = 1:numel(xTrainImages)
    xTrain(:,i) = xTrainImages{i}(:);
end

% Perform fine tuning
stackednet = train(stackednet,xTrain,tTrain);

Вы затем просматриваете результаты снова с помощью матрицы беспорядка.

y = stackednet(xTest);
plotconfusion(tTest,y);

Сводные данные

Этот пример показал, как обучить сложенную нейронную сеть, чтобы классифицировать цифры на изображения с помощью автоэнкодеров. Шаги, которые были обрисованы в общих чертах, могут быть применены к другим подобным проблемам, таким как классификация изображений букв или даже маленьких изображений объектов определенной категории.

Для просмотра документации необходимо авторизоваться на сайте