Используйте parfor для обучения нескольких Нейронных сетей для глубокого обучения

Этот пример использует:

В этом примере показано, как использовать parfor цикл, чтобы выполнить сдвиг параметра для опции обучения.

Обучение глубокого обучения часто занимает часы или дни, и поиск хороших опций обучения может оказаться трудным. С помощью параллельных вычислений можно ускорить и автоматизировать поиск хороших моделей. Если у вас есть доступ к машине с несколькими графическими модулями (GPU), можно завершить этот пример на локальной копии набора данных с локальным парпулом. Если вы хотите использовать больше ресурсов, можно расширить процесс глубокого обучения до облака. В этом примере показано, как использовать цикл parfor для выполнения сдвига параметра в опции обучения MiniBatchSize в кластере в облаке. Можно изменить скрипт, чтобы выполнить сдвиг параметра при любой другой опции обучения. Кроме того, этот пример показывает, как получить обратную связь от работников во время расчетов с помощью DataQueue. Можно также отправить скрипт как пакетное задание в кластер, чтобы можно было продолжить работу или закрыть MATLAB и выбрать результаты позже. Для получения дополнительной информации смотрите Отправить пакетное задание глубокого обучения в кластер.

Требования

Прежде чем вы сможете запустить этот пример, вам нужно сконфигурировать кластер и загрузить свои данные в облако. В MATLAB можно создавать кластеры в облаке непосредственно с рабочего стола MATLAB. На вкладке «Вкладке Home», в меню Parallel, выберите Create and Manage Clusters. В Диспетчере профилей кластеров щелкните Создать облако. Также можно использовать MathWorks Cloud Center для создания и доступа к вычислительным кластерам. Дополнительные сведения см. в разделе Начало работы с облачным центром. В данном примере убедитесь, что кластер установлен по умолчанию на вкладке MATLAB Home, в Parallel > Select a Default Cluster. После этого загрузите свои данные в блок S3 Amazon и используйте их непосредственно из MATLAB. Этот пример использует копию CIFAR-10 набора данных, который уже хранится в Amazon S3. Инструкции см. в разделе Загрузка данных глубокого обучения в облако.

Загрузка набора данных из облака

Загрузите наборы обучающих и тестовых данных из облака с помощью imageDatastore. Разделите набор обучающих данных на наборы обучения и валидации и сохраните набор тестовых данных, чтобы протестировать лучшую сеть от сдвига параметра. В этом примере вы используете копию CIFAR-10 набора данных, хранящегося в Amazon S3. Чтобы убедиться, что работники имеют доступ к datastore в облаке, убедитесь, что переменные окружения для учетных данных AWS заданы правильно. Смотрите Загрузку данных глубокого обучения в облако.

imds = imageDatastore('s3://cifar10cloud/cifar10/train', ...
    'IncludeSubfolders',true, ...
    'LabelSource','foldernames');

imdsTest = imageDatastore('s3://cifar10cloud/cifar10/test', ...
    'IncludeSubfolders',true, ...
    'LabelSource','foldernames');

[imdsTrain,imdsValidation] = splitEachLabel(imds,0.9);

Обучите сеть с дополненными данными об изображениях, создав augmentedImageDatastore объект. Используйте случайные переводы и горизонтальные отражения. Увеличение количества данных помогает предотвратить сверхподбор кривой сети и запоминание точных деталей обучающих изображений.

imageSize = [32 32 3];
pixelRange = [-4 4];
imageAugmenter = imageDataAugmenter( ...
    'RandXReflection',true, ...
    'RandXTranslation',pixelRange, ...
    'RandYTranslation',pixelRange);
augmentedImdsTrain = augmentedImageDatastore(imageSize,imdsTrain, ...
    'DataAugmentation',imageAugmenter, ...
    'OutputSizeMode','randcrop');

Определение сетевой архитектуры

Определите сетевую архитектуру для CIFAR-10 набора данных. Чтобы упростить код, используйте сверточные блоки, которые свертывают вход. Слои объединения понижают пространственные размерности.

imageSize = [32 32 3];
netDepth = 2; % netDepth controls the depth of a convolutional block
netWidth = 16; % netWidth controls the number of filters in a convolutional block

layers = [
    imageInputLayer(imageSize)
    
    convolutionalBlock(netWidth,netDepth)
    maxPooling2dLayer(2,'Stride',2)
    convolutionalBlock(2*netWidth,netDepth)
    maxPooling2dLayer(2,'Stride',2)
    convolutionalBlock(4*netWidth,netDepth)
    averagePooling2dLayer(8)
    
    fullyConnectedLayer(10)
    softmaxLayer
    classificationLayer
    ];

Обучите несколько сетей одновременно

Задайте мини-пакетные размеры, для которых требуется выполнить сдвиг параметра. Выделите переменные для полученных сетей и точности.

miniBatchSizes = [64 128 256 512];
numMiniBatchSizes = numel(miniBatchSizes);
trainedNetworks = cell(numMiniBatchSizes,1);
accuracies = zeros(numMiniBatchSizes,1);

Выполните параллельный параметр развертки, обучая несколько сетей внутри parfor цикл и изменение размера мини-пакета. Работники кластера обучают сети одновременно и отправляют обученные сети и точности назад, когда обучение завершено. Если вы хотите проверить, что обучение работает, установите Verbose на true в опциях обучения. Обратите внимание, что рабочие вычисляют независимо, поэтому выход командной строки находится не в том же последовательном порядке, что и итерации.

parfor idx = 1:numMiniBatchSizes
    
    miniBatchSize = miniBatchSizes(idx);
    initialLearnRate = 1e-1 * miniBatchSize/256; % Scale the learning rate according to the mini-batch size.
    
    % Define the training options. Set the mini-batch size.
    options = trainingOptions('sgdm', ...
        'MiniBatchSize',miniBatchSize, ... % Set the corresponding MiniBatchSize in the sweep.
        'Verbose',false, ... % Do not send command line output.
        'InitialLearnRate',initialLearnRate, ... % Set the scaled learning rate.
        'L2Regularization',1e-10, ...
        'MaxEpochs',30, ...
        'Shuffle','every-epoch', ...
        'ValidationData',imdsValidation, ...
        'LearnRateSchedule','piecewise', ...
        'LearnRateDropFactor',0.1, ...
        'LearnRateDropPeriod',25);
    
    % Train the network in a worker in the cluster.
    net = trainNetwork(augmentedImdsTrain,layers,options);
    
    % To obtain the accuracy of this network, use the trained network to
    % classify the validation images on the worker and compare the predicted labels to the
    % actual labels.
    YPredicted = classify(net,imdsValidation);
    accuracies(idx) = sum(YPredicted == imdsValidation.Labels)/numel(imdsValidation.Labels);
    
    % Send the trained network back to the client.
    trainedNetworks{idx} = net;
end

Starting parallel pool (parpool) using the 'MyClusterInTheCloud' profile ...
Connected to the parallel pool (number of workers: 4).

После parfor концы, trainedNetworks содержит полученные сети, обученные работниками. Отображение обученных сетей и их точностей.

trainedNetworks

trainedNetworks = 4×1 cell array
    {1×1 SeriesNetwork}
    {1×1 SeriesNetwork}
    {1×1 SeriesNetwork}
    {1×1 SeriesNetwork}

accuracies

accuracies = 4×1

    0.8188
    0.8232
    0.8162
    0.8050

Выберите лучшую сеть с точки зрения точности. Проверяйте его эффективность на соответствие тестовых данных набору.

[~, I] = max(accuracies);
bestNetwork = trainedNetworks{I(1)};
YPredicted = classify(bestNetwork,imdsTest);
accuracy = sum(YPredicted == imdsTest.Labels)/numel(imdsTest.Labels)

accuracy = 0.8173

Отправка данных обратной связи во время обучения

Подготовка и инициализация графиков, показывающих процесс обучения каждого из работников. Использование animatedLine для удобного способа показать меняющиеся данные.

f = figure;
f.Visible = true;
for i=1:4
    subplot(2,2,i)
    xlabel('Iteration');
    ylabel('Training accuracy');
    lines(i) = animatedline;
end

Отправка данных о процессе обучения от работников клиенту при помощи DataQueue, а затем постройте график данных. Обновляйте графики каждый раз, когда работники отправляют обратную связь о процессе обучения при помощи afterEach. Значение параметра opts содержит информацию о работнике, итерации обучения и точности обучения.

D = parallel.pool.DataQueue;
afterEach(D, @(opts) updatePlot(lines, opts{:}));

Выполните параллельное тестирование параметров, обучая несколько сетей внутри цикла parfor с различными размерами мини-пакетов. Обратите внимание на использование OutputFcn в опциях обучения для отправки процесса обучения клиенту каждую итерацию. Этот рисунок показывает процесс обучения четырех различных работников во время выполнения следующего кода.

parfor idx = 1:numel(miniBatchSizes)
    
    miniBatchSize = miniBatchSizes(idx);
    initialLearnRate = 1e-1 * miniBatchSize/256; % Scale the learning rate according to the miniBatchSize.
    
    % Define the training options. Set an output function to send data back
    % to the client each iteration.
    options = trainingOptions('sgdm', ...
        'MiniBatchSize',miniBatchSize, ... % Set the corresponding MiniBatchSize in the sweep.
        'Verbose',false, ... % Do not send command line output.
        'InitialLearnRate',initialLearnRate, ... % Set the scaled learning rate.
        'OutputFcn',@(state) sendTrainingProgress(D,idx,state), ... % Set an output function to send intermediate results to the client.
        'L2Regularization',1e-10, ...
        'MaxEpochs',30, ...
        'Shuffle','every-epoch', ...
        'ValidationData',imdsValidation, ...
        'LearnRateSchedule','piecewise', ...
        'LearnRateDropFactor',0.1, ...
        'LearnRateDropPeriod',25);
    
    % Train the network in a worker in the cluster. The workers send
    % training progress information during training to the client.
    net = trainNetwork(augmentedImdsTrain,layers,options);
    
    % To obtain the accuracy of this network, use the trained network to
    % classify the validation images on the worker and compare the predicted labels to the
    % actual labels.
    YPredicted = classify(net,imdsValidation);
    accuracies(idx) = sum(YPredicted == imdsValidation.Labels)/numel(imdsValidation.Labels);
    
    % Send the trained network back to the client.
    trainedNetworks{idx} = net;
end

Analyzing and transferring files to the workers ...done.

trainedNetworks

trainedNetworks = 4×1 cell array
    {1×1 SeriesNetwork}
    {1×1 SeriesNetwork}
    {1×1 SeriesNetwork}
    {1×1 SeriesNetwork}

accuracies

accuracies = 4×1

    0.8214
    0.8172
    0.8132
    0.8084

[~, I] = max(accuracies);
bestNetwork = trainedNetworks{I(1)};
YPredicted = classify(bestNetwork,imdsTest);
accuracy = sum(YPredicted == imdsTest.Labels)/numel(imdsTest.Labels)

accuracy = 0.8187

Вспомогательные функции

Задайте функцию для создания сверточного блока в сетевой архитектуре.

function layers = convolutionalBlock(numFilters,numConvLayers)
layers = [
    convolution2dLayer(3,numFilters,'Padding','same')
    batchNormalizationLayer
    reluLayer
    ];

layers = repmat(layers,numConvLayers,1);
end

Определите функцию для отправки процесса обучения клиенту через DataQueue.

function sendTrainingProgress(D,idx,info)
if info.State == "iteration"
    send(D,{idx,info.Iteration,info.TrainingAccuracy});
end
end

Задайте функцию обновления, чтобы обновить графики, когда рабочий отправляет промежуточный результат.

function updatePlot(lines,idx,iter,acc)
addpoints(lines(idx),iter,acc);
drawnow limitrate nocallbacks
end

См. также

imageDatastore | trainNetwork | parallel.pool.DataQueue (Parallel Computing Toolbox)

Подробнее о

Параллельные циклы for-Loops (parfor) (Parallel Computing Toolbox)

Документация по Deep Learning Toolbox

Поддержка

Сообщество Экспонента

Документация