В этом примере показано, как использовать несколько графических процессоров на локальной машине для глубокого обучения с помощью автоматической параллельной поддержки. Обучение нейронных сетей для глубокого обучения часто занимает часы или дни. С помощью параллельных вычислений можно ускорить обучение с помощью нескольких графических процессоров. Дополнительные сведения об опциях параллельного обучения см. в разделе Шкале глубокого обучения параллельно и в облаке (Deep Learning Toolbox).
Прежде чем вы сможете запустить этот пример, необходимо загрузить CIFAR-10 набор данных на локальный компьютер. Следующий код загружает набор данных в текущую директорию. Если у вас уже есть локальная копия CIFAR-10, можно пропустить этот раздел.
directory = pwd; [locationCifar10Train,locationCifar10Test] = downloadCIFARToFolders(directory);
Downloading CIFAR-10 data set...done. Copying CIFAR-10 to folders...done.
Загрузите наборы обучающих и тестовых данных с помощью imageDatastore
объект. В следующем коде убедитесь, что местоположение хранилищ данных указывает на CIFAR-10 на вашем локальном компьютере.
imdsTrain = imageDatastore(locationCifar10Train, ... 'IncludeSubfolders',true, ... 'LabelSource','foldernames'); imdsTest = imageDatastore(locationCifar10Test, ... 'IncludeSubfolders',true, ... 'LabelSource','foldernames');
Чтобы обучить сеть с дополненными данными об изображениях, создайте augmentedImageDatastore
объект. Используйте случайные переводы и горизонтальные отражения. Увеличение количества данных помогает предотвратить сверхподбор кривой сети и запоминание точных деталей обучающих изображений.
imageSize = [32 32 3]; pixelRange = [-4 4]; imageAugmenter = imageDataAugmenter( ... 'RandXReflection',true, ... 'RandXTranslation',pixelRange, ... 'RandYTranslation',pixelRange); augmentedImdsTrain = augmentedImageDatastore(imageSize,imdsTrain, ... 'DataAugmentation',imageAugmenter);
Определите сетевую архитектуру для CIFAR-10 набора данных. Чтобы упростить код, используйте сверточные блоки, которые свертывают вход. Слои объединения понижают пространственные размерности.
blockDepth = 4; % blockDepth controls the depth of a convolutional block. netWidth = 32; % netWidth controls the number of filters in a convolutional block. layers = [ imageInputLayer(imageSize) convolutionalBlock(netWidth,blockDepth) maxPooling2dLayer(2,'Stride',2) convolutionalBlock(2*netWidth,blockDepth) maxPooling2dLayer(2,'Stride',2) convolutionalBlock(4*netWidth,blockDepth) averagePooling2dLayer(8) fullyConnectedLayer(10) softmaxLayer classificationLayer ];
Определите опции обучения. Обучите сеть параллельно с несколькими графическими процессорами путем установки окружения выполнения на 'multi-gpu'
. Когда вы используете несколько графических процессоров, вы увеличиваете доступные вычислительные ресурсы. Увеличьте размер мини-пакета с количеством графических процессоров, чтобы сохранить рабочую нагрузку на каждом графическом процессоре постоянной. В этом примере количество графических процессоров составляет два. Масштабируйте скорость обучения в соответствии с размером мини-пакета. Используйте расписание скорости обучения, чтобы снизить скорость обучения по мере процессов обучения. Включите график процесса обучения, чтобы получить визуальную обратную связь во время обучения.
numGPUs = 2; miniBatchSize = 256*numGPUs; initialLearnRate = 1e-1*miniBatchSize/256; options = trainingOptions('sgdm', ... 'ExecutionEnvironment','multi-gpu', ... % Turn on automatic multi-gpu support. 'InitialLearnRate',initialLearnRate, ... % Set the initial learning rate. 'MiniBatchSize',miniBatchSize, ... % Set the MiniBatchSize. 'Verbose',false, ... % Do not send command line output. 'Plots','training-progress', ... % Turn on the training progress plot. 'L2Regularization',1e-10, ... 'MaxEpochs',60, ... 'Shuffle','every-epoch', ... 'ValidationData',imdsTest, ... 'ValidationFrequency',floor(numel(imdsTrain.Files)/miniBatchSize), ... 'LearnRateSchedule','piecewise', ... 'LearnRateDropFactor',0.1, ... 'LearnRateDropPeriod',50);
Обучите сеть. Во время обучения на графике отображается прогресс.
net = trainNetwork(augmentedImdsTrain,layers,options)
Starting parallel pool (parpool) using the 'local' profile ... Connected to the parallel pool (number of workers: 2).
net = SeriesNetwork with properties: Layers: [43×1 nnet.cnn.layer.Layer]
Определите точность сети при помощи обученной сети для классификации тестовых изображений на локальной машине. Затем сравните предсказанные метки с фактическими метками.
YPredicted = classify(net,imdsTest); accuracy = sum(YPredicted == imdsTest.Labels)/numel(imdsTest.Labels)
accuracy = 0.8779
Автоматическая поддержка мультиграфических процессоров может ускорить сетевое обучение, используя преимущества нескольких графических процессоров. Следующий график показывает ускорение общего времени обучения с количеством графических процессоров на Linux-машине с четырьмя графическими процессорами NVIDIA © TITAN Xp.
Задайте функцию для создания сверточного блока в сетевой архитектуре.
function layers = convolutionalBlock(numFilters,numConvLayers) layers = [ convolution2dLayer(3,numFilters,'Padding','same') batchNormalizationLayer reluLayer]; layers = repmat(layers,numConvLayers,1); end
imageDatastore
| trainingOptions
(Deep Learning Toolbox) | trainNetwork
(Deep Learning Toolbox)