augmentedImageDatastore

Преобразуйте пакеты, чтобы увеличить данные изображения

Описание

Увеличенный datastore изображений преобразовывает пакеты обучения, валидации, теста и данных о прогнозе, с дополнительной предварительной обработкой, такие как изменение размеров, вращение и отражение. Измените размер изображений, чтобы сделать их совместимыми с входным размером вашей нейронной сети для глубокого обучения. Увеличьте учебные данные изображения с рандомизированными операциями предварительной обработки, чтобы помочь препятствовать тому, чтобы сеть сверхсоответствовала и запомнила точные детали учебных изображений.

Чтобы обучить сеть с помощью увеличенных изображений, предоставьте augmentedImageDatastore к trainNetwork. Для получения дополнительной информации смотрите, Предварительно обрабатывают Изображения для Глубокого обучения.

Когда вы используете увеличенный datastore изображений в качестве источника учебных изображений, datastore случайным образом тревожит обучающие данные в течение каждой эпохи, так, чтобы каждая эпоха использовала немного отличающийся набор данных. Фактическое количество учебных изображений в каждую эпоху не изменяется. Преобразованные изображения не хранятся в памяти.
imageInputLayer нормирует изображения с помощью среднего значения увеличенных изображений, не среднего значения исходного набора данных. Это среднее значение вычисляется однажды в течение первой увеличенной эпохи. Все другие эпохи используют то же среднее значение, так, чтобы среднее изображение не изменялось во время обучения.

По умолчанию, augmentedImageDatastore только изменяет размер изображений, чтобы соответствовать выходному размеру. Можно сконфигурировать опции для дополнительных преобразований изображений с помощью imageDataAugmenter.

Создание

Синтаксис

auimds = augmentedImageDatastore(outputSize,imds)

auimds = augmentedImageDatastore(outputSize,X,Y)

auimds = augmentedImageDatastore(outputSize,X)

auimds = augmentedImageDatastore(outputSize,tbl)

auimds = augmentedImageDatastore(outputSize,tbl,responseName)

auimds = augmentedImageDatastore(___,Name,Value)

Описание

auimds = augmentedImageDatastore(outputSize,imds) создает увеличенный datastore изображений для проблем классификации с помощью изображений от datastore изображений imds, и устанавливает OutputSize свойство.

auimds = augmentedImageDatastore(outputSize,X,Y) создает увеличенный datastore изображений для проблем регрессии и классификации. Массив X содержит переменные предикторы и массив Y содержит категориальные метки или числовые ответы.

auimds = augmentedImageDatastore(outputSize,X) создает увеличенный datastore изображений для предсказания ответов данных изображения в массиве X.

auimds = augmentedImageDatastore(outputSize,tbl) создает увеличенный datastore изображений для проблем регрессии и классификации. Таблица, tbl, содержит предикторы и ответы.

auimds = augmentedImageDatastore(outputSize,tbl,responseName) создает увеличенный datastore изображений для проблем регрессии и классификации. Таблица, tbl, содержит предикторы и ответы. responseName аргумент задает переменные отклика в tbl.

пример

auimds = augmentedImageDatastore(___,Name,Value) создает увеличенный datastore изображений, с помощью пар "имя-значение", чтобы установить ColorPreprocessing, DataAugmentation, OutputSizeMode, и DispatchInBackground свойства. Можно задать несколько пар "имя-значение". Заключите каждое имя свойства в кавычки.

Например, augmentedImageDatastore([28,28],myTable,'OutputSizeMode','centercrop') создает увеличенный datastore изображений, который обрезки отображают от центра.

Входные параметры

развернуть все

`imds` ImageDatastore
`ImageDatastore` объект

Отобразите datastore, заданный как ImageDatastore объект.

ImageDatastore позволяет пакетное чтение JPG или упреждающую выборку использования файлов изображений PNG. Если вы используете пользовательскую функцию в чтении изображений, то ImageDatastore не выбирает с упреждением.

Совет

Используйте augmentedImageDatastore для эффективной предварительной обработки изображений для глубокого обучения включая изменение размеров изображений.

Не используйте readFcn опция imageDatastore когда эта опция обычно значительно медленнее.

`X` Изображения
Числовой массив 4-D

Изображения, заданные как 4-D числовой массив. Первые три измерения являются высотой, шириной и каналами, и последняя размерность индексирует отдельные изображения.

Если массив содержит NaNs, затем они распространены посредством обучения. Однако в большинстве случаев обучению не удается сходиться.

`Y` — Ответы для классификации или регрессия
массив категориальных ответов | числовая матрица | 4-D числовой массив

Ответы для классификации или регрессия, заданная как одно из следующего:

Для проблемы классификации, Y категориальный вектор, содержащий метки изображения.
Для проблемы регрессии, Y может быть:
- n-by-r числовая матрица. n является количеством наблюдений, и r является количеством ответов.
- h-by-w-by-c-by-n числовой массив. h-by-w-by-c является размером одного ответа, и n является количеством наблюдений.

Ответы не должны содержать NaNs.

Типы данных: categorical | double

`tbl` — Входные данные
`table`

Входные данные, заданные как таблица. tbl должен содержать предикторы в первом столбце или как абсолютные или как относительные каналы передачи изображения или изображения. Тип и местоположение ответов зависят от проблемы:

Для проблемы классификации ответ должен быть категориальным переменным, содержащим метки для изображений. Если имя переменной отклика не задано в вызове augmentedImageDatastore, ответы должны быть во втором столбце. Если ответы находятся в различном столбце tbl, затем необходимо задать имя переменной отклика с помощью responseName позиционный параметр.
Для проблемы регрессии ответы должны быть численными значениями в столбце или столбцах после первого. Ответы могут быть или в нескольких столбцах как скаляры или в отдельном столбце как числовые векторы или массивы ячеек, содержащие числовые трехмерные массивы. Когда вы не задаете имя переменной отклика или переменных, augmentedImageDatastore принимает остальные столбцы tbl как переменные отклика. Можно задать имена переменной отклика с помощью responseName позиционный параметр.

Ответы не должны содержать NaNs. Если существует NaNs в данных о предикторе, они распространены посредством обучения, однако, в большинстве случаев обучению не удается сходиться.

Типы данных: table

`responseName` — Имена переменных отклика во входной таблице
вектор символов | массив ячеек из символьных векторов | массив строк

Имена переменных отклика во входной таблице, заданной как вектор символов, массив ячеек из символьных векторов или массив строк. Для проблем с одним ответом, responseName соответствующее имя переменной в tbl. Для проблем регрессии с переменными множественного ответа, responseName массив соответствующих имен переменных в tbl.

Типы данных: char | cell | string

Свойства

развернуть все

`ColorPreprocessing` — Предварительная обработка цветных операций
`'none'` (значение по умолчанию) | `'gray2rgb'` | `'rgb2gray'`

Предварительная обработка цветных операций, выполняемых на входной шкале полутонов или изображениях RGB, заданных как 'none', 'gray2rgb', или 'rgb2gray'. Когда datastore изображений будет содержать смесь шкалы полутонов и изображений RGB, используйте ColorPreprocessing гарантировать, что все выходные изображения имеют количество каналов, требуемых imageInputLayer.

Никакая операция предварительной обработки цвета не выполняется, когда входное изображение уже имеет необходимое количество цветовых каналов. Например, если вы задаете значение 'gray2rgb' и входное изображение уже имеет три канала, затем никакая цветная предварительная обработка не происходит.

Примечание

augmentedImageDatastore объект преобразует изображения RGB в шкалу полутонов при помощи rgb2gray функция. Если изображение имеет три канала, которые не соответствуют красным, зеленым, и синим каналам (таким как изображение в L*a*b* цветовое пространство), то использование ColorPreprocessing может дать плохие результаты.

Никакая операция предварительной обработки цвета не выполняется, когда входные изображения не имеют 1 или 3 каналов, такой что касается многоспектральных или гиперспектральных изображений. В этом случае все входные изображения должны иметь то же количество каналов.

Типы данных: char | string

`DataAugmentation` — Предварительная обработка применяется к входным изображениям
`'none'` (значение по умолчанию) | `imageDataAugmenter` объект

Предварительная обработка примененного к входным изображениям, заданным как imageDataAugmenter объект или 'none'. Когда DataAugmentation 'none', никакая предварительная обработка не применяется, чтобы ввести изображения.

`DispatchInBackground` — Диспетчеризируйте наблюдения в фоне
`false` (значение по умолчанию) | `true`

Диспетчеризируйте наблюдения в фоновом режиме во время обучения, прогноза или классификации, заданной как false или true. Чтобы использовать фоновую диспетчеризацию, у вас должен быть Parallel Computing Toolbox™.

Увеличенные хранилища данных изображений только выполняют фоновую диспетчеризацию, когда используется с trainNetwork и вывод функционирует, такие как predict и classify. Фоновая диспетчеризация не происходит, когда вы вызываете read функция datastore непосредственно.

`MiniBatchSize` — Количество наблюдений в каждом пакете
128 | положительное целое число

Количество наблюдений, которые возвращены в каждом пакете. Можно изменить значение MiniBatchSize только после того, как вы создаете datastore. Для обучения, прогноза, и классификации, MiniBatchSize свойство установлено в мини-пакетный размер, заданный в trainingOptions.

`NumObservations` — Общее количество наблюдений в datastore
положительное целое число

Это свойство доступно только для чтения.

Общее количество наблюдений в увеличенном datastore изображений. Количество наблюдений является продолжительностью одной учебной эпохи.

`OutputSize` — Размер выходных изображений
вектор двух положительных целых чисел

Размер выходных изображений, заданных как вектор двух положительных целых чисел. Первый элемент задает количество строк в выходных изображениях, и второй элемент задает количество столбцов.

Примечание

Если вы создаете augmentedImageDatastore путем определения изображения выводит размер как трехэлементный вектор, затем datastore игнорирует третий элемент. Вместо этого datastore использует значение ColorPreprocessing определить размерность выходных изображений. Например, если вы задаете OutputSize как [28 28 1] но набор ColorPreprocessing как 'gray2rgb', затем выходные изображения имеют размер 28 28 3.

`OutputSizeMode` — Метод раньше изменял размер выходных изображений
`'resize'` (значение по умолчанию) | `'centercrop'` | `'randcrop'`

Метод раньше изменял размер выходных изображений, заданных как одно из следующих.

'resize' — Масштабируйте изображение с помощью билинейной интерполяции, чтобы соответствовать выходному размеру.
Примечание
augmentedImageDatastore использует метод билинейной интерполяции imresize со сглаживанием. Билинейная интерполяция включает быструю обработку изображений при предотвращении искажений такой, как вызвано интерполяцией ближайшего соседа. В отличие от этого imresize по умолчанию бикубическая интерполяция использования со сглаживанием, чтобы произвести высококачественное измененное изображение за счет более длительного времени вычислений.
'centercrop' — Возьмите обрезку из центра учебного изображения. Обрезка имеет тот же размер как выходной размер.
'randcrop' — Возьмите случайную обрезку из учебного изображения. Случайная обрезка имеет тот же размер как выходной размер.

Типы данных: char | string

Функции объекта

`combine`	Объедините данные от нескольких datastores
`hasdata`	Определите, доступны ли данные для чтения
`partitionByIndex`	Раздел augmentedImageDatastore согласно индексам
`preview`	Подмножество данных в datastore
`read`	Считайте данные из augmentedImageDatastore
`readall`	Считывайте все данные в datastore
`readByIndex`	Считайте данные, заданные индексом от augmentedImageDatastore
`reset`	Сброс Datastore к начальному состоянию
`shuffle`	Переставьте данные в augmentedImageDatastore
`transform`	Преобразуйте datastore

Примеры

свернуть все

Обучите сеть с увеличенными изображениями

Скрипт Open Live Script

Обучите сверточную нейронную сеть с помощью увеличенных данных изображения. Увеличение данных помогает препятствовать тому, чтобы сеть сверхсоответствовала и запомнила точные детали учебных изображений.

Загрузите выборочные данные, которые состоят из синтетических изображений рукописных цифр.

[XTrain,YTrain] = digitTrain4DArrayData;

digitTrain4DArrayData загружает набор обучающих данных цифры как 4-D данные массива. XTrain 28 28 1 5 000 массивов, где:

28 высота и ширина изображений.
1 количество каналов.
5000 количество синтетических изображений рукописных цифр.

YTrain категориальный вектор, содержащий метки для каждого наблюдения.

Отложите 1000 из изображений для сетевой валидации.

idx = randperm(size(XTrain,4),1000);
XValidation = XTrain(:,:,:,idx);
XTrain(:,:,:,idx) = [];
YValidation = YTrain(idx);
YTrain(idx) = [];

Создайте imageDataAugmenter объект, который задает опции предварительной обработки для увеличения изображений, такие как изменение размеров, вращение, перевод и отражение. Случайным образом переведите изображения до трех пикселей горизонтально и вертикально и вращайте изображения с углом до 20 градусов.

imageAugmenter = imageDataAugmenter( ...
    'RandRotation',[-20,20], ...
    'RandXTranslation',[-3 3], ...
    'RandYTranslation',[-3 3])

imageAugmenter = 
  imageDataAugmenter with properties:

           FillValue: 0
     RandXReflection: 0
     RandYReflection: 0
        RandRotation: [-20 20]
           RandScale: [1 1]
          RandXScale: [1 1]
          RandYScale: [1 1]
          RandXShear: [0 0]
          RandYShear: [0 0]
    RandXTranslation: [-3 3]
    RandYTranslation: [-3 3]

Создайте augmentedImageDatastore возразите, чтобы использовать в сетевом обучении и задать изображение выходной размер. Во время обучения datastore выполняет увеличение изображений и изменяет размер изображений. Datastore увеличивает изображения, не сохраняя образов к памяти. trainNetwork обновляет сетевые параметры и затем отбрасывает увеличенные изображения.

imageSize = [28 28 1];
augimds = augmentedImageDatastore(imageSize,XTrain,YTrain,'DataAugmentation',imageAugmenter);

Задайте архитектуру сверточной нейронной сети.

layers = [
    imageInputLayer(imageSize)
    
    convolution2dLayer(3,8,'Padding','same')
    batchNormalizationLayer
    reluLayer   
    
    maxPooling2dLayer(2,'Stride',2)
    
    convolution2dLayer(3,16,'Padding','same')
    batchNormalizationLayer
    reluLayer   
    
    maxPooling2dLayer(2,'Stride',2)
    
    convolution2dLayer(3,32,'Padding','same')
    batchNormalizationLayer
    reluLayer   
    
    fullyConnectedLayer(10)
    softmaxLayer
    classificationLayer];

Задайте опции обучения для стохастического градиентного спуска с импульсом.

opts = trainingOptions('sgdm', ...
    'MaxEpochs',15, ...
    'Shuffle','every-epoch', ...
    'Plots','training-progress', ...
    'Verbose',false, ...
    'ValidationData',{XValidation,YValidation});

Обучите сеть. Поскольку изображения валидации не увеличиваются, точность валидации выше, чем учебная точность.

net = trainNetwork(augimds,layers,opts);

Советы

Можно визуализировать много преобразованных изображений в той же фигуре при помощи imtile функция. Например, этот код отображает один мини-пакет преобразованных изображений от увеличенного datastore изображений под названием auimds.
```
minibatch = read(auimds);
imshow(imtile(minibatch.input))
```
По умолчанию изменение размеров является единственной операцией предварительной обработки изображений, выполняемой на изображениях. Включите дополнительные операции предварительной обработки при помощи DataAugmentation аргумент пары "имя-значение" с imageDataAugmenter объект. Каждый раз отображает, читаются из увеличенного datastore изображений, различная случайная комбинация предварительной обработки операций применяются к каждому изображению.

Документация

augmentedImageDatastore

Описание

Создание

Синтаксис

Описание

Входные параметры

`imds` ImageDatastore
`ImageDatastore` объект

Совет

`X` Изображения
Числовой массив 4-D

`Y` — Ответы для классификации или регрессия
массив категориальных ответов | числовая матрица | 4-D числовой массив

`tbl` — Входные данные
`table`

`responseName` — Имена переменных отклика во входной таблице
вектор символов | массив ячеек из символьных векторов | массив строк

Свойства

`ColorPreprocessing` — Предварительная обработка цветных операций
`'none'` (значение по умолчанию) | `'gray2rgb'` | `'rgb2gray'`

Примечание

`DataAugmentation` — Предварительная обработка применяется к входным изображениям
`'none'` (значение по умолчанию) | `imageDataAugmenter` объект

`DispatchInBackground` — Диспетчеризируйте наблюдения в фоне
`false` (значение по умолчанию) | `true`

`MiniBatchSize` — Количество наблюдений в каждом пакете
128 | положительное целое число

`NumObservations` — Общее количество наблюдений в datastore
положительное целое число

`OutputSize` — Размер выходных изображений
вектор двух положительных целых чисел

Примечание

`OutputSizeMode` — Метод раньше изменял размер выходных изображений
`'resize'` (значение по умолчанию) | `'centercrop'` | `'randcrop'`

Примечание

Функции объекта

Примеры

Обучите сеть с увеличенными изображениями

Советы

Смотрите также

Темы

Введенный в R2018a

Документация Deep Learning Toolbox

Поддержка

Документация

augmentedImageDatastore

Описание

Создание

Синтаксис

Описание

Входные параметры

imds ImageDatastore ImageDatastore объект

Совет

X Изображения Числовой массив 4-D

Y — Ответы для классификации или регрессия массив категориальных ответов | числовая матрица | 4-D числовой массив

tbl — Входные данные table

responseName — Имена переменных отклика во входной таблице вектор символов | массив ячеек из символьных векторов | массив строк

Свойства

ColorPreprocessing — Предварительная обработка цветных операций 'none' (значение по умолчанию) | 'gray2rgb' | 'rgb2gray'

Примечание

DataAugmentation — Предварительная обработка применяется к входным изображениям 'none' (значение по умолчанию) | imageDataAugmenter объект

DispatchInBackground — Диспетчеризируйте наблюдения в фоне false (значение по умолчанию) | true

MiniBatchSize — Количество наблюдений в каждом пакете128 | положительное целое число

NumObservations — Общее количество наблюдений в datastore положительное целое число

OutputSize — Размер выходных изображений вектор двух положительных целых чисел

Примечание

OutputSizeMode — Метод раньше изменял размер выходных изображений 'resize' (значение по умолчанию) | 'centercrop' | 'randcrop'

Примечание

Функции объекта

Примеры

Обучите сеть с увеличенными изображениями

Советы

Смотрите также

Темы

Введенный в R2018a

Документация Deep Learning Toolbox

Поддержка

`imds` ImageDatastore
`ImageDatastore` объект

`X` Изображения
Числовой массив 4-D

`Y` — Ответы для классификации или регрессия
массив категориальных ответов | числовая матрица | 4-D числовой массив

`tbl` — Входные данные
`table`

`responseName` — Имена переменных отклика во входной таблице
вектор символов | массив ячеек из символьных векторов | массив строк

`ColorPreprocessing` — Предварительная обработка цветных операций
`'none'` (значение по умолчанию) | `'gray2rgb'` | `'rgb2gray'`

`DataAugmentation` — Предварительная обработка применяется к входным изображениям
`'none'` (значение по умолчанию) | `imageDataAugmenter` объект

`DispatchInBackground` — Диспетчеризируйте наблюдения в фоне
`false` (значение по умолчанию) | `true`

`MiniBatchSize` — Количество наблюдений в каждом пакете
128 | положительное целое число

`NumObservations` — Общее количество наблюдений в datastore
положительное целое число

`OutputSize` — Размер выходных изображений
вектор двух положительных целых чисел

`OutputSizeMode` — Метод раньше изменял размер выходных изображений
`'resize'` (значение по умолчанию) | `'centercrop'` | `'randcrop'`