unetLayers

Создайте слои U-Net для семантической сегментации

Синтаксис

lgraph = unetLayers(imageSize,numClasses)

[lgraph,outputSize] = unetLayers(imageSize,numClasses)

___ = unetLayers(imageSize,numClasses,Name,Value)

Описание

lgraph = unetLayers(imageSize,numClasses) возвращает сеть U-Net. unetLayers включает слой классификации пикселей в сеть, чтобы предсказать категориальную метку для каждого пикселя во входном изображении.

Используйте unetLayers создать архитектуру сети U-Net. Необходимо обучить сеть с помощью функции Deep Learning Toolbox™ trainNetwork.

[lgraph,outputSize] = unetLayers(imageSize,numClasses) также возвращает размер выходного размера от сети U-Net.

___ = unetLayers(imageSize,numClasses,Name,Value) задает опции с помощью одного или нескольких аргументов пары "имя-значение". Заключите каждое имя свойства в кавычки. Например, unetLayers(imageSize,numClasses,'NumFirstEncoderFilters',64) дополнительно определяет номер выходных каналов к 64 для первого этапа энкодера.

Примеры

свернуть все

Создайте сеть U-Net с пользовательской глубиной декодера энкодера

Этот пример использует:

Скрипт Open Live Script

Создайте сеть U-Net с глубиной декодера энкодера 3.

imageSize = [480 640 3];
numClasses = 5;
encoderDepth = 3;
lgraph = unetLayers(imageSize,numClasses,'EncoderDepth',encoderDepth)

lgraph = 
  LayerGraph with properties:

         Layers: [46x1 nnet.cnn.layer.Layer]
    Connections: [48x2 table]
     InputNames: {'ImageInputLayer'}
    OutputNames: {'Segmentation-Layer'}

Отобразите сеть.

plot(lgraph)

Обучите сеть U-Net для Семантической Сегментации

Этот пример использует:

Скрипт Open Live Script

Загрузите учебные изображения и пиксельные метки в рабочую область.

dataSetDir = fullfile(toolboxdir('vision'),'visiondata','triangleImages');
imageDir = fullfile(dataSetDir,'trainingImages');
labelDir = fullfile(dataSetDir,'trainingLabels');

Создайте imageDatastore возразите, чтобы сохранить учебные изображения.

imds = imageDatastore(imageDir);

Задайте имена классов и их связанную метку IDs.

classNames = ["triangle","background"];
labelIDs   = [255 0];

Создайте pixelLabelDatastore возразите, чтобы сохранить пиксельные метки основной истины для учебных изображений.

pxds = pixelLabelDatastore(labelDir,classNames,labelIDs);

Создайте сеть U-Net.

imageSize = [32 32];
numClasses = 2;
lgraph = unetLayers(imageSize, numClasses)

lgraph = 
  LayerGraph with properties:

         Layers: [58×1 nnet.cnn.layer.Layer]
    Connections: [61×2 table]
     InputNames: {'ImageInputLayer'}
    OutputNames: {'Segmentation-Layer'}

Создайте datastore для того, чтобы обучить сеть.

ds = pixelLabelImageDatastore(imds,pxds);

Установите опции обучения.

options = trainingOptions('sgdm', ...
    'InitialLearnRate',1e-3, ...
    'MaxEpochs',20, ...
    'VerboseFrequency',10);

Обучите сеть.

net = trainNetwork(ds,lgraph,options)

Training on single CPU.
Initializing input data normalization.
|========================================================================================|
|  Epoch  |  Iteration  |  Time Elapsed  |  Mini-batch  |  Mini-batch  |  Base Learning  |
|         |             |   (hh:mm:ss)   |   Accuracy   |     Loss     |      Rate       |
|========================================================================================|
|       1 |           1 |       00:00:04 |       79.88% |       1.8376 |          0.0010 |
|      10 |          10 |       00:00:40 |       97.18% |       0.3447 |          0.0010 |
|      20 |          20 |       00:01:20 |       97.95% |       0.1829 |          0.0010 |
|========================================================================================|

net = 
  DAGNetwork with properties:

         Layers: [58×1 nnet.cnn.layer.Layer]
    Connections: [61×2 table]
     InputNames: {'ImageInputLayer'}
    OutputNames: {'Segmentation-Layer'}

Входные параметры

свернуть все

`imageSize` — Сетевой входной размер изображения
Вектор с 2 элементами | вектор с 3 элементами

Сетевой входной размер изображения в виде a:

Вектор с 2 элементами в форме [height, width].
Вектор с 3 элементами в форме [height, width, depth]. depth является количеством каналов изображений. Установите depth на 3 для изображений RGB, к 1 для полутоновых изображений, или к количеству каналов для многоспектральных и гиперспектральных изображений.

`numClasses` — Количество классов
целое число, больше, чем 1

Количество классов в семантической сегментации в виде целого числа, больше, чем 1.

Аргументы в виде пар имя-значение

Пример: 'EncoderDepth',3

`'EncoderDepth'` — Глубина энкодера
4 (значение по умолчанию) | положительное целое число

Глубина энкодера в виде положительного целого числа. U-Net состоит из подсети энкодера и соответствующей подсети декодера. Глубина этих сетей определяет число раз, входное изображение прорежено или сверхдискретизировано во время обработки. Сеть энкодера прореживает входное изображение фактором 2^D, где D является значением EncoderDepth. Сеть декодера сверхдискретизировала сеть энкодера, выведенную фактором 2^D.

`'NumOutputChannels'` — Количество выходных каналов
64 (значение по умолчанию) | положительное целое число

Примечание

NumOutputChannels переименован в NumFirstEncoderFilters и не будет поддерживаться в будущем релизе. Используйте NumFirstEncoderFilters вместо этого.

Количество выхода образовывает канал для первого этапа энкодера в виде положительного целого числа или вектора положительных целых чисел. На каждом последующем этапе энкодера удваивается количество выходных каналов. unetLayers определяет номер выходных каналов на каждом этапе декодера, чтобы совпадать с номером на соответствующем этапе энкодера.

`'NumFirstEncoderFilters'` — Количество выхода образовывает канал для первого энкодера
32 (значения по умолчанию) | положительное целое число

Количество выхода образовывает канал для первого этапа энкодера в виде положительного целого числа или вектора положительных целых чисел. На каждом последующем этапе энкодера удваивается количество выходных каналов. unetLayers функция определяет номер выходных каналов на каждом этапе декодера, чтобы совпадать с номером на соответствующем этапе энкодера.

`'FilterSize'` — Сверточный размер фильтра слоя
3 (значение по умолчанию) | положительное нечетное целое число | вектор-строка с 2 элементами из положительных нечетных целых чисел

Сверточный размер фильтра слоя в виде положительного нечетного целого числа или вектора-строки с 2 элементами из положительных нечетных целых чисел. Типичные значения находятся в области значений [3, 7].

`FilterSize`	Описание
скаляр	Фильтр является квадратным.
Вектор-строка с 2 элементами	Фильтр имеет размер [height width].

`'ConvolutionPadding'` — Тип дополнения
`'same'` (значение по умолчанию) | `'valid'`

Тип дополнения в виде 'same' или 'valid'. Тип дополнения задает дополнительный стиль для convolution2dLayer в энкодере и подсетях декодера. Пространственный размер выходной карты функции зависит от типа дополнения. Если вы задаете тип дополнения как:

'same' — Нулевое дополнение применяется к входным параметрам к слоям свертки, таким образом, что выход и входные карты функции одного размера.
'valid' — Нулевое дополнение не применяется к входным параметрам к слоям свертки. Слой свертки возвращает только значения свертки, которые вычисляются без нулевого дополнения. Выходная карта функции меньше, чем входная карта функции.

Примечание

Чтобы гарантировать, что height и width входных параметров к макс. объединяющим слоям являются четными, выберите сетевой входной размер изображения, чтобы подтвердить к любому из этих критериев:

Если вы задаете 'ConvolutionPadding' как 'same', затем height и width входного изображения должны быть кратными 2^D.
Если вы задаете 'ConvolutionPadding' как 'valid', затем height и width входного изображения должны быть выбраны таким образом что $h e i g h t - \sum_{i = 1}^{D} 2^{i} (f_{h} - 1)$ и $w i d t h - \sum_{i = 1}^{D} 2^{i} (f_{w} - 1)$ множители ^2D.
где _fh и _fw являются высотой и шириной двумерного ядра свертки, соответственно. D является глубиной энкодера.

Типы данных: char | string

Выходные аргументы

свернуть все

`lgraph` — Слои
`layerGraph` объект

Слои, которые представляют архитектуру сети U-Net, возвратились как layerGraph объект.

`outputSize` — Сетевой размер выходного изображения
трехэлементный вектор

Сетевой размер выходного изображения, возвращенный как трехэлементный вектор формы [height, width, channels]. channels является количеством выходных каналов, и это равно количеству классов, заданных во входе. height и width выходного изображения от сети зависят от типа дополнения свертки.

Если вы задаете 'ConvolutionPadding' как 'same', затем height и width сетевого выходного изображения совпадают с height сетевого входного изображения.
Если вы задаете 'ConvolutionPadding' как 'valid', затем height и width сетевого выходного изображения меньше height сетевого входного изображения.

Типы данных: double

Больше о

свернуть все

Архитектура U-Net

Архитектура U-Net состоит из подсети энкодера и подсети декодера, которые соединяются разделом моста.
Подсети энкодера и декодера в архитектуре U-Net состоят из нескольких этапов. EncoderDepth, то, которое задает глубину подсетей энкодера и декодера, определяет номер этапов.
Этапы в подсети энкодера U-Net состоят из двух наборов сверточных и слоев ReLU, сопровождаемых 2 22 макс. слоем объединения. Подсеть декодера состоит из транспонированного слоя свертки для повышающей дискретизации, сопровождаемый двумя наборами слоев ReLU и сверточных.
Раздел моста состоит из двух наборов слоев ReLU и свертки.
Срок смещения всех сверточных слоев инициализируется, чтобы обнулить.
Веса слоя Convolution в подсетях энкодера и декодера инициализируются с помощью 'He' метод инициализации веса [2].

Советы

Используйте 'same' дополнение в слоях свертки, чтобы обеспечить тот же размер данных от входа, чтобы вывести и включить использование широкого набора входных размеров изображения.
Используйте основанные на закрашенной фигуре подходы в бесшовной сегментации больших изображений. Можно извлечь закрашенные фигуры изображений при помощи randomPatchExtractionDatastore функция в Image Processing Toolbox™.
Используйте 'valid' дополнение, чтобы предотвратить артефакты границы, в то время как вы используете основанные на закрашенной фигуре подходы в сегментации.
Можно использовать сеть, созданную с помощью unetLayers функция для генерации кода графического процессора после обучения с trainNetwork. Для получения дополнительной информации и примеры, смотрите Генерацию кода Глубокого обучения (Deep Learning Toolbox).

Вопросы совместимости

развернуть все

`NumOutputChannels` аргумент в `unetLayers` переименован в `NumFirstEncoderFilters`

Не рекомендуемый запуск в R2019b

unetLayers аргумент NumOutputChannels переименован в NumFirstEncoderFilters. NumOutputChannels не будет поддерживаться в будущем релизе. Используйте NumFirstEncoderFilters вместо этого. Чтобы обновить ваш код, замените все экземпляры NumOutputChannels с NumFirstEncoderFilters.

Ссылки

[1] Ronneberger, O., П. Фишер и Т. Брокс. "U-Net: Сверточные Сети для Биомедицинской Сегментации Изображений". Медицинское Вычисление Изображений и Машинное Вмешательство (MICCAI). Издание 9351, 2015, стр 234–241.

[2] Он, K., С. Чжан, С. Жэнь и J. Sun. "Копаясь глубоко в выпрямителях: превышение производительности Человеческого Уровня на классификации ImageNet". Продолжения международной конференции IEEE по вопросам компьютерного зрения. 2015, 1026–1034.

Расширенные возможности

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Указания и ограничения по применению:

Можно использовать сеть U-Net в генерации кода. Во-первых, создайте сеть с помощью unetLayers функция. Затем используйте trainNetwork функция, чтобы обучить сеть для сегментации. После обучения и оценки сети, можно сгенерировать код для DAGNetwork объект при помощи GPU Coder™.

Смотрите также

Объекты

DAGNetwork | layerGraph | pixelClassificationLayer

Функции

deeplabv3plusLayers | evaluateSemanticSegmentation | fcnLayers | segnetLayers | semanticseg | trainNetwork

Документация

unetLayers

Синтаксис

Описание

Примеры

Создайте сеть U-Net с пользовательской глубиной декодера энкодера

Обучите сеть U-Net для Семантической Сегментации

Входные параметры

`imageSize` — Сетевой входной размер изображения
Вектор с 2 элементами | вектор с 3 элементами

`numClasses` — Количество классов
целое число, больше, чем 1

Аргументы в виде пар имя-значение

`'EncoderDepth'` — Глубина энкодера
4 (значение по умолчанию) | положительное целое число

`'NumOutputChannels'` — Количество выходных каналов
64 (значение по умолчанию) | положительное целое число

Примечание

`'NumFirstEncoderFilters'` — Количество выхода образовывает канал для первого энкодера
32 (значения по умолчанию) | положительное целое число

`'ConvolutionPadding'` — Тип дополнения
`'same'` (значение по умолчанию) | `'valid'`

Примечание

Выходные аргументы

`lgraph` — Слои
`layerGraph` объект

`outputSize` — Сетевой размер выходного изображения
трехэлементный вектор

Больше о

Архитектура U-Net

Советы

Вопросы совместимости

`NumOutputChannels` аргумент в `unetLayers` переименован в `NumFirstEncoderFilters`

Ссылки

Расширенные возможности

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Смотрите также

Объекты

Функции

Темы

Введенный в R2018b

Документация Computer Vision Toolbox

Поддержка

Документация

unetLayers

Синтаксис

Описание

Примеры

Создайте сеть U-Net с пользовательской глубиной декодера энкодера

Обучите сеть U-Net для Семантической Сегментации

Входные параметры

imageSize — Сетевой входной размер изображения Вектор с 2 элементами | вектор с 3 элементами

numClasses — Количество классов целое число, больше, чем 1

Аргументы в виде пар имя-значение

'EncoderDepth' — Глубина энкодера4 (значение по умолчанию) | положительное целое число

'NumOutputChannels' — Количество выходных каналов64 (значение по умолчанию) | положительное целое число

Примечание

'NumFirstEncoderFilters' — Количество выхода образовывает канал для первого энкодера 32 (значения по умолчанию) | положительное целое число

'ConvolutionPadding' — Тип дополнения 'same' (значение по умолчанию) | 'valid'

Примечание

Выходные аргументы

lgraph — Слои layerGraph объект

outputSize — Сетевой размер выходного изображения трехэлементный вектор

Больше о

Архитектура U-Net

Советы

Вопросы совместимости

NumOutputChannels аргумент в unetLayers переименован в NumFirstEncoderFilters

Ссылки

Расширенные возможности

Генерация кода графического процессора Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Смотрите также

Объекты

Функции

Темы

Введенный в R2018b

Документация Computer Vision Toolbox

Поддержка

`imageSize` — Сетевой входной размер изображения
Вектор с 2 элементами | вектор с 3 элементами

`numClasses` — Количество классов
целое число, больше, чем 1

`'EncoderDepth'` — Глубина энкодера
4 (значение по умолчанию) | положительное целое число

`'NumOutputChannels'` — Количество выходных каналов
64 (значение по умолчанию) | положительное целое число

`'NumFirstEncoderFilters'` — Количество выхода образовывает канал для первого энкодера
32 (значения по умолчанию) | положительное целое число

`'ConvolutionPadding'` — Тип дополнения
`'same'` (значение по умолчанию) | `'valid'`

`lgraph` — Слои
`layerGraph` объект

`outputSize` — Сетевой размер выходного изображения
трехэлементный вектор

`NumOutputChannels` аргумент в `unetLayers` переименован в `NumFirstEncoderFilters`

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.