unetLayers

Создайте слои U-Net для семантической сегментации

Синтаксис

lgraph = unetLayers(imageSize,numClasses)

[lgraph,outputSize] = unetLayers(imageSize,numClasses)

___ = unetLayers(imageSize,numClasses,Name,Value)

Описание

lgraph = unetLayers(imageSize,numClasses) возвращает сеть U-Net. unetLayers включает слой классификации пикселей в сеть, чтобы предсказать категориальную метку для каждого пикселя во входном изображении.

Использование unetLayers создать архитектуру сети U-Net. Необходимо обучить сеть с помощью функции Deep Learning Toolbox™ trainNetwork (Deep Learning Toolbox).

[lgraph,outputSize] = unetLayers(imageSize,numClasses) также возвращает размер выходного размера от сети U-Net.

___ = unetLayers(imageSize,numClasses,Name,Value) задает опции с помощью одного или нескольких аргументов пары "имя-значение". Заключите каждое имя свойства в кавычки. Например, unetLayers(imageSize,numClasses,'NumFirstEncoderFilters',64) дополнительно определяет номер выходных каналов к 64 для первого этапа энкодера.

Примеры

свернуть все

Создайте сеть U-Net с пользовательской глубиной декодера энкодера

Этот пример использует:

Скрипт Open Live Script

Создайте сеть U-Net с глубиной декодера энкодера 3.

imageSize = [480 640 3];
numClasses = 5;
encoderDepth = 3;
lgraph = unetLayers(imageSize,numClasses,'EncoderDepth',encoderDepth)

lgraph = 
  LayerGraph with properties:

         Layers: [46x1 nnet.cnn.layer.Layer]
    Connections: [48x2 table]
     InputNames: {'ImageInputLayer'}
    OutputNames: {'Segmentation-Layer'}

Отобразите сеть.

plot(lgraph)

Figure contains an axes object. The axes object contains an object of type graphplot.

Обучите сеть U-Net для Семантической Сегментации

Этот пример использует:

Скрипт Open Live Script

Загрузите учебные изображения и пиксельные метки в рабочую область.

dataSetDir = fullfile(toolboxdir('vision'),'visiondata','triangleImages');
imageDir = fullfile(dataSetDir,'trainingImages');
labelDir = fullfile(dataSetDir,'trainingLabels');

Создайте imageDatastore возразите, чтобы сохранить учебные изображения.

imds = imageDatastore(imageDir);

Задайте имена классов и их связанную метку IDs.

classNames = ["triangle","background"];
labelIDs   = [255 0];

Создайте pixelLabelDatastore возразите, чтобы сохранить пиксельные метки основной истины для учебных изображений.

pxds = pixelLabelDatastore(labelDir,classNames,labelIDs);

Создайте сеть U-Net.

imageSize = [32 32];
numClasses = 2;
lgraph = unetLayers(imageSize, numClasses)

lgraph = 
  LayerGraph with properties:

         Layers: [58×1 nnet.cnn.layer.Layer]
    Connections: [61×2 table]
     InputNames: {'ImageInputLayer'}
    OutputNames: {'Segmentation-Layer'}

Создайте datastore для того, чтобы обучить сеть.

ds = combine(imds,pxds);

Установите опции обучения.

options = trainingOptions('sgdm', ...
    'InitialLearnRate',1e-3, ...
    'MaxEpochs',20, ...
    'VerboseFrequency',10);

Обучите сеть.

net = trainNetwork(ds,lgraph,options)

Training on single CPU.
Initializing input data normalization.
|========================================================================================|
|  Epoch  |  Iteration  |  Time Elapsed  |  Mini-batch  |  Mini-batch  |  Base Learning  |
|         |             |   (hh:mm:ss)   |   Accuracy   |     Loss     |      Rate       |
|========================================================================================|
|       1 |           1 |       00:00:04 |       75.57% |       2.4341 |          0.0010 |
|      10 |          10 |       00:00:36 |       96.02% |       0.4517 |          0.0010 |
|      20 |          20 |       00:01:13 |       97.62% |       0.2324 |          0.0010 |
|========================================================================================|

net = 
  DAGNetwork with properties:

         Layers: [58×1 nnet.cnn.layer.Layer]
    Connections: [61×2 table]
     InputNames: {'ImageInputLayer'}
    OutputNames: {'Segmentation-Layer'}

Входные параметры

свернуть все

`imageSize` — Сетевой входной размер изображения
Вектор с 2 элементами | вектор с 3 элементами

Сетевой входной размер изображения в виде a:

Вектор с 2 элементами в форме [height, width].
Вектор с 3 элементами в форме [height, width, depth]. depth является количеством каналов изображений. Установите depth на 3 для изображений RGB, к 1 для полутоновых изображений, или к количеству каналов для многоспектральных и гиперспектральных изображений.

`numClasses` — Количество классов
целое число, больше, чем 1

Количество классов в семантической сегментации в виде целого числа, больше, чем 1.

Аргументы name-value

Пример: 'EncoderDepth',3

`EncoderDepth` — Глубина энкодера
4 (значение по умолчанию) | положительное целое число

Глубина энкодера в виде положительного целого числа. U-Net состоит из подсети энкодера и соответствующей подсети декодера. Глубина этих сетей определяет число раз, входное изображение прорежено или сверхдискретизировано во время обработки. Сеть энкодера прореживает входное изображение на коэффициент 2^D, где D является значением EncoderDepth. Сеть декодера сверхдискретизировала сеть энкодера выход на коэффициент 2^D.

`NumOutputChannels` — Количество выходных каналов
64 (значение по умолчанию) | положительное целое число

Примечание

NumOutputChannels переименован в NumFirstEncoderFilters и не будет поддерживаться в будущем релизе. Используйте NumFirstEncoderFilters вместо этого.

Количество выхода образовывает канал для первого этапа энкодера в виде положительного целого числа или вектора из положительных целых чисел. На каждом последующем этапе энкодера удваивается количество выходных каналов. unetLayers определяет номер выходных каналов на каждом этапе декодера, чтобы совпадать с номером на соответствующем этапе энкодера.

`NumFirstEncoderFilters` — Количество выхода образовывает канал для первого энкодера
32 (значения по умолчанию) | положительное целое число

Количество выхода образовывает канал для первого этапа энкодера в виде положительного целого числа или вектора из положительных целых чисел. На каждом последующем этапе энкодера удваивается количество выходных каналов. unetLayers функция определяет номер выходных каналов на каждом этапе декодера, чтобы совпадать с номером на соответствующем этапе энкодера.

`FilterSize` — Сверточный размер фильтра слоя
3 (значение по умолчанию) | положительное нечетное целое число | вектор-строка с 2 элементами из положительных нечетных целых чисел

Сверточный размер фильтра слоя в виде положительного нечетного целого числа или вектора-строки с 2 элементами из положительных нечетных целых чисел. Типичные значения находятся в области значений [3, 7].

`FilterSize`	Описание
скаляр	Фильтр является квадратным.
Вектор-строка с 2 элементами	Фильтр имеет размер [height width].

`ConvolutionPadding` — Тип дополнения
`'same'` (значение по умолчанию) | `'valid'`

Тип дополнения в виде 'same' или 'valid'. Тип дополнения задает дополнительный стиль для convolution2dLayer (Deep Learning Toolbox) в энкодере и подсетях декодера. Пространственный размер выходной карты функции зависит от типа дополнения. Если вы задаете тип дополнения как:

'same' — Нулевое дополнение применяется к входным параметрам к слоям свертки, таким образом, что выход и входные карты функции одного размера.
'valid' — Нулевое дополнение не применяется к входным параметрам к слоям свертки. Слой свертки возвращает только значения свертки, которые вычисляются без нулевого дополнения. Выходная карта функции меньше, чем входная карта функции.

Примечание

Чтобы гарантировать, что height и width входных параметров к макс. объединяющим слоям являются четными, выберите сетевой входной размер изображения, чтобы подтвердить к любому из этих критериев:

Если вы задаете 'ConvolutionPadding' как 'same', затем height и width входного изображения должны быть кратными 2^D.
Если вы задаете 'ConvolutionPadding' как 'valid', затем height и width входного изображения должны быть выбраны таким образом что $h e i g h t - \sum_{i = 1}^{D} 2^{i} (f_{h} - 1)$ и $w i d t h - \sum_{i = 1}^{D} 2^{i} (f_{w} - 1)$ множители 2^D.
где _fh и _fw являются высотой и шириной двумерного ядра свертки, соответственно. D является глубиной энкодера.

Типы данных: char | string

Выходные аргументы

свернуть все

`lgraph` — Слои
`layerGraph` объект

Слои, которые представляют архитектуру сети U-Net, возвратились как layerGraph Объект (Deep Learning Toolbox).

`outputSize` — Сетевой размер выходного изображения
трехэлементный вектор

Сетевой размер выходного изображения, возвращенный как трехэлементный вектор из формы [height, width, channels]. channels является количеством выходных каналов, и это равно количеству классов, заданных во входе. height и width выходного изображения от сети зависят от типа дополнения свертки.

Если вы задаете 'ConvolutionPadding' как 'same', затем height и width сетевого выходного изображения совпадают с height сетевого входного изображения.
Если вы задаете 'ConvolutionPadding' как 'valid', затем height и width сетевого выходного изображения меньше height сетевого входного изображения.

Типы данных: double

Больше о

свернуть все

Архитектура U-Net

Архитектура U-Net состоит из подсети энкодера и подсети декодера, которые соединяются разделом моста.
Подсети энкодера и декодера в архитектуре U-Net состоят из нескольких этапов. EncoderDepth, то, которое задает глубину подсетей энкодера и декодера, определяет номер этапов.
Этапы в подсети энкодера U-Net состоят из двух наборов сверточных и слоев ReLU, сопровождаемых макс. слоем объединения 2 на 2. Подсеть декодера состоит из транспонированного слоя свертки для повышающей дискретизации, сопровождаемый двумя наборами слоев ReLU и сверточных.
Раздел моста состоит из двух наборов слоев ReLU и свертки.
Термин смещения всех сверточных слоев инициализируется, чтобы обнулить.
Веса слоя Convolution в подсетях энкодера и декодера инициализируются с помощью 'He' метод инициализации веса [2].

Советы

Используйте 'same' дополнение в слоях свертки, чтобы обеспечить тот же размер данных от входа, чтобы вывести и включить использование широкого набора входных размеров изображения.
Используйте основанные на закрашенной фигуре подходы для бесшовной сегментации больших изображений. Можно извлечь закрашенные фигуры изображений при помощи randomPatchExtractionDatastore функция в Image Processing Toolbox™.
Используйте 'valid' дополнение, чтобы предотвратить артефакты границы, в то время как вы используете основанные на закрашенной фигуре подходы для сегментации.
Можно использовать сеть, созданную с помощью unetLayers функция для генерации кода графического процессора после обучения с trainNetwork (Deep Learning Toolbox). Для получения дополнительной информации и примеры, смотрите Генерацию кода Глубокого обучения (Deep Learning Toolbox).

Вопросы совместимости

развернуть все

`NumOutputChannels` аргумент в `unetLayers` переименован в `NumFirstEncoderFilters`

Не рекомендуемый запуск в R2019b

unetLayers аргумент NumOutputChannels переименован в NumFirstEncoderFilters. NumOutputChannels не будет поддерживаться в будущем релизе. Используйте NumFirstEncoderFilters вместо этого. Чтобы обновить ваш код, замените все экземпляры NumOutputChannels с NumFirstEncoderFilters.

Ссылки

[1] Ronneberger, O., П. Фишер и Т. Брокс. "U-Net: Сверточные Сети для Биомедицинской Сегментации Изображений". Медицинское Вычисление Изображений и Машинное Вмешательство (MICCAI). Издание 9351, 2015, стр 234–241.

[2] Он, K., С. Чжан, С. Жэнь и J. Sun. "Копаясь глубоко в выпрямителях: превышение эффективности Человеческого Уровня на классификации ImageNet". Продолжения международной конференции IEEE по вопросам компьютерного зрения. 2015, 1026–1034.

Расширенные возможности

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Указания и ограничения по применению:

Можно использовать сеть U-Net для генерации кода. Во-первых, создайте сеть с помощью unetLayers функция. Затем используйте trainNetwork функция, чтобы обучить сеть для сегментации. После обучения и оценки сети, можно сгенерировать код для DAGNetwork объект при помощи GPU Coder™.

Смотрите также

Объекты

pixelClassificationLayer | layerGraph (Deep Learning Toolbox) | DAGNetwork (Deep Learning Toolbox)

Функции

fcnLayers | segnetLayers | trainNetwork (Deep Learning Toolbox) | semanticseg | deeplabv3plusLayers | evaluateSemanticSegmentation

Темы

Введенный в R2018b

Документация

unetLayers

Синтаксис

Описание

Примеры

Создайте сеть U-Net с пользовательской глубиной декодера энкодера

Обучите сеть U-Net для Семантической Сегментации

Входные параметры

`imageSize` — Сетевой входной размер изображения
Вектор с 2 элементами | вектор с 3 элементами

`numClasses` — Количество классов
целое число, больше, чем 1

Аргументы name-value

`EncoderDepth` — Глубина энкодера
4 (значение по умолчанию) | положительное целое число

`NumOutputChannels` — Количество выходных каналов
64 (значение по умолчанию) | положительное целое число

`NumFirstEncoderFilters` — Количество выхода образовывает канал для первого энкодера
32 (значения по умолчанию) | положительное целое число

`ConvolutionPadding` — Тип дополнения
`'same'` (значение по умолчанию) | `'valid'`

Выходные аргументы

`lgraph` — Слои
`layerGraph` объект

`outputSize` — Сетевой размер выходного изображения
трехэлементный вектор

Больше о

Архитектура U-Net

Советы

Вопросы совместимости

`NumOutputChannels` аргумент в `unetLayers` переименован в `NumFirstEncoderFilters`

Ссылки

Расширенные возможности

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Смотрите также

Объекты

Функции

Темы

Документация Computer Vision Toolbox

Поддержка

Документация

unetLayers

Синтаксис

Описание

Примеры

Создайте сеть U-Net с пользовательской глубиной декодера энкодера

Обучите сеть U-Net для Семантической Сегментации

Входные параметры

imageSize — Сетевой входной размер изображения Вектор с 2 элементами | вектор с 3 элементами

numClasses — Количество классов целое число, больше, чем 1

Аргументы name-value

EncoderDepth — Глубина энкодера4 (значение по умолчанию) | положительное целое число

NumOutputChannels — Количество выходных каналов64 (значение по умолчанию) | положительное целое число

NumFirstEncoderFilters — Количество выхода образовывает канал для первого энкодера 32 (значения по умолчанию) | положительное целое число

ConvolutionPadding — Тип дополнения 'same' (значение по умолчанию) | 'valid'

Выходные аргументы

lgraph — Слои layerGraph объект

outputSize — Сетевой размер выходного изображения трехэлементный вектор

Больше о

Архитектура U-Net

Советы

Вопросы совместимости

NumOutputChannels аргумент в unetLayers переименован в NumFirstEncoderFilters

Ссылки

Расширенные возможности

Генерация кода графического процессора Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Смотрите также

Объекты

Функции

Темы

Документация Computer Vision Toolbox

Поддержка

`imageSize` — Сетевой входной размер изображения
Вектор с 2 элементами | вектор с 3 элементами

`numClasses` — Количество классов
целое число, больше, чем 1

`EncoderDepth` — Глубина энкодера
4 (значение по умолчанию) | положительное целое число

`NumOutputChannels` — Количество выходных каналов
64 (значение по умолчанию) | положительное целое число

`NumFirstEncoderFilters` — Количество выхода образовывает канал для первого энкодера
32 (значения по умолчанию) | положительное целое число

`ConvolutionPadding` — Тип дополнения
`'same'` (значение по умолчанию) | `'valid'`

`lgraph` — Слои
`layerGraph` объект

`outputSize` — Сетевой размер выходного изображения
трехэлементный вектор

`NumOutputChannels` аргумент в `unetLayers` переименован в `NumFirstEncoderFilters`

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.