exponenta event banner

Начало работы с YOLO v3

Детектор объектов YOLO v3 - это многомасштабная сеть обнаружения объектов, которая использует сеть извлечения признаков и несколько головок обнаружения для прогнозирования в нескольких масштабах.

Модель обнаружения объектов YOLO v3 запускает сверточную нейронную сеть глубокого обучения (CNN) на входном изображении для получения сетевых прогнозов из нескольких карт признаков. Детектор объектов собирает и декодирует предсказания, чтобы сформировать ограничивающие рамки.

Прогнозирование объектов на изображении

YOLO v3 использует поля привязки для обнаружения классов объектов в изображении. Дополнительные сведения см. в разделе Ящики привязки для обнаружения объектов. В YOLO v3 для каждого ящика привязки предсказываются следующие три атрибута:

  • Пересечение через объединение (IoU) - предсказывает показатель объективности каждого якорного ящика.

  • Смещения анкерного ящика - уточнение положения анкерного ящика

  • Вероятность класса - предсказывает метку класса, назначенную каждому ящику привязки.

На рисунке показаны предварительно определенные рамки привязки (пунктирные линии) в каждом расположении на карте элементов и уточненное расположение после применения смещений. Соответствующие поля с классом имеют цвет.

Проектирование сети обнаружения YOLO v3

Чтобы создать сеть обнаружения объектов YOLO v3, выполните следующие действия.

  1. Запустите модель с помощью сети извлечения элементов. Сеть извлечения элементов служит базовой сетью для создания сети глубокого обучения YOLO v3. Базовой сетью может быть предварительно обученный или необученный CNN. Если базовая сеть является предварительно обученной сетью, можно выполнить обучение передаче.

  2. Создание подсетей обнаружения с использованием слоев свертки, пакетной нормализации и ReLu. Добавьте подсети обнаружения к любому из уровней в базовой сети. Выходные уровни, которые соединяются в качестве входов с подсетями обнаружения, являются источником сети обнаружения. В качестве источника сети обнаружения может использоваться любой уровень из сети извлечения элементов. Чтобы использовать многомасштабные элементы для обнаружения объектов, выберите карты элементов различных размеров.

Чтобы вручную создать сеть глубокого обучения YOLO v3, используйте приложение Deep Network Designer (Deep Learning Toolbox). Чтобы программно создать сеть глубокого обучения YOLO v3, используйте yolov3ObjectDetector объект.

Передача обучения

Для выполнения трансферного обучения можно использовать предварительно обученную сеть глубокого обучения в качестве базовой сети для сети глубокого обучения YOLO v3. Настройте глубокое обучение YOLO v3 для обучения новому набору данных, указав поля привязки и новые классы объектов. Используйте yolov3ObjectDetector объект для создания сети обнаружения YOLO v3 из любого предварительно обученного CNN, как SqueezeNet и выполнять обучение трансферу. Список предварительно обученных CNN см. в разделе Предварительно обученные нейронные сети (Deep Learning Toolbox).

Обучение детектора объектов и обнаружение объектов с помощью модели YOLO v3

Сведения о том, как создать пользовательский детектор объектов YOLO v3 с использованием сети глубокого обучения в качестве базовой сети и обучить обнаружению объектов, см. в примере «Обнаружение объектов с помощью глубокого обучения YOLO v3».

Маркировка данных обучения для глубокого обучения

Приложения Image Labeler, Video Labeler или Ground Truth Labeler (Automated Driving Toolbox) можно использовать для интерактивной маркировки пикселей и экспорта данных меток для обучения. Приложения могут также использоваться для маркировки представляющих интерес прямоугольных областей (ROI) для обнаружения объектов, меток сцен для классификации изображений и пикселей для семантической сегментации. Для создания обучающих данных из любого из экспортированных маркировщиками основных объектов истинности можно использовать objectDetectorTrainingData или pixelLabelTrainingData функции. Дополнительные сведения см. в разделе Обучающие данные для обнаружения объектов и семантической сегментации.

Ссылки

[1] Редмон, Джозеф и Али Фархади. «YOLO9000: лучше, быстрее, сильнее». В 2017 году Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR), 6517-25. Гонолулу, HI: IEEE, 2017. https://doi.org/10.1109/CVPR.2017.690.

[2] Редмон, Джозеф, Сантош Диввала, Росс Гиршик и Али Фархади. «Вы смотрите только один раз: унифицированное обнаружение объектов в реальном времени». Материалы Конференции IEEE по компьютерному зрению и распознаванию образов (CVPR), 779-788. Лас-Вегас, NV: CVPR, 2016.

См. также

Приложения

Объекты

Функции

Связанные примеры

Подробнее