Обнаружение объекта с использованием нейронных сетей глубокого обучения может обеспечить быстрое и точное средство для прогнозирования местоположения и размера объекта на изображении. В идеале сеть возвращает действительные объекты своевременно, независимо от масштаба объектов. Использование анкерных коробок повышает скорость и эффективность детектирующей части нейронной сети глубокого обучения.
Поля привязки представляют собой набор предопределенных ограничивающих рамок определенной высоты и ширины. Эти поля определяются для фиксации масштаба и соотношения сторон определенных классов объектов, которые требуется обнаружить, и обычно выбираются на основе размеров объектов в обучающих наборах данных. Во время обнаружения предопределенные поля привязки замощаются по изображению. Сеть прогнозирует вероятность и другие атрибуты, такие как фон, пересечение через объединение (IoU) и смещения для каждого узлового ящика. Прогнозы используются для уточнения каждого отдельного якорного ящика. Можно определить несколько полей привязки, каждый для разных размеров объекта. Анкерные ящики представляют собой фиксированные начальные граничные прямоугольники.
Сеть не предсказывает непосредственно ограничивающие рамки, а скорее предсказывает вероятности и уточнения, которые соответствуют мозаичным ящикам привязки. Сеть возвращает уникальный набор прогнозов для каждого определенного поля привязки. Окончательная карта элементов представляет обнаружение объектов для каждого класса. Использование полей привязки позволяет сети обнаруживать несколько объектов, объектов разного масштаба и перекрывающихся объектов.

При использовании полей привязки можно вычислить все предсказания объектов одновременно. Якорные ящики устраняют необходимость сканирования изображения с помощью скользящего окна, которое вычисляет отдельный прогноз в каждой потенциальной позиции. Примерами детекторов, использующих скользящее окно, являются детекторы, основанные на агрегированных характеристиках канала (ACF) или гистограмме характеристик градиентов (HOG). Детектор объектов, использующий ящики привязки, может обрабатывать все изображение одновременно, что делает возможными системы обнаружения объектов в реальном времени.

Поскольку сверточная нейронная сеть (CNN) может обрабатывать входное изображение сверточным образом, пространственное местоположение на входе может быть связано с пространственным местоположением на выходе. Это сверточное соответствие означает, что CNN может извлекать признаки изображения для всего изображения одновременно. Затем извлеченные элементы могут быть обратно связаны с их местоположением в этом изображении. Использование анкерных коробок заменяет и резко снижает стоимость скользящего оконного подхода для извлечения элементов из изображения. С помощью полей привязки можно проектировать эффективные детекторы объектов глубокого обучения, охватывающие все три этапа (обнаружение, кодирование признаков и классификация) детектора объектов на основе скользящего окна.
Положение якорного ящика определяется отображением местоположения сетевого выхода обратно на входное изображение. Процесс реплицируется для каждого сетевого выхода. В результате создается набор мозаичных полей привязки по всему изображению. Каждое поле привязки представляет конкретный прогноз класса. Например, на приведенном ниже изображении имеется два поля привязки для двух прогнозов на каждое местоположение.

Каждый якорный ящик замощен по изображению. Количество сетевых выходов равно количеству мозаичных полей привязки. Сеть производит прогнозы для всех выходов.
Расстояние или шаг между замощенными ящиками привязки является функцией величины понижающей дискретизации, присутствующей в CNN. Коэффициенты понижающей дискретизации от 4 до 16 являются общими. Эти факторы понижающей дискретизации создают ящики с грубой плиткой, что может привести к ошибкам локализации.

Чтобы исправить ошибки локализации, детекторы объектов глубокого обучения изучают смещения, чтобы применить к каждой мозаичной якорной коробке уточнение положения и размера якорной коробки.

Понижающая дискретизация может быть уменьшена путем удаления понижающих слоев. Чтобы уменьшить понижающую выборку, опустите "Stride"свойство слоев свертки или максимального пула (например, convolution2dLayer (инструментарий глубокого обучения) и maxPooling2dLayer (инструментарий глубокого обучения).) Можно также выбрать слой извлечения элементов ранее в сети. Слои извлечения элементов из более ранних в сети имеют более высокое пространственное разрешение, но могут извлекать меньше семантической информации по сравнению со слоями, расположенными дальше по сети.
Для создания окончательных обнаружений объектов отсеченные поля привязки, принадлежащие фоновому классу, удаляются, а остальные фильтруются по их шкале достоверности. Якорные ящики с наибольшим показателем достоверности выбираются с использованием nonmaximum suppression (NMS). Для получения дополнительной информации о NMS см. selectStrongestBboxMulticlass функция.

Многомасштабная обработка позволяет сети обнаруживать объекты разного размера. Для достижения многомасштабного обнаружения необходимо указать ящики привязки различного размера, например 64 на 64, 128 на 128 и 256 на 256. Укажите размеры, точно отражающие масштаб и пропорции объектов в данных обучения. Пример оценки размеров см. в разделе Оценка полей привязки из данных обучения.