YAMNet

YAMNet звучат как сеть классификации

  • Библиотека:
  • Audio Toolbox / Глубокое обучение

Описание

Блок YAMNet усиливает предварительно обученную звуковую сеть классификации, которая обучена на наборе данных AudioSet, чтобы предсказать аудио события от онтологии AudioSet.

Порты

Входной параметр

развернуть все

Спектрограммы Мэла в виде 96 64 матрицы или 96 64 1 N массивом, где:

  • 96 – Представляет количество систем координат на 10 мс в каждой mel спектрограмме

  • 64 – Представляет количество mel полос, охватывающих от 125 Гц до 7,5 кГц

  • N Количество каналов.

Можно использовать блок YAMNet Preprocess, чтобы сгенерировать mel спектрограммы. Размерности этих спектрограмм 96 64.

Типы данных: single

Вывод

развернуть все

Предсказанная звуковая метка, возвращенная как перечислимый скаляр.

Типы данных: enumerated

Предсказанная активация или значения баллов для каждой поддерживаемой звуковой метки, возвращенной как 1 521 вектор, где 521 количество классов в YAMNet.

Типы данных: single

Класс помечает для предсказанных баллов, возвращенных как 1 521 вектор.

Типы данных: enumerated

Параметры

развернуть все

Размер мини-пакетов, чтобы использовать для предсказания в виде положительного целого числа. Большие мини-пакетные размеры требуют большей памяти, но могут привести к более быстрым предсказаниям.

Типы данных: int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

Включите выходному порту sound, который выводит классифицированный звук.

Включите выходным портам scores и labels, которые выводят все предсказанные баллы и сопоставленные метки класса.

Характеристики блока

Типы данных

double | single

Прямое сквозное соединение

no

Многомерные сигналы

no

Сигналы переменного размера

no

Обнаружение пересечения нулем

no

Алгоритмы

развернуть все

Ссылки

[1] Gemmeke, Джортом Ф., Дэниелом П. В. Эллисом, Диланом Фридменом, не Является Янсен, Уэйд Лоуренс, Р. Ченнинг Мур, Мэнодж Плэкэл и Марвин Риттер. “Аудио Набор: Онтология и Помеченный Человеком Набор данных для Аудио Событий”. 2 017 Международных конференций IEEE по вопросам Акустики, Речи и Обработки сигналов (ICASSP), IEEE, 2017, стр 776–80. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952261.

[2] Херши, Шон, Кисловатый Chaudhuri, Дэниел П. В. Эллис, Джорт Ф. Джеммек, не Является Янсен, Р. Ченнинг Мур, Manoj Plakal, и др. “Архитектуры CNN для Крупномасштабной Аудио Классификации”. 2 017 Международных конференций IEEE по вопросам Акустики, Речи и Обработки сигналов (ICASSP), IEEE, 2017, стр 131–35. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952132.

Расширенные возможности

Смотрите также

Приложения

Блоки

Функции

Введенный в R2021b