YAMNet Preprocess

Предварительно обработайте аудио для классификации YAMNet

  • Библиотека:
  • Audio Toolbox / Глубокое обучение

  • YAMNet Preprocess block

Описание

Блок YAMNet Preprocess генерирует mel спектрограммы от аудиовхода, который может питаться предварительно обученную сеть YAMNet или сеть, которая принимает те же входные параметры как YAMNet.

Порты

Входной параметр

развернуть все

Звуковые данные, чтобы классифицировать в виде сигнала с одним каналом (вектор-столбец). Если Sample rate of input signal (Hz) 16e3, нет никаких ограничений на длину входного кадра. Если Sample rate of input signal (Hz) отличается от 16e3, то длина входного кадра должна быть кратной фактору децимации операции передискретизации, которую выполняет блок. Если длина входного кадра не удовлетворяет этому условию, блок выдает сообщение об ошибке с информацией о факторе децимации.

Типы данных: single | double

Вывод

развернуть все

Спектрограммы Мэла сгенерировали от audioIn, возвращенного как 96 64 матрица, где:

  • 96 – Представляет количество систем координат на 10 мс в каждой mel спектрограмме

  • 64 – Представляет количество mel полос, охватывающих от 125 Гц до 7,5 кГц

Перекрытие между последовательным 96 64 mel спектрограммы определяется значением параметра Overlap percentage (%).

Каждый 96 64 матрица представляет одну mel спектрограмму. Для получения дополнительной информации о том, как этот блок генерирует mel спектрограммы, см. Алгоритмы.

Типы данных: single

Параметры

развернуть все

Частота дискретизации входного сигнала в Гц в виде положительной скалярной величины.

Типы данных: single | double

Задайте процент перекрытия между последовательными mel спектрограммами как скаляр в области значений [0 100).

Типы данных: single | double

Характеристики блока

Типы данных

double | single

Прямое сквозное соединение

no

Многомерные сигналы

no

Сигналы переменного размера

no

Обнаружение пересечения нулем

no

Алгоритмы

развернуть все

Блок YAMNet Preprocess генерирует mel спектрограммы от аудиовхода. Эти mel спектрограммы могут питаться предварительно обученную сеть YAMNet или сеть, которая принимает те же входные параметры как YAMNet.

Ссылки

[1] Gemmeke, Джортом Ф., Дэниелом П. В. Эллисом, Диланом Фридменом, не Является Янсен, Уэйд Лоуренс, Р. Ченнинг Мур, Мэнодж Плэкэл и Марвин Риттер. “Аудио Набор: Онтология и Помеченный Человеком Набор данных для Аудио Событий”. 2 017 Международных конференций IEEE по вопросам Акустики, Речи и Обработки сигналов (ICASSP), IEEE, 2017, стр 776–80. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952261.

[2] Херши, Шон, Кисловатый Chaudhuri, Дэниел П. В. Эллис, Джорт Ф. Джеммек, не Является Янсен, Р. Ченнинг Мур, Manoj Plakal, и др. “Архитектуры CNN для Крупномасштабной Аудио Классификации”. 2 017 Международных конференций IEEE по вопросам Акустики, Речи и Обработки сигналов (ICASSP), IEEE, 2017, стр 131–35. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952132.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Приложения

Блоки

Функции

Введенный в R2021b