YAMNet Preprocess

Предварительно обработайте аудио для классификации YAMNet

Библиотека:
Audio Toolbox / Глубокое обучение

Описание

Блок YAMNet Preprocess генерирует mel спектрограммы от аудиовхода, который может питаться предварительно обученную сеть YAMNet или сеть, которая принимает те же входные параметры как YAMNet.

Порты

Входной параметр

развернуть все

`audioIn` — Звуковые данные
вектор-столбец

Звуковые данные, чтобы классифицировать в виде сигнала с одним каналом (вектор-столбец). Если Sample rate of input signal (Hz) 16e3, нет никаких ограничений на длину входного кадра. Если Sample rate of input signal (Hz) отличается от 16e3, то длина входного кадра должна быть кратной фактору децимации операции передискретизации, которую выполняет блок. Если длина входного кадра не удовлетворяет этому условию, блок выдает сообщение об ошибке с информацией о факторе децимации.

Типы данных: single | double

Вывод

развернуть все

`features` — Спектрограммы Мэла, которые могут питаться предварительно обученную сеть YAMNet
96 64 матрица

Спектрограммы Мэла сгенерировали от audioIn, возвращенного как 96 64 матрица, где:

96 – Представляет количество систем координат на 10 мс в каждой mel спектрограмме
64 – Представляет количество mel полос, охватывающих от 125 Гц до 7,5 кГц

Перекрытие между последовательным 96 64 mel спектрограммы определяется значением параметра Overlap percentage (%).

Каждый 96 64 матрица представляет одну mel спектрограмму. Для получения дополнительной информации о том, как этот блок генерирует mel спектрограммы, см. Алгоритмы.

Типы данных: single

Параметры

развернуть все

`Sample rate of input signal (Hz)` — Частота дискретизации входного сигнала в Гц
`16e3` (значение по умолчанию) | положительная скалярная величина

Частота дискретизации входного сигнала в Гц в виде положительной скалярной величины.

Типы данных: single | double

`Overlap percentage (%)` — Перекройте процент между последовательными mel спектрограммами
50 (значение по умолчанию) | [0 100)

Задайте процент перекрытия между последовательными mel спектрограммами как скаляр в области значений [0 100).

Типы данных: single | double

Примеры модели

Compare Sound Classifier block with Equivalent YAMNet blocks

Сравните блок Sound Classifier с Эквивалентными блоками YAMNet

Покажите, что блок Sound Classifier эквивалентен каскаду блока YAMNet Preprocess и блока YAMNet.

Detect Air Compressor Sounds in Simulink Using YAMNet

Обнаружьте воздушные звуки компрессора в Simulink Используя YAMNet

Используйте предварительно обученную сеть в Simulink^® это сгенерировано с помощью передачи обучения.

Характеристики блока

Типы данных	`double` \| `single`
Прямое сквозное соединение	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулем	`no`

Алгоритмы

развернуть все

Блок YAMNet Preprocess генерирует mel спектрограммы от аудиовхода. Эти mel спектрограммы могут питаться предварительно обученную сеть YAMNet или сеть, которая принимает те же входные параметры как YAMNet.

Предварительная обработка шагов

Бросьте audioIn на сингл и передискретизируйте к 16 кГц.
Вычислите одностороннее кратковременное преобразование Фурье с помощью периодического окна Hann на 25 мс (400 выборок) с транзитным участком на 10 мс (160 выборок) и ДПФ с 512 точками.
Преобразуйте комплексные спектральные значения в величину и отбросьте информацию о фазе.
Передайте одностороннюю величину STFTs через mel-расположенный-с-интервалами набор фильтров с 64 полосами. Выполнение так преобразует векторы STFT с 257 длинами в векторы с 64 длинами в шкале mel.
Преобразуйте векторы с 64 длинами в логарифмическую шкалу.
Буферизуйте векторы в выходные параметры размера 96 64, где 96 количество спектров в mel спектрограмме, и 64 количество mel полос. Перекрытие между последовательным 96 64 mel спектрограммы определяется значением параметра Overlap percentage (%).

Ссылки

[1] Gemmeke, Джортом Ф., Дэниелом П. В. Эллисом, Диланом Фридменом, не Является Янсен, Уэйд Лоуренс, Р. Ченнинг Мур, Мэнодж Плэкэл и Марвин Риттер. “Аудио Набор: Онтология и Помеченный Человеком Набор данных для Аудио Событий”. 2 017 Международных конференций IEEE по вопросам Акустики, Речи и Обработки сигналов (ICASSP), IEEE, 2017, стр 776–80. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952261.

[2] Херши, Шон, Кисловатый Chaudhuri, Дэниел П. В. Эллис, Джорт Ф. Джеммек, не Является Янсен, Р. Ченнинг Мур, Manoj Plakal, и др. “Архитектуры CNN для Крупномасштабной Аудио Классификации”. 2 017 Международных конференций IEEE по вопросам Акустики, Речи и Обработки сигналов (ICASSP), IEEE, 2017, стр 131–35. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952132.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Введенный в R2021b

Документация Audio Toolbox

Поддержка

Сообщество Экспонента

Документация

YAMNet Preprocess

Описание

Порты

Входной параметр

audioIn — Звуковые данные вектор-столбец

Вывод

features — Спектрограммы Мэла, которые могут питаться предварительно обученную сеть YAMNet 96 64 матрица

Параметры

Sample rate of input signal (Hz) — Частота дискретизации входного сигнала в Гц 16e3 (значение по умолчанию) | положительная скалярная величина

Overlap percentage (%) — Перекройте процент между последовательными mel спектрограммами50 (значение по умолчанию) | [0 100)

Примеры модели

Сравните блок Sound Classifier с Эквивалентными блоками YAMNet

Обнаружьте воздушные звуки компрессора в Simulink Используя YAMNet

Характеристики блока

Алгоритмы

Предварительная обработка шагов

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Приложения

Блоки

Функции

Документация Audio Toolbox

Поддержка

`audioIn` — Звуковые данные
вектор-столбец

`features` — Спектрограммы Мэла, которые могут питаться предварительно обученную сеть YAMNet
96 64 матрица

`Sample rate of input signal (Hz)` — Частота дискретизации входного сигнала в Гц
`16e3` (значение по умолчанию) | положительная скалярная величина

`Overlap percentage (%)` — Перекройте процент между последовательными mel спектрограммами
50 (значение по умолчанию) | [0 100)

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.