Sound Classifier

Классифицируйте звуки на звуковой сигнал

Библиотека:
Audio Toolbox / Глубокое обучение

Описание

Блок Sound Classifier использует YAMNet, чтобы классифицировать аудио сегменты в звуковые классы, описанные онтологией AudioSet. Блок Sound Classifier комбинирует необходимую аудио предварительную обработку и вывод сети YAMNet. Блок возвращает предсказанные звуковые метки, предсказанные баллы от звуков и метки класса для предсказанных баллов.

Порты

Входной параметр

развернуть все

`audioIn` — Звуковые данные
вектор-столбец

Звуковые данные, чтобы классифицировать в виде сигнала с одним каналом (вектор-столбец). Если Sample rate of input signal (Hz) 16e3, нет никаких ограничений на длину входного кадра. Если Sample rate of input signal (Hz) отличается от 16e3, то длина входного кадра должна быть кратной фактору децимации операции передискретизации, которую выполняет блок. Если длина входного кадра не удовлетворяет этому условию, блок выдает сообщение об ошибке с информацией о факторе децимации.

Типы данных: single | double

Вывод

развернуть все

`sound` — Предсказанная звуковая метка
перечислимый скаляр

Предсказанная звуковая метка, возвращенная как перечислимый скаляр.

Типы данных: enumerated

`scores` — Предсказанные активации или баллы
вектор

Предсказанная активация или значения баллов для каждой поддерживаемой звуковой метки, возвращенной как 1 521 вектор, где 521 количество классов в YAMNet.

Типы данных: single

`labels` — Класс помечает для предсказанных баллов
вектор

Класс помечает для предсказанных баллов, возвращенных как 1 521 вектор.

Типы данных: enumerated

Параметры

развернуть все

`Sample rate of input signal (Hz)` — Частота дискретизации входного сигнала в Гц
`16e3` (значение по умолчанию) | положительная скалярная величина

Задайте частоту дискретизации входного сигнала как положительная скалярная величина в Гц. Если частота дискретизации отличается от 16e3, то блок передискретизирует сигнал к 16e3, который является частотой дискретизации это поддержки YAMNet.

Типы данных: single | double

`Overlap percentage (%)` — Перекройте процент между последовательными mel спектрограммами
50 (значение по умолчанию) | [0 100)

Задайте процент перекрытия между последовательными mel спектрограммами как скаляр в области значений [0 100).

Типы данных: single | double

`Classification` — Выберите, чтобы вывести звуковую классификацию
`on` (значение по умолчанию) | `off`

Включите выходному порту sound, который выводит классифицированный звук.

`Predictions` — Выведите все баллы и сопоставленные метки
`off` (значение по умолчанию) | `on`

Включите выходным портам scores и labels, которые выводят все предсказанные баллы и сопоставленные метки класса.

Примеры модели

Обнаружьте музыку в Simulink Используя YAMNet

Обнаружьте музыку с помощью блока Sound Classifier в Simulink^®.

Compare Sound Classifier block with Equivalent YAMNet blocks

Сравните блок Sound Classifier с Эквивалентными блоками YAMNet

Покажите, что блок Sound Classifier эквивалентен каскаду блока YAMNet Preprocess и блока YAMNet.

Характеристики блока

Типы данных	`double` \| `single`
Прямое сквозное соединение	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулем	`no`

Алгоритмы

развернуть все

Алгоритм блока Sound Classifier состоит из двух шагов:

Предварительная обработка – YAMNet определенная предварительная обработка. Генерирует mel спектрограммы.
Предсказание – Предсказание звуков, баллов и меток входного сигнала с помощью YAMNet звучит как сеть классификации.

Предварительная обработка

Бросьте audioIn на сингл и передискретизируйте к 16 кГц.
Вычислите одностороннее кратковременное преобразование Фурье (STFT) с помощью периодического окна Hann на 25 мс (400 выборок) с транзитным участком на 10 мс (160 выборок) и ДПФ с 512 точками.
Преобразуйте комплексные спектральные значения в величину и отбросьте информацию о фазе.
Передайте одностороннюю величину STFTs через mel-расположенный-с-интервалами набор фильтров с 64 полосами. Выполнение так преобразует векторы STFT с 257 длинами в векторы с 64 длинами в шкале mel.
Преобразуйте векторы с 64 длинами в логарифмическую шкалу.
Буферизуйте векторы в выходные параметры размера 96 64, где 96 количество систем координат на 10 мс в каждой mel спектрограмме, и 64 количество mel полос. Перекрытие между последовательным 96 64 mel спектрограммы определяется значением параметра Overlap percentage (%).

Предсказание

Они 96 64 спектрограммы передаются блоку YAMNet. Блок YAMNet имеет максимум трех выходных параметров:

звук: метка наиболее вероятного звука. Вы получаете один "звук" для каждого 96 64 вход спектрограммы.
scores: 1 512 векторы, со значением баллов для каждой поддерживаемой звуковой метки.
labels: 1 521 векторы, содержащие звуковые метки.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Указания и ограничения по применению:

Параметр Language в Configuration Parameters> Code Generation общая категория должен быть установлен на C++.
Для основанных на ERT целей параметра Support: variable-size signals в Code Generation> должна быть включена панель Interface.
Для списка сетей и слоев, поддержанных для генерации кода, смотрите Сети и Слои, Поддержанные для Генерации кода (MATLAB Coder).

Смотрите также

Введенный в R2021b

Документация

Sound Classifier

Описание

Порты

Входной параметр

`audioIn` — Звуковые данные
вектор-столбец

Вывод

`sound` — Предсказанная звуковая метка
перечислимый скаляр

`scores` — Предсказанные активации или баллы
вектор

`labels` — Класс помечает для предсказанных баллов
вектор

Параметры

`Sample rate of input signal (Hz)` — Частота дискретизации входного сигнала в Гц
`16e3` (значение по умолчанию) | положительная скалярная величина

`Overlap percentage (%)` — Перекройте процент между последовательными mel спектрограммами
50 (значение по умолчанию) | [0 100)

`Classification` — Выберите, чтобы вывести звуковую классификацию
`on` (значение по умолчанию) | `off`

`Predictions` — Выведите все баллы и сопоставленные метки
`off` (значение по умолчанию) | `on`

Примеры модели

Обнаружьте музыку в Simulink Используя YAMNet

Сравните блок Sound Classifier с Эквивалентными блоками YAMNet

Характеристики блока

Алгоритмы

Предварительная обработка

Предсказание

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Приложения

Блоки

Функции

Документация Audio Toolbox

Поддержка

Документация

Sound Classifier

Описание

Порты

Входной параметр

audioIn — Звуковые данные вектор-столбец

Вывод

sound — Предсказанная звуковая метка перечислимый скаляр

scores — Предсказанные активации или баллы вектор

labels — Класс помечает для предсказанных баллов вектор

Параметры

Sample rate of input signal (Hz) — Частота дискретизации входного сигнала в Гц 16e3 (значение по умолчанию) | положительная скалярная величина

Overlap percentage (%) — Перекройте процент между последовательными mel спектрограммами50 (значение по умолчанию) | [0 100)

Classification — Выберите, чтобы вывести звуковую классификацию on (значение по умолчанию) | off

Predictions — Выведите все баллы и сопоставленные метки off (значение по умолчанию) | on

Примеры модели

Обнаружьте музыку в Simulink Используя YAMNet

Сравните блок Sound Classifier с Эквивалентными блоками YAMNet

Характеристики блока

Алгоритмы

Предварительная обработка

Предсказание

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Приложения

Блоки

Функции

Документация Audio Toolbox

Поддержка

`audioIn` — Звуковые данные
вектор-столбец

`sound` — Предсказанная звуковая метка
перечислимый скаляр

`scores` — Предсказанные активации или баллы
вектор

`labels` — Класс помечает для предсказанных баллов
вектор

`Sample rate of input signal (Hz)` — Частота дискретизации входного сигнала в Гц
`16e3` (значение по умолчанию) | положительная скалярная величина

`Overlap percentage (%)` — Перекройте процент между последовательными mel спектрограммами
50 (значение по умолчанию) | [0 100)

`Classification` — Выберите, чтобы вывести звуковую классификацию
`on` (значение по умолчанию) | `off`

`Predictions` — Выведите все баллы и сопоставленные метки
`off` (значение по умолчанию) | `on`

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.