Обработка аудиоданных с использованием глубокого обучения

Расширьте рабочие процессы глубокого обучения с речевыми приложениями обработки и аудио

Примените глубокое обучение к аудио и речевым приложениям обработки при помощи Deep Learning Toolbox™ вместе с Audio Toolbox™.

Приложения

Audio Labeler

Задайте и визуализируйте метки основной истины

Функции

`audioDatastore`	Datastore для набора звуковых файлов
`audioDataAugmenter`	Увеличьте аудиоданные
`audioFeatureExtractor`	Оптимальная экстракция функции аудио
`vggishFeatures`	Извлеките функции VGGish
`vggish`	Нейронная сеть VGGish
`yamnet`	Нейронная сеть YAMNet
`yamnetGraph`	График онтологии YAMNet AudioSet
`classifySound`	Классифицируйте звуки на звуковой сигнал

Темы

Введение в глубокое обучение для аудиоприложений (Audio Toolbox)

Изучите общие инструменты и рабочие процессы, чтобы применить глубокое обучение к аудиоприложениям.

Классифицируйте звук Используя глубокое обучение (Audio Toolbox)

Обучите, подтвердите и протестируйте простую долгую краткосрочную память (LSTM), чтобы классифицировать звуки.

Передача обучения с предварительно обученными аудио сетями (Audio Toolbox)

Используйте передачу обучения, чтобы переобучить YAMNet, предварительно обученную сверточную нейронную сеть (CNN), чтобы классифицировать новый набор звуковых сигналов.

Рекомендуемые примеры

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите модель глубокого обучения, которая обнаруживает присутствие речевых команд в аудио. Пример использует Речевой Набор данных Команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Speech Command Recognition Code Generation with Intel MKL-DNN

Речевая генерация кода распознавания команды с Intel MKL-DNN

Разверните извлечение признаков и сверточную нейронную сеть (CNN) для речевого распознавания команды на процессорах Intel®. Чтобы сгенерировать извлечение признаков и сетевой код, вы используете MATLAB Coder и Math Kernel Library Intel для Глубоких нейронных сетей (MKL-DNN). В этом примере сгенерированный код является исполняемым файлом MATLAB (MEX) функция, которая вызвана скриптом MATLAB, который отображает предсказанную речевую команду наряду с сигналом области времени и слуховой спектрограммой. Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Скрипт Open Live Script

Speech Command Recognition Code Generation on Raspberry Pi

Речевая генерация кода распознавания команды на Raspberry Pi

Разверните извлечение признаков и сверточную нейронную сеть (CNN) для речевого распознавания команды к Raspberry Pi™. Чтобы сгенерировать извлечение признаков и сетевой код, вы используете MATLAB Coder, Пакет Поддержки MATLAB для Оборудования Raspberry Pi и Библиотеку ARM® Compute. В этом примере сгенерированный код является исполняемым файлом на вашем Raspberry Pi, который вызван скриптом MATLAB, который отображает предсказанную речевую команду наряду с и слуховой спектрограммой сигнала. Взаимодействие между скриптом MATLAB и исполняемым файлом на вашем Raspberry Pi обработано с помощью пользовательского дейтаграммного протокола (UDP). Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Скрипт Open Live Script

Cocktail Party Source Separation Using Deep Learning Networks

Исходное разделение приема Используя нейронные сети для глубокого обучения

Изолируйте речевой сигнал использование нейронной сети для глубокого обучения.

Скрипт Open Live Script

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевого слова в шуме Используя MFCC и сети LSTM

Идентифицируйте ключевое слово в шумной речи с помощью нейронной сети для глубокого обучения. В частности, пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и частоту mel cepstral коэффициенты (MFCC).

Скрипт Open Live Script

Denoise Speech Using Deep Learning Networks

Речь Denoise Используя нейронные сети для глубокого обучения

Речевые сигналы Denoise с помощью нейронных сетей для глубокого обучения. Пример выдерживает сравнение, два типа сетей применились к той же задаче: полностью соединенный и сверточный.

Скрипт Open Live Script

Train Generative Adversarial Network (GAN) for Sound Synthesis

Обучите Порождающую соперничающую сеть (GAN) синтезу звука

Обучите и используйте порождающую соперничающую сеть (GAN), чтобы сгенерировать звуки.

Открыть скрипт

Voice Activity Detection in Noise Using Deep Learning

Речевое обнаружение действия в шуме Используя глубокое обучение

Обнаружьте области речи в низкой среде сигнала к шуму с помощью глубокого обучения. Пример использует Речевой Набор данных Команд, чтобы обучить сеть Bidirectional Long Short-Term Memory (BiLSTM) обнаруживать речевое действие.

Скрипт Open Live Script

Классифицируйте пол Используя сети LSTM

Классифицируйте пол докладчика, использующего глубокое обучение. Пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и Коэффициенты Gammatone Cepstral (gtcc), подачу, гармоническое отношение и несколько спектральных дескрипторов формы.

Скрипт Open Live Script

Spoken Digit Recognition with Wavelet Scattering and Deep Learning

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

Классифицируйте разговорные цифры с помощью обоих методов машинного и глубокого обучения. В примере вы выполняете классификацию с помощью времени вейвлета, рассеиваясь с машиной опорных векторов (SVM) и с сетью долгой краткосрочной памяти (LSTM). Вы также применяете Байесовую оптимизацию, чтобы определить подходящие гиперпараметры, чтобы улучшить точность сети LSTM. Кроме того, пример иллюстрирует подход с помощью глубокой сверточной нейронной сети (CNN) и спектрограмм mel-частоты.

Скрипт Open Live Script

Sequential Feature Selection for Audio Features

Последовательный выбор признаков для функций аудио

Типичный рабочий процесс для выбора признаков применился к задаче разговорного распознавания цифры.

Скрипт Open Live Script

Речевое распознавание эмоции

Иллюстрирует простую систему речевого распознавания эмоции (SER) с помощью сети BiLSTM. Вы начинаете путем загрузки набора данных и затем тестирования обучившего сеть на отдельных файлах. Сеть была обучена на маленькой немецкоязычной базе данных [1].

Скрипт Open Live Script

Acoustic Scene Recognition Using Late Fusion

Акустическое распознавание сцены Используя последний Fusion

Создайте последнюю систему сплава мультимодели для акустического распознавания сцены. Пример обучает сверточную нейронную сеть (CNN) с помощью mel спектрограммы и классификатор ансамбля с помощью рассеивания вейвлета. Пример использует набор данных TUT для обучения и оценки [1].

Открыть скрипт

Документация Deep Learning Toolbox

Поддержка

Сообщество Экспонента

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.