Обработка аудиоданных с использованием глубокого обучения

Расширение рабочих процессов глубокого обучения с помощью приложений для обработки звука и речи

Применить глубокое обучение к приложениям обработки звука и речи при помощи Deep Learning Toolbox™ совместно с Audio Toolbox™. Для приложений обработки сигналов см. Обработку сигналов с использованием глубокого обучения. Для приложений в беспроводной связи смотрите Беспроводные коммуникации с использованием глубокого обучения.

Приложения

Audio Labeler

Определите и визуализируйте метки основной истины

Функции

`ivectorSystem`	Создайте i-векторную систему
`crepe`	Нейронная сеть CREPE
`crepePreprocess`	Предварительная обработка аудио для нейронной сети для глубокого обучения CREPE
`crepePostprocess`	Постпроцессный выход нейронной сети для глубокого обучения CREPE
`pitchnn`	Оценка тангажа с глубокой нейронной сетью
`openl3`	OpenL3 нейронную сеть
`openl3Preprocess`	Предварительная обработка аудио для OpenL3 редукции данных
`openl3Features`	Извлечение OpenL3 функций
`audioDatastore`	Datastore для набора аудио файлов
`audioDataAugmenter`	Увеличение звуковых данных
`audioFeatureExtractor`	Оптимизация аудио редукции данных
`vggishPreprocess`	Предварительная обработка аудио для редукции данных VGGish
`vggishFeatures`	Извлечение функций VGGish
`vggish`	Нейронная сеть VGGish
`yamnet`	Нейронная сеть YAMNet
`yamnetPreprocess`	Предварительная обработка аудио для классификации YAMNet
`yamnetGraph`	Графиков онтологии YAMNet AudioSet
`classifySound`	Классификация звуков в аудиосигнале

Темы

Введение в глубокое обучение для аудио приложений (Audio Toolbox)

Изучение общих инструментов и рабочих процессов для применения глубокого обучения к аудио приложениям.

Классификация звука с помощью глубокого обучения (Audio Toolbox)

Обучите, проверьте и протестируйте простую долгую краткосрочную память (LSTM) для классификации звуков.

Передача обучения с предварительно обученными аудиосетями (Audio Toolbox)

Используйте передачу обучения для переобучения YAMNet, предварительно обученной сверточной нейронной сети (CNN), чтобы классифицировать новый набор аудиосигналов.

Идентификация динамика с использованием пользовательского слоя SincNet и глубокого обучения (Audio Toolbox)

Выполните распознавание речи с помощью пользовательского слоя глубокого обучения, который реализует mel-масштабную группу фильтров.

Дереверберация речи с использованием Нейронных сетей для глубокого обучения (Audio Toolbox)

Обучите модель глубокого обучения, которая удаляет реверберацию из речи.

Распознавание речевых команд в Simulink (Audio Toolbox)

Обнаружение наличия речевых команд в аудио с помощью Simulink^® модель.

Рекомендуемые примеры

Распознавание динамика с использованием x-векторов

Признание спикера отвечает на вопрос «Кто говорит?». Распознавание динамика обычно делится на две задачи: идентификация динамика и верификация динамика. При идентификации динамика динамик распознается путем сравнения их речи с закрытым набором шаблонов. При верификации динамика динамик распознается путем сравнения вероятности того, что речь принадлежит конкретному динамику, с заранее заданным порогом. Традиционные методы машинного обучения хорошо выполняют эти задачи в идеальных условиях. Для примеров идентификации динамика с помощью традиционных методов машинного обучения смотрите Идентификацию динамика с использованием тангажа и MFCC и Верификацию динамика с использованием i-векторов. Audio Toolbox™ предоставляет ivectorSystem, которая инкапсулирует возможность обучать i-векторную систему, регистрировать динамики или другие аудио метки, оценивать систему для порога принятия решения и идентифицировать или проверить динамики или другие аудио метки.

Диаризация динамика с использованием x-векторов

Диаризация динамика - это процесс разбиения аудиосигнала на сегменты в соответствии с тождествами динамика. В нем дается ответ на вопрос «кто говорил, когда» без предварительного знания ораторов и, в зависимости от заявки, без предварительного знания числа ораторов.

Train Spoken Digit Recognition Network Using Out-of-Memory Audio Data

Обучите сеть распознавания разговорных цифр с помощью Audio Данных

Обучает сеть распознавания разговорных цифр на аудио данных за пределами памяти с помощью преобразованного datastore. В этом примере вы применяете случайный тангаж сдвиг к аудио данных, используемым для обучения сверточной нейронной сети (CNN). Для каждой итерации обучения аудио данных дополняется с помощью объекта audioDataAugmenter, а затем функции извлекаются с помощью объекта audioFeatureExtractor. Рабочий процесс в этом примере применяется к любому случайному увеличению данных, используемому в цикле обучения. Рабочий процесс также применяется, когда базовый набор аудио данных или функции обучения не помещаются в памяти.

Train Spoken Digit Recognition Network Using Out-of-Memory Features

Обучите сеть распознавания разговорных цифр с помощью функций нехватки памяти

Обучает сеть распознавания разговорных цифр на слуховых спектрограммах вне памяти с помощью преобразованного datastore. В этом примере вы извлекаете слуховые спектрограммы из аудио с помощью audioDatastore и audioFeatureExtractor, и записываете их на диск. Затем вы используете signalDatastore для доступа к функциям во время обучения. Рабочий процесс полезен, когда функции обучения не помещаются в памяти. В этом рабочем процессе вы извлекаете функции только один раз, что ускоряет рабочий процесс, если вы итератируетесь по проекту модели глубокого обучения.

Keyword Spotting in Noise Code Generation with Intel MKL-DNN

Определение ключевых слов в генерации кода шума с Intel MKL-DNN

Демонстрирует генерацию кода для определения ключевого слова с помощью сети BiLSTM и редукции данных mel frequency cepstral (MFCC). MATLAB ® Coder™ с поддержкой глубокого обучения позволяет создавать автономный исполняемый файл (.exe). Связь между файлом MATLAB ® (.mlx) и сгенерированным исполняемым файлом происходит по асинхронному протоколу UDP. Входящий речевой сигнал отображается с помощью timescope. Маска отображается в виде синего прямоугольника, окружающего пятнистые образцы ключевого слова YES. Для получения дополнительной информации о редукции данных MFCC и нейронной сети для глубокого обучения обучении, посетите Keyword Spotting in Noise Using MFCC и LSTM Networks.

Keyword Spotting in Noise Code Generation on Raspberry Pi

Ключевое слово Spotting in Noise Code Generation on Raspberry Pi

Демонстрирует генерацию кода для споттинга по ключевым словам, используя сеть BiLSTM и коэффициент mel frequency cepstral (MFCC), редукции данных на Raspberry Pi™. MATLAB ® Coder™ с поддержкой глубокого обучения позволяет создавать автономный исполняемый файл (.elf) на Raspberry Pi. Связь между файлом MATLAB ® (.mlx) и сгенерированным исполняемым файлом происходит по асинхронному протоколу UDP. Входящий речевой сигнал отображается с помощью timescope. Маска отображается в виде синего прямоугольника, окружающего пятнистые образцы ключевого слова YES. Для получения дополнительной информации о редукции данных MFCC и нейронной сети для глубокого обучения обучении, посетите Keyword Spotting in Noise Using MFCC и LSTM Networks.

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите модель глубокого обучения, которая обнаруживает наличие речевых команд в аудио. Пример использует набор данных речевых команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Speech Command Recognition Code Generation with Intel MKL-DNN

Генерация кода распознавания речевых команд с Intel MKL-DNN

Развертывание редукции данных и сверточной нейронной сети (CNN) для распознавания речевых команд на процессорах Intel ®. Чтобы сгенерировать редукцию данных и сетевой код, вы используете MATLAB Coder и библиотеку Intel Math Kernel Library для глубоких нейронных сетей (MKL-DNN). В этом примере сгенерированный код является исполняемой функцией MATLAB (MEX), которая вызывается скриптом MATLAB, который отображает предсказанную речевую команду вместе с сигналом временного интервала и слуховой спектрограммой. Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Открыть Live Script

Speech Command Recognition Code Generation on Raspberry Pi

Генерация кода распознавания команд речи на Raspberry Pi

Развертывание редукции данных и сверточной нейронной сети (CNN) для распознавания речевых команд в Raspberry Pi™. Чтобы сгенерировать редукцию данных и сетевой код, вы используете MATLAB Coder, MATLAB Support Package for Raspberry Pi Hardware и ARM ® Compute Library. В этом примере сгенерированный код является исполняемым файлом на вашем Raspberry Pi, который вызывается скриптом MATLAB, который отображает предсказанную речевую команду вместе с сигналом и слуховой спектрограммой. Взаимодействие между скриптом MATLAB и исполняемым файлом на вашем Raspberry Pi обрабатывается с помощью протокола пользовательской дейтаграммы (UDP). Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Открыть Live Script

Cocktail Party Source Separation Using Deep Learning Networks

Разделение источников коктейлей с использованием Нейронных сетей для глубокого обучения

Изолируйте речевой сигнал с помощью нейронной сети для глубокого обучения.

Открыть Live Script

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевого слова в шуме с использованием сетей MFCC и LSTM

Идентифицируйте ключевое слово в шумной речи с помощью нейронной сети для глубокого обучения. В частности, в примере используются двунаправленная сеть долгой краткосрочной памяти (BiLSTM) и мел-частотные кепстральные коэффициенты (MFCC).

Открыть Live Script

Denoise Speech Using Deep Learning Networks

Денуазируйте речь, используя Нейронные сети для глубокого обучения

Денуазируйте речевые сигналы, используя нейронные сети для глубокого обучения. В примере сравниваются два типа сетей, применяемых к одной и той же задаче: полносвязные и сверточные.

Открыть Live Script

Train Generative Adversarial Network (GAN) for Sound Synthesis

Обучите генеративную состязательную сеть (GAN) для синтеза звука

Обучите и используйте генеративную состязательную сеть (GAN), чтобы генерировать звуки.

Открыть скрипт

Voice Activity Detection in Noise Using Deep Learning

Обнаружение голосовой активности в шуме с помощью глубокого обучения

Обнаружение областей речи в среде низкий сигнал-шум с помощью глубокого обучения. Пример использует набор данных речевых команд, чтобы обучить двунаправленную сеть долгой краткосрочной памяти (BiLSTM) для обнаружения голосовой активности.

Открыть Live Script

Классификация полов с помощью сетей GRU

Классифицируйте пол диктора с помощью глубокого обучения. В примере используются сеть Gated Recurrent Модуля (GRU) и коэффициенты Гамматона Cepstral (gtcc), тангаж, гармоническое отношение и несколько спектральных дескрипторов формы.

Открыть Live Script

Spoken Digit Recognition with Wavelet Scattering and Deep Learning

Распознавание разговорных цифр с вейвлет и глубоким обучением

Классифицируйте разговорные цифры с помощью как машинного, так и глубокого метода обучения. В примере вы выполняете классификацию, используя рассеяние вейвлета времени с помощью машины опорных векторов (SVM) и с помощью сети долгой краткосрочной памяти (LSTM). Вы также применяете байесовскую оптимизацию, чтобы определить подходящие гиперпараметры, чтобы улучшить точность сети LSTM. Кроме сложения, пример иллюстрирует подход, использующий глубокую сверточную нейронную сеть (CNN) и мел-частотные спектрограммы.

Открыть Live Script

Sequential Feature Selection for Audio Features

Последовательный выбор признаков для аудио функций

Типичный рабочий процесс выбора признаков, примененный к задаче распознавания разговорных цифр.

Открыть Live Script

Распознавание эмоций речи

Иллюстрирует простую систему распознавания эмоций (SER) речи, использующую сеть BiLSTM. Вы начинаете с загрузки набора данных и затем тестирования обученной сети на отдельных файлах. Сеть обучалась на небольшой базе данных на немецком языке [1].

Открыть Live Script

Acoustic Scene Recognition Using Late Fusion

Распознавание акустической сцены с использованием позднего слияния

Создайте мультимодельную систему позднего слияния для распознавания акустической сцены. Пример обучает сверточную нейронную сеть (CNN), используя mel spectrogram и ансамблевый классификатор, использующий вейвлет. Пример использует набор данных TUT для обучения и оценки [1].

Открыть скрипт

Документация по Deep Learning Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.