Введение в глубокое обучение для аудио приложений

Разработка аудиоприложений с глубоким обучением обычно включает в себя создание и доступ к наборам данных, предварительную обработку и исследование данных, разработку прогнозирующих моделей и развертывание и совместное использование приложений. MATLAB^® предоставляет тулбоксы для поддержки каждого этапа разработки.

В то время как Audio Toolbox™ поддерживает каждый этап рабочего процесса глубокого обучения, его основными вкладами являются Доступ и Создание Данных и Предварительная Обработка и Исследование Данных.

Доступ и создание данных

Нейронные сети для глубокого обучения работают лучше всего, когда у вас есть доступ к большим наборам обучающих данных. Однако разнообразие аудио-, речевых и акустических сигналов и отсутствие больших хорошо маркированных наборов данных затрудняют доступ к большим наборам обучающих данных. При использовании методов глубокого обучения на аудио файлов может потребоваться разработка новых наборов данных или расширение существующих таковых. Audio Toolbox предоставляет приложение Audio Labeler, которое поможет вам увеличить или создать новые наборы маркированных данных.

Если у вас есть начальный набор данных, можно увеличить его, применив методы увеличения, такие как перемена тангажа, сдвиг времени, регулирование объема и сложение шума. Тип увеличения, которое вы хотите применить, зависит от соответствующих характеристик для вашего аудио, речевого или акустического приложения. Для примера перемены тангажа (или возмущения голосового тракта) и растяжение времени являются типичными методами увеличения для автоматического распознавания речи (ASR). Для ASR дальнего поля увеличение обучающих данных с помощью искусственной реверберации является общим. Audio Toolbox обеспечивает audioDataAugmenter чтобы помочь вам применить увеличения детерминированно или вероятностно.

Обучающие данные, используемые в рабочих процессах глубокого обучения, обычно слишком велики, чтобы помещаться в памяти. Эффективный доступ к данным и выполнение общих задач глубокого обучения (таких как разделение набора данных на train, валидации и тестирования) могут быстро стать неуправляемыми. Audio Toolbox обеспечивает audioDatastore чтобы помочь вам управлять и загружать большие наборы данных.

Предварительная обработка и исследование данных

Предварительная обработка аудио данных включает в себя задачи, такие как повторная дискретизация аудио файлов до согласованной частоты дискретизации, удаление областей молчания и обрезка аудио до согласованной длительности. Эти задачи можно выполнить с помощью MATLAB, Signal Processing Toolbox™ и DSP System Toolbox™. Audio Toolbox предоставляет дополнительные специфические для аудио инструменты, которые помогают вам выполнить предварительную обработку, такие как detectSpeech и voiceActivityDetector.

Аудио имеет высокую размерность и содержит избыточную и часто ненужную информацию. Исторически мел-частотные кепстральные коэффициенты (mfcc) и низкоуровневые функции, такие как скорость пересечения нулем и спектральные дескрипторы формы, были доминирующими функциями, полученными из аудиосигналов для использования в системах машинного обучения. Системы машинного обучения, обученные на этих функциях, являются вычислительно эффективными и обычно требуют меньших обучающих данных. Audio Toolbox обеспечивает audioFeatureExtractor так что вы можете эффективно извлекать аудио функции.

Усовершенствования в архитектурах глубокого обучения, расширение доступа к вычислительным степеням и большие и хорошо маркированные наборы данных снизили зависимость от ручной разработки функций. Современные результаты часто достигаются с использованием спектрограмм mel (melSpectrogram), линейные спектрограммы или необработанные звуковые сигналы. Audio Toolbox обеспечивает audioFeatureExtractor так, что можно извлечь несколько слуховых спектрограмм, таких как mel spectrogram, gammatone spectrogram или Bark spectrogram, и связать их с низкоуровневыми дескрипторами. Использование audioFeatureExtractor позволяет вам систематически определять аудио функций для вашей модели глубокого обучения. Кроме того, можно использовать melSpectrogram функция для быстрого извлечения только мел спектрограммы. Audio Toolbox также обеспечивает измененное дискретное косинусоидное преобразование (mdct), который возвращает компактное спектральное представление без какой-либо потери информации.

Примеры приложений и рабочих процессов

Выбор функций, решение, какие увеличения и предварительная обработка применять, и разработка модели глубокого обучения все зависят от характера обучающих данных и задачи, которую вы хотите решить. Audio Toolbox приводит примеры, которые иллюстрируют рабочие процессы глубокого обучения, адаптированные к различным наборам данных и аудио приложениям. Таблица приводит примеры глубокого обучения по типу сети (сверточная нейронная сеть, полносвязная нейронная сеть или рекуррентная нейронная сеть) и категории задачи (классификация, регрессия или последовательность в последовательности).

CNN или ФК

LSTM, BiLSTM или GRU

Классификация

Примеры	Предварительная обработка и увеличение	Редукция данных и частотно-временные преобразования
Распознание речевых команд с использованием глубокого обучения		The `audioFeatureExtractor` объект используется для извлечения спектра логарифмической коры.
Распознавание акустической сцены с использованием позднего слияния	Микс-ап	`melSpectrogram`, `waveletScattering` (Wavelet Toolbox)

Примеры	Предварительная обработка и увеличение	Редукция данных и частотно-временные преобразования
Классификация полов с помощью сетей GRU	`detectSpeech`	The `audioFeatureExtractor` Объект используется для извлечения `gtcc`, `pitch`, `harmonicRatio`, и мел `spectralCentroid`, `spectralEntropy`, `spectralFlux`, и `spectralSlope`.
Распознавание эмоций речи	`audioDataAugmenter`	The `audioFeatureExtractor` Объект используется для извлечения `gtcc`, `mfcc`, и mel `spectralCrest`.
Последовательный выбор признаков для аудио функций	`detectSpeech`	The `audioFeatureExtractor` объект используется для протягивания комбинаций извлечённых функций.

Регрессия или переход к последовательности

Примеры	Предварительная обработка и увеличение	Редукция данных и частотно-временные преобразования
Денуазируйте речь, используя Нейронные сети для глубокого обучения		`stft`, `istft`, `compressor`
Разделение источников коктейлей с использованием Нейронных сетей для глубокого обучения		`stft`, `istft`
Обучите генеративную состязательную сеть (GAN) для синтеза звука		`stft`, `istft`

Примеры	Предварительная обработка и увеличение	Редукция данных и частотно-временные преобразования
Обнаружение голосовой активности в шуме с помощью глубокого обучения	`detectSpeech`	The `audioFeatureExtractor` Объект используется для извлечения `spectralCentroid`, `spectralCrest`, `spectralEntropy`, `spectralFlux`, `spectralKurtosis`, `spectralSkewness`, `spectralRolloffPoint`, `spectralSlope`, и `harmonicRatio`.
Определение ключевого слова в шуме с использованием сетей MFCC и LSTM	`detectSpeech`, `audioDataAugmenter`	`mfcc`

Ссылки

[1] Purwins, H., B. Li, T. Virtanen, J. Schülter, S. Y. Chang, and T. Sainath. «Глубокое обучение для обработки аудиосигнала». Журнал выбранных тем обработки сигналов. Том 13, Выпуск 2, 2019, стр. 206-219.

См. также

Audio Labeler | audioDataAugmenter | audioDatastore | audioFeatureExtractor

Документация