Разработка аудиоприложений с глубоким обучением обычно включает в себя создание и доступ к наборам данных, предварительную обработку и исследование данных, разработку прогнозирующих моделей и развертывание и совместное использование приложений. MATLAB® предоставляет тулбоксы для поддержки каждого этапа разработки.
В то время как Audio Toolbox™ поддерживает каждый этап рабочего процесса глубокого обучения, его основными вкладами являются Доступ и Создание Данных и Предварительная Обработка и Исследование Данных.
Нейронные сети для глубокого обучения работают лучше всего, когда у вас есть доступ к большим наборам обучающих данных. Однако разнообразие аудио-, речевых и акустических сигналов и отсутствие больших хорошо маркированных наборов данных затрудняют доступ к большим наборам обучающих данных. При использовании методов глубокого обучения на аудио файлов может потребоваться разработка новых наборов данных или расширение существующих таковых. Audio Toolbox предоставляет приложение Audio Labeler, которое поможет вам увеличить или создать новые наборы маркированных данных.
Если у вас есть начальный набор данных, можно увеличить его, применив методы увеличения, такие как перемена тангажа, сдвиг времени, регулирование объема и сложение шума. Тип увеличения, которое вы хотите применить, зависит от соответствующих характеристик для вашего аудио, речевого или акустического приложения. Для примера перемены тангажа (или возмущения голосового тракта) и растяжение времени являются типичными методами увеличения для автоматического распознавания речи (ASR). Для ASR дальнего поля увеличение обучающих данных с помощью искусственной реверберации является общим. Audio Toolbox обеспечивает audioDataAugmenter
чтобы помочь вам применить увеличения детерминированно или вероятностно.
Обучающие данные, используемые в рабочих процессах глубокого обучения, обычно слишком велики, чтобы помещаться в памяти. Эффективный доступ к данным и выполнение общих задач глубокого обучения (таких как разделение набора данных на train, валидации и тестирования) могут быстро стать неуправляемыми. Audio Toolbox обеспечивает audioDatastore
чтобы помочь вам управлять и загружать большие наборы данных.
Предварительная обработка аудио данных включает в себя задачи, такие как повторная дискретизация аудио файлов до согласованной частоты дискретизации, удаление областей молчания и обрезка аудио до согласованной длительности. Эти задачи можно выполнить с помощью MATLAB, Signal Processing Toolbox™ и DSP System Toolbox™. Audio Toolbox предоставляет дополнительные специфические для аудио инструменты, которые помогают вам выполнить предварительную обработку, такие как detectSpeech
и voiceActivityDetector
.
Аудио имеет высокую размерность и содержит избыточную и часто ненужную информацию. Исторически мел-частотные кепстральные коэффициенты (mfcc
) и низкоуровневые функции, такие как скорость пересечения нулем и спектральные дескрипторы формы, были доминирующими функциями, полученными из аудиосигналов для использования в системах машинного обучения. Системы машинного обучения, обученные на этих функциях, являются вычислительно эффективными и обычно требуют меньших обучающих данных. Audio Toolbox обеспечивает audioFeatureExtractor
так что вы можете эффективно извлекать аудио функции.
Усовершенствования в архитектурах глубокого обучения, расширение доступа к вычислительным степеням и большие и хорошо маркированные наборы данных снизили зависимость от ручной разработки функций. Современные результаты часто достигаются с использованием спектрограмм mel (melSpectrogram
), линейные спектрограммы или необработанные звуковые сигналы. Audio Toolbox обеспечивает audioFeatureExtractor
так, что можно извлечь несколько слуховых спектрограмм, таких как mel spectrogram, gammatone spectrogram или Bark spectrogram, и связать их с низкоуровневыми дескрипторами. Использование audioFeatureExtractor
позволяет вам систематически определять аудио функций для вашей модели глубокого обучения. Кроме того, можно использовать melSpectrogram
функция для быстрого извлечения только мел спектрограммы. Audio Toolbox также обеспечивает измененное дискретное косинусоидное преобразование (mdct
), который возвращает компактное спектральное представление без какой-либо потери информации.
Выбор функций, решение, какие увеличения и предварительная обработка применять, и разработка модели глубокого обучения все зависят от характера обучающих данных и задачи, которую вы хотите решить. Audio Toolbox приводит примеры, которые иллюстрируют рабочие процессы глубокого обучения, адаптированные к различным наборам данных и аудио приложениям. Таблица приводит примеры глубокого обучения по типу сети (сверточная нейронная сеть, полносвязная нейронная сеть или рекуррентная нейронная сеть) и категории задачи (классификация, регрессия или последовательность в последовательности).
[1] Purwins, H., B. Li, T. Virtanen, J. Schülter, S. Y. Chang, and T. Sainath. «Глубокое обучение для обработки аудиосигнала». Журнал выбранных тем обработки сигналов. Том 13, Выпуск 2, 2019, стр. 206-219.
Audio Labeler | audioDataAugmenter
| audioDatastore
| audioFeatureExtractor