exponenta event banner

Введение в глубокое обучение для аудиоприложений

Разработка аудиоприложений с глубоким обучением обычно включает создание наборов данных и доступ к ним, предварительную обработку и изучение данных, разработку прогностических моделей, развертывание приложений и обмен ими. MATLAB ® предоставляет панели инструментов для поддержки каждого этапа разработки.

В то время как Audio Toolbox™ поддерживает каждый этап процесса глубокого обучения, его основным вкладом является доступ и создание данных, а также предварительная обработка и изучение данных.

Доступ и создание данных

Сети глубокого обучения работают лучше всего, когда у вас есть доступ к большим наборам данных обучения. Однако разнообразие звуковых, речевых и акустических сигналов и отсутствие больших хорошо помеченных наборов данных затрудняет доступ к большим тренировочным наборам. При использовании методов глубокого обучения аудиофайлам может потребоваться разработка новых наборов данных или расширение существующих. Audio Toolbox предоставляет приложение Audio Labeler для увеличения или создания новых наборов данных с метками.

После получения начального набора данных его можно увеличить, применяя такие методы увеличения, как сдвиг основного тона, сдвиг во времени, контроль громкости и добавление шума. Тип дополнений, который требуется применить, зависит от соответствующих характеристик аудио-, речевого или акустического приложения. Например, смещение основного тона (или возмущение голосового тракта) и растягивание во времени являются типичными способами увеличения для автоматического распознавания речи (ASR). Для ASR в дальнем поле увеличение обучающих данных с использованием искусственной реверберации является обычным явлением. Audio Toolbox предоставляет audioDataAugmenter чтобы помочь вам применить дополнения детерминированно или вероятностно.

Данные обучения, используемые в рабочих процессах глубокого обучения, обычно слишком велики для размещения в памяти. Эффективный доступ к данным и выполнение общих задач глубокого обучения (например, разделение набора данных на обучающие, валидационные и тестовые наборы) могут быстро стать неуправляемыми. Audio Toolbox предоставляет audioDatastore помогает управлять большими наборами данных и загружать их.

Предварительная обработка и изучение данных

Предварительная обработка аудиоданных включает в себя такие задачи, как повторная выборка аудиофайлов до согласованной частоты дискретизации, удаление областей молчания и обрезка аудиофайлов до согласованной длительности. Эти задачи можно выполнить с помощью MATLAB, Toolbox™ обработки сигналов и DSP System Toolbox™. Audio Toolbox предоставляет дополнительные инструменты для обработки звука, например, detectSpeech и voiceActivityDetector.

Звук очень объемный и содержит избыточную и часто ненужную информацию. Исторически кепстральные коэффициенты mel-частоты (mfcc) и низкоуровневые признаки, такие как частота пересечения нуля и дескрипторы спектральной формы, были доминирующими признаками, полученными из аудиосигналов для использования в системах машинного обучения. Системы машинного обучения, обученные этим функциям, эффективны в вычислительном отношении и обычно требуют меньшего количества обучающих данных. Audio Toolbox предоставляет audioFeatureExtractor чтобы вы могли эффективно извлекать звуковые функции.

Достижения в области архитектуры глубокого обучения, расширение доступа к вычислительной мощности и большие и хорошо маркированные наборы данных снизили зависимость от функций, разработанных вручную. Современные результаты часто достигаются с использованием мел-спектрограмм (melSpectrogram), линейные спектрограммы или необработанные звуковые сигналы. Audio Toolbox предоставляет audioFeatureExtractor чтобы можно было извлечь несколько слуховых спектрограмм, таких как спектрограмма mel, спектрограмма гамматона или спектрограмма Барка, и объединить их с низкоуровневыми дескрипторами. Используя audioFeatureExtractor позволяет систематически определять звуковые функции для модели глубокого обучения. Кроме того, можно использовать melSpectrogram функция, чтобы быстро извлечь только mel спектрограмма. Audio Toolbox также обеспечивает модифицированное дискретное косинусное преобразование (mdct), который возвращает компактное спектральное представление без потери информации.

Примеры приложений и рабочих процессов

Выбор функций, выбор применяемых дополнений и предварительной обработки, а также разработка модели глубокого обучения зависят от характера обучающих данных и проблемы, которую необходимо решить. Audio Toolbox содержит примеры, иллюстрирующие рабочие процессы глубокого обучения, адаптированные к различным наборам данных и аудиоприложениям. В таблице перечислены примеры глубокого обучения аудио по типу сети (сверточная нейронная сеть, полностью соединенная нейронная сеть или рецидивирующая нейронная сеть) и категории задач (классификация, регрессия или последовательность к последовательности).

 

CNN или FC

LSTM, BiLSTM или GRU

Классификация

ПримерыПредварительная обработка и увеличениеИзвлечение элементов и частотные преобразования

Распознавание речевых команд с помощью глубокого обучения

 

audioFeatureExtractor Используют объект для извлечения логарифмического спектра Барка.

Распознавание акустических сцен с использованием позднего синтеза

Смешение

melSpectrogram, waveletScattering (инструментарий вейвлета)

ПримерыПредварительная обработка и увеличениеИзвлечение элементов и частотные преобразования

Классификация пола с использованием сетей ГРУ

detectSpeech

audioFeatureExtractor используется для извлечения gtcc, pitch, harmonicRatio, и mel spectralCentroid, spectralEntropy, spectralFlux, и spectralSlope.

Распознавание речевых эмоций

audioDataAugmenter

audioFeatureExtractor используется для извлечения gtcc, mfcc, и mel spectralCrest.

Выбор последовательных функций для звуковых функций

detectSpeech audioFeatureExtractor объект используется для протягивания через комбинации извлеченных элементов.

Регрессия или последовательность к последовательности

Ссылки

[1] Пурвинс, Х., Б. Ли, Т. Виртанен, Дж. Шюльтер, С. Я. Чанг и Т. Сайнатх. «Глубокое обучение обработке аудиосигналов». Журнал выбранных тем обработки сигналов. Том 13, выпуск 2, 2019, стр. 206-219.

См. также

| | |

Связанные темы