Обработка аудиоданных с использованием глубокого обучения

Расширение рабочих процессов глубокого обучения с помощью приложений для обработки звука и речи

Применить глубокое обучение к приложениям обработки звука и речи при помощи Deep Learning Toolbox™ совместно с Audio Toolbox™. Для приложений обработки сигналов см. Обработку сигналов с использованием глубокого обучения. Для приложений в беспроводной связи смотрите Беспроводные коммуникации с использованием глубокого обучения.

Приложения

Audio LabelerОпределите и визуализируйте метки основной истины

Функции

ivectorSystemСоздайте i-векторную систему
crepeНейронная сеть CREPE
crepePreprocessПредварительная обработка аудио для нейронной сети для глубокого обучения CREPE
crepePostprocessПостпроцессный выход нейронной сети для глубокого обучения CREPE
pitchnnОценка тангажа с глубокой нейронной сетью
openl3OpenL3 нейронную сеть
openl3PreprocessПредварительная обработка аудио для OpenL3 редукции данных
openl3FeaturesИзвлечение OpenL3 функций
audioDatastoreDatastore для набора аудио файлов
audioDataAugmenterУвеличение звуковых данных
audioFeatureExtractorОптимизация аудио редукции данных
vggishPreprocessПредварительная обработка аудио для редукции данных VGGish
vggishFeaturesИзвлечение функций VGGish
vggishНейронная сеть VGGish
yamnetНейронная сеть YAMNet
yamnetPreprocessПредварительная обработка аудио для классификации YAMNet
yamnetGraphГрафиков онтологии YAMNet AudioSet
classifySoundКлассификация звуков в аудиосигнале

Темы

Введение в глубокое обучение для аудио приложений (Audio Toolbox)

Изучение общих инструментов и рабочих процессов для применения глубокого обучения к аудио приложениям.

Классификация звука с помощью глубокого обучения (Audio Toolbox)

Обучите, проверьте и протестируйте простую долгую краткосрочную память (LSTM) для классификации звуков.

Передача обучения с предварительно обученными аудиосетями (Audio Toolbox)

Используйте передачу обучения для переобучения YAMNet, предварительно обученной сверточной нейронной сети (CNN), чтобы классифицировать новый набор аудиосигналов.

Идентификация динамика с использованием пользовательского слоя SincNet и глубокого обучения (Audio Toolbox)

Выполните распознавание речи с помощью пользовательского слоя глубокого обучения, который реализует mel-масштабную группу фильтров.

Дереверберация речи с использованием Нейронных сетей для глубокого обучения (Audio Toolbox)

Обучите модель глубокого обучения, которая удаляет реверберацию из речи.

Распознавание речевых команд в Simulink (Audio Toolbox)

Обнаружение наличия речевых команд в аудио с помощью Simulink® модель.

Рекомендуемые примеры

Speaker Recognition Using x-vectors

Распознавание динамика с использованием x-векторов

Признание спикера отвечает на вопрос «Кто говорит?». Распознавание динамика обычно делится на две задачи: идентификация динамика и верификация динамика. При идентификации динамика динамик распознается путем сравнения их речи с закрытым набором шаблонов. При верификации динамика динамик распознается путем сравнения вероятности того, что речь принадлежит конкретному динамику, с заранее заданным порогом. Традиционные методы машинного обучения хорошо выполняют эти задачи в идеальных условиях. Для примеров идентификации динамика с помощью традиционных методов машинного обучения смотрите Идентификацию динамика с использованием тангажа и MFCC и Верификацию динамика с использованием i-векторов. Audio Toolbox™ предоставляет ivectorSystem, которая инкапсулирует возможность обучать i-векторную систему, регистрировать динамики или другие аудио метки, оценивать систему для порога принятия решения и идентифицировать или проверить динамики или другие аудио метки.