Обработка аудиоданных с использованием глубокого обучения

Расширьте рабочие процессы глубокого обучения с речевыми приложениями обработки и аудио

Примените глубокое обучение к аудио и речевым приложениям обработки при помощи Deep Learning Toolbox™ вместе с Audio Toolbox™. Для приложений обработки сигналов смотрите Обработку сигналов с использованием глубокого обучения. Для приложений в радиосвязях смотрите, что Радиосвязи Используют Глубокое обучение.

Приложения

Audio LabelerЗадайте и визуализируйте метки основной истины

Функции

развернуть все

audioDatastoreDatastore для набора звуковых файлов
audioDataAugmenterУвеличьте аудиоданные
audioFeatureExtractorОптимальная экстракция функции аудио
ivectorSystemСоздайте систему i-вектора
openl3FeaturesИзвлеките функции OpenL3
pitchnnОцените тангаж с глубокой нейронной сетью
vggishFeaturesИзвлеките функции VGGish
classifySoundКлассифицируйте звуки на звуковой сигнал
crepeНейронная сеть CREPE
crepePreprocessПредварительно обработайте аудио для нейронной сети для глубокого обучения CREPE
crepePostprocessПостобработайте выход нейронной сети для глубокого обучения CREPE
openl3Нейронная сеть OpenL3
openl3FeaturesИзвлеките функции OpenL3
openl3PreprocessПредварительно обработайте аудио для извлечения признаков OpenL3
pitchnnОцените тангаж с глубокой нейронной сетью
vggishНейронная сеть VGGish
vggishFeaturesИзвлеките функции VGGish
vggishPreprocessПредварительно обработайте аудио для извлечения признаков VGGish
yamnetНейронная сеть YAMNet
yamnetGraphГрафик онтологии YAMNet AudioSet
yamnetPreprocessПредварительно обработайте аудио для классификации YAMNet

Темы

Введение в глубокое обучение для аудиоприложений (Audio Toolbox)

Изучите общие инструменты и рабочие процессы, чтобы применить глубокое обучение к аудиоприложениям.

Классифицируйте звук Используя глубокое обучение (Audio Toolbox)

Обучите, подтвердите и протестируйте простую долгую краткосрочную память (LSTM), чтобы классифицировать звуки.

Передача обучения с предварительно обученными аудио сетями

Используйте передачу обучения, чтобы переобучить YAMNet, предварительно обученную сверточную нейронную сеть (CNN), чтобы классифицировать новый набор звуковых сигналов.

Идентификация динамика Используя пользовательский слой SincNet и глубокое обучение

Выполните распознавание речи с помощью пользовательского слоя глубокого обучения, который реализует набор фильтров mel-шкалы.

Речь Dereverberate Используя нейронные сети для глубокого обучения

Обучите модель глубокого обучения, которая удаляет реверберацию из речи.

Речевое распознавание команды в Simulink

Обнаружьте присутствие речевых команд в аудио с помощью Simulink® модель.

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

В этом примере показано, как классифицировать разговорные цифры с помощью обоих методов машинного и глубокого обучения.

Исходное разделение приема Используя нейронные сети для глубокого обучения

В этом примере показано, как изолировать речевой сигнал использование нейронной сети для глубокого обучения.

Последовательный выбор признаков для функций аудио

Этот пример показывает, что типичный рабочий процесс для выбора признаков применился к задаче разговорного распознавания цифры.

Изучите фильтр перед акцентом Используя глубокое обучение

Используйте сверточную глубокую сеть, чтобы изучить фильтр перед акцентом для распознавания речи.

Рекомендуемые примеры

Keyword Spotting in Noise Code Generation with Intel MKL-DNN

Определение ключевого слова в шумовой генерации кода с Intel MKL-DNN

Демонстрирует генерацию кода для определения ключевого слова с помощью сети Bidirectional Long Short-Term Memory (BiLSTM) и извлечения признаков частоты mel cepstral коэффициента (MFCC). MATLAB® Coder™ с Поддержкой Глубокого обучения включает генерацию независимого исполняемого файла (.exe) файл. Связь между MATLAB® (.mlx) файл и сгенерированным исполняемым файлом происходит по асинхронному Пользовательскому дейтаграммному протоколу (UDP). Входящий речевой сигнал отображен с помощью timescope. Маска показывается синим прямоугольником, окружающим определенные экземпляры ключевого слова, YES. Для получения дополнительной информации об извлечении признаков MFCC и обучении нейронной сети для глубокого обучения, посетите Определение Ключевого слова в Шуме Используя MFCC и Сети LSTM.

Keyword Spotting in Noise Code Generation on Raspberry Pi

Определение ключевого слова в шумовой генерации кода на Raspberry Pi

Демонстрирует генерацию кода для определения ключевого слова с помощью сети Bidirectional Long Short-Term Memory (BiLSTM) и извлечения признаков частоты mel cepstral коэффициента (MFCC) на Raspberry Pi™. MATLAB® Coder™ с Поддержкой Глубокого обучения включает генерацию независимого исполняемого файла (.elf) файл на Raspberry Pi. Связь между MATLAB® (.mlx) файл и сгенерированным исполняемым файлом происходит по асинхронному Пользовательскому дейтаграммному протоколу (UDP). Входящий речевой сигнал отображен с помощью timescope. Маска показывается синим прямоугольником, окружающим определенные экземпляры ключевого слова, YES. Для получения дополнительной информации об извлечении признаков MFCC и обучении нейронной сети для глубокого обучения, посетите Определение Ключевого слова в Шуме Используя MFCC и Сети LSTM.

Speech Command Recognition Code Generation on Raspberry Pi

Речевая генерация кода распознавания команды на Raspberry Pi

Разверните извлечение признаков и сверточную нейронную сеть (CNN) для речевого распознавания команды к Raspberry Pi™. Чтобы сгенерировать извлечение признаков и сетевой код, вы используете MATLAB Coder, Пакет поддержки MATLAB для Оборудования Raspberry Pi и Библиотеку ARM® Compute. В этом примере сгенерированный код является исполняемым файлом на вашем Raspberry Pi, который вызван скриптом MATLAB, который отображает предсказанную речевую команду наряду с и слуховой спектрограммой сигнала. Взаимодействие между скриптом MATLAB и исполняемым файлом на вашем Raspberry Pi обработано с помощью пользовательского дейтаграммного протокола (UDP). Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.