exponenta event banner

Обработка звука с помощью глубокого обучения

Расширение рабочих процессов глубокого обучения с помощью приложений для обработки звука и речи

Применение глубокого обучения к приложениям для обработки звука и речи с помощью Deep Learning Toolbox™ совместно с Audio Toolbox™. Приложения для обработки сигналов см. в разделе Обработка сигналов с помощью глубокого обучения. Приложения для беспроводной связи см. в разделе Беспроводная связь с использованием глубокого обучения.

Приложения

АудиомаркировщикОпределение и визуализация меток «земля-истина»

Функции

ivectorSystemСоздание i-векторной системы
crepeНейронная сеть CREPE
crepePreprocessПредварительная обработка аудио для сети глубокого обучения CREPE
crepePostprocessПостобработка выходных данных сети глубокого обучения CREPE
pitchnnОценка шага с помощью нейронной сети глубокого обучения
openl3OpenL3 нейронная сеть
openl3PreprocessПредварительная обработка звука для извлечения OpenL3 функций
openl3FeaturesИзвлечение OpenL3 элементов
audioDatastoreХранилище данных для сбора аудиофайлов
audioDataAugmenterУвеличение аудиоданных
audioFeatureExtractorОптимизация извлечения звуковых функций
vggishPreprocessПредварительная обработка звука для извлечения функций VGGish
vggishFeaturesИзвлечение элементов VGGish
vggishНейронная сеть VGGish
yamnetНейронная сеть YAMNet
yamnetPreprocessПредварительная обработка аудио для классификации YAMNet
yamnetGraphГрафик онтологии AudioSet компании YAMNet
classifySoundКлассификация звуков в звуковом сигнале

Темы

Введение в глубокое обучение для аудиоприложений (Audio Toolbox)

Изучите общие инструменты и рабочие процессы для применения глубокого обучения к аудиоприложениям.

Классифицировать звук с помощью глубокого обучения (Audio Toolbox)

Обучение, проверка и тестирование простой долговременной памяти (LSTM) для классификации звуков.

Передача обучения с помощью предварительно обученных аудиосетей (панель инструментов для аудио)

Используйте transfer learning для переподготовки YAMNet, предварительно обученной сверточной нейронной сети (CNN), для классификации нового набора аудиосигналов.

Идентификация динамиков с использованием пользовательского уровня SincNet и глубокого обучения (панель инструментов Audio)

Выполните распознавание речи с помощью пользовательского уровня глубокого обучения, который реализует банк фильтров mel-scale.

Отказ от речи с использованием сетей глубокого обучения (набор аудиоуслуг)

Обучение модели глубокого обучения, которая удаляет реверберацию из речи.

Распознавание речевых команд в Simulink (панель звуковых инструментов)

Определите наличие речевых команд в звуке с помощью модели Simulink ®.

Характерные примеры

Speaker Recognition Using x-vectors

Распознавание динамиков с помощью x-векторов

Признание спикера отвечает на вопрос «Кто говорит?». Распознавание говорящих обычно делится на две задачи: идентификация говорящих и верификация говорящих. При идентификации говорящего распознается говорящий путем сравнения его речи с закрытым набором шаблонов. При проверке говорящего распознается говорящий путем сравнения вероятности того, что речь принадлежит конкретному говорящему, с заранее определенным порогом. Традиционные методы машинного обучения хорошо выполняют эти задачи в идеальных условиях. Примеры идентификации говорящих с использованием традиционных методов машинного обучения см. в разделах Идентификация говорящих с использованием основного тона и Проверка говорящих с использованием i-векторов. Audio Toolbox™ обеспечивает систему ivsector, которая включает в себя способность обучать систему i-vector, регистрировать динамики или другие звуковые метки, оценивать систему для порога принятия решения, а также идентифицировать или проверять динамики или другие звуковые метки.

Keyword Spotting in Noise Code Generation with Intel MKL-DNN

Ключевое слово Spotting in Noise Code Generation с помощью Intel MKL-DNN

Демонстрирует создание кода для определения ключевых слов с использованием двунаправленной долговременной памяти (BiLSTM) и извлечения функции частотного кепстрального коэффициента (MFCC). MATLAB ® Coder™ с поддержкой глубокого обучения позволяет создавать автономные исполняемые файлы (.exe). Связь между файлом MATLAB ® (.mlx) и созданным исполняемым файлом осуществляется по асинхронному протоколу пользовательских дейтаграмм (UDP). Входящий речевой сигнал отображается с использованием временной шкалы. Маска отображается синим прямоугольником вокруг пятнистых экземпляров ключевого слова YES. Для получения более подробной информации об извлечении функций MFCC и обучении работе с сетью глубокого обучения посетите раздел Ключевые слова - определение шума с использованием сетей MFCC и LSTM.

Keyword Spotting in Noise Code Generation on Raspberry Pi

Ключевое слово Spotting in Noise Code Generation on Raspberry Pi

Демонстрирует создание кода для определения ключевых слов с использованием двунаправленной долговременной памяти (BiLSTM) и извлечения функции частотного кепстрального коэффициента (MFCC) на Raspberry Pi™. MATLAB ® Coder™ с поддержкой глубокого обучения позволяет создавать автономные исполняемые файлы на Raspberry Pi. Обмен данными между файлом MATLAB ® (.mlx) и созданным исполняемым файлом осуществляется по асинхронному протоколу пользовательских дейтаграмм (UDP). Входящий речевой сигнал отображается с использованием временной шкалы. Маска отображается синим прямоугольником вокруг пятнистых экземпляров ключевого слова YES. Для получения более подробной информации об извлечении функций MFCC и обучении работе с сетью глубокого обучения посетите раздел Ключевые слова - определение шума с использованием сетей MFCC и LSTM.

Speech Command Recognition Code Generation on Raspberry Pi

Формирование кода распознавания речевых команд на Raspberry Pi

Развернуть извлечение функций и сверточную нейронную сеть (CNN) для распознавания речевых команд в Raspberry Pi™. Для создания извлечения функций и сетевого кода используется кодер MATLAB, пакет поддержки MATLAB для оборудования Raspberry Pi и вычислительная библиотека ARM ®. В этом примере сгенерированный код является исполняемым на Raspberry Pi, который вызывается сценарием MATLAB, отображающим предсказанную речевую команду вместе с сигналом и слуховой спектрограммой. Взаимодействие между сценарием MATLAB и исполняемым файлом Raspberry Pi обрабатывается с помощью протокола пользовательских дейтаграмм (UDP). Дополнительные сведения о предварительной обработке звука и обучении работе с сетью см. в разделе Распознавание речевых команд с помощью глубокого обучения.