Обработка звука с помощью глубокого обучения

Расширение рабочих процессов глубокого обучения с помощью приложений для обработки звука и речи

Применение глубокого обучения к приложениям для обработки звука и речи с помощью Deep Learning Toolbox™ совместно с Audio Toolbox™. Приложения для обработки сигналов см. в разделе Обработка сигналов с помощью глубокого обучения. Приложения для беспроводной связи см. в разделе Беспроводная связь с использованием глубокого обучения.

Приложения

Аудиомаркировщик

Определение и визуализация меток «земля-истина»

Функции

`ivectorSystem`	Создание i-векторной системы
`crepe`	Нейронная сеть CREPE
`crepePreprocess`	Предварительная обработка аудио для сети глубокого обучения CREPE
`crepePostprocess`	Постобработка выходных данных сети глубокого обучения CREPE
`pitchnn`	Оценка шага с помощью нейронной сети глубокого обучения
`openl3`	OpenL3 нейронная сеть
`openl3Preprocess`	Предварительная обработка звука для извлечения OpenL3 функций
`openl3Features`	Извлечение OpenL3 элементов
`audioDatastore`	Хранилище данных для сбора аудиофайлов
`audioDataAugmenter`	Увеличение аудиоданных
`audioFeatureExtractor`	Оптимизация извлечения звуковых функций
`vggishPreprocess`	Предварительная обработка звука для извлечения функций VGGish
`vggishFeatures`	Извлечение элементов VGGish
`vggish`	Нейронная сеть VGGish
`yamnet`	Нейронная сеть YAMNet
`yamnetPreprocess`	Предварительная обработка аудио для классификации YAMNet
`yamnetGraph`	График онтологии AudioSet компании YAMNet
`classifySound`	Классификация звуков в звуковом сигнале

Темы

Введение в глубокое обучение для аудиоприложений (Audio Toolbox)

Изучите общие инструменты и рабочие процессы для применения глубокого обучения к аудиоприложениям.

Классифицировать звук с помощью глубокого обучения (Audio Toolbox)

Обучение, проверка и тестирование простой долговременной памяти (LSTM) для классификации звуков.

Передача обучения с помощью предварительно обученных аудиосетей (панель инструментов для аудио)

Используйте transfer learning для переподготовки YAMNet, предварительно обученной сверточной нейронной сети (CNN), для классификации нового набора аудиосигналов.

Идентификация динамиков с использованием пользовательского уровня SincNet и глубокого обучения (панель инструментов Audio)

Выполните распознавание речи с помощью пользовательского уровня глубокого обучения, который реализует банк фильтров mel-scale.

Отказ от речи с использованием сетей глубокого обучения (набор аудиоуслуг)

Обучение модели глубокого обучения, которая удаляет реверберацию из речи.

Распознавание речевых команд в Simulink (панель звуковых инструментов)

Определите наличие речевых команд в звуке с помощью модели Simulink ®.

Характерные примеры

Распознавание динамиков с помощью x-векторов

Признание спикера отвечает на вопрос «Кто говорит?». Распознавание говорящих обычно делится на две задачи: идентификация говорящих и верификация говорящих. При идентификации говорящего распознается говорящий путем сравнения его речи с закрытым набором шаблонов. При проверке говорящего распознается говорящий путем сравнения вероятности того, что речь принадлежит конкретному говорящему, с заранее определенным порогом. Традиционные методы машинного обучения хорошо выполняют эти задачи в идеальных условиях. Примеры идентификации говорящих с использованием традиционных методов машинного обучения см. в разделах Идентификация говорящих с использованием основного тона и Проверка говорящих с использованием i-векторов. Audio Toolbox™ обеспечивает систему ivsector, которая включает в себя способность обучать систему i-vector, регистрировать динамики или другие звуковые метки, оценивать систему для порога принятия решения, а также идентифицировать или проверять динамики или другие звуковые метки.

Диаризация динамика с использованием x-векторов

Диаризация громкоговорителя - это процесс разделения аудиосигнала на сегменты в соответствии с идентичностью громкоговорителя. Он отвечает на вопрос «кто говорил, когда» без предварительного знания говорящих и, в зависимости от применения, без предварительного знания количества говорящих.

Train Spoken Digit Recognition Network Using Out-of-Memory Audio Data

Сеть распознавания речевых цифр Train с использованием аудиоданных, не имеющих памяти

Обучает сеть распознавания речевых цифр по аудиоданным, не находящимся в памяти, с использованием преобразованного хранилища данных. В этом примере применяется случайный сдвиг основного тона к аудиоданным, используемым для обучения сверточной нейронной сети (CNN). Для каждой итерации обучения аудиоданные дополняются с помощью объекта audioDataAugmenter, а затем элементы извлекаются с помощью объекта audioFeatureExtractor. Рабочий процесс в этом примере применяется к любому случайному увеличению данных, используемому в учебном цикле. Рабочий процесс также применяется, когда базовый набор аудиоданных или обучающие функции не помещаются в память.

Train Spoken Digit Recognition Network Using Out-of-Memory Features

Сеть распознавания речевых цифр Train с использованием функций, не соответствующих памяти

Обучение сети распознавания речевых цифр на слуховых спектрограммах, не имеющих памяти, с использованием преобразованного хранилища данных. В этом примере слуховые спектрограммы извлекаются из звука с помощью audioDatastore и audioFeatureExtractor и записываются на диск. Затем вы используете signalDatastore для доступа к функциям во время обучения. Рабочий процесс полезен, когда обучающие функции не помещаются в память. В этом рабочем процессе элементы извлекаются только один раз, что ускоряет рабочий процесс, если выполняется итерация в проекте модели глубокого обучения.

Keyword Spotting in Noise Code Generation with Intel MKL-DNN

Ключевое слово Spotting in Noise Code Generation с помощью Intel MKL-DNN

Демонстрирует создание кода для определения ключевых слов с использованием двунаправленной долговременной памяти (BiLSTM) и извлечения функции частотного кепстрального коэффициента (MFCC). MATLAB ® Coder™ с поддержкой глубокого обучения позволяет создавать автономные исполняемые файлы (.exe). Связь между файлом MATLAB ® (.mlx) и созданным исполняемым файлом осуществляется по асинхронному протоколу пользовательских дейтаграмм (UDP). Входящий речевой сигнал отображается с использованием временной шкалы. Маска отображается синим прямоугольником вокруг пятнистых экземпляров ключевого слова YES. Для получения более подробной информации об извлечении функций MFCC и обучении работе с сетью глубокого обучения посетите раздел Ключевые слова - определение шума с использованием сетей MFCC и LSTM.

Keyword Spotting in Noise Code Generation on Raspberry Pi

Ключевое слово Spotting in Noise Code Generation on Raspberry Pi

Демонстрирует создание кода для определения ключевых слов с использованием двунаправленной долговременной памяти (BiLSTM) и извлечения функции частотного кепстрального коэффициента (MFCC) на Raspberry Pi™. MATLAB ® Coder™ с поддержкой глубокого обучения позволяет создавать автономные исполняемые файлы на Raspberry Pi. Обмен данными между файлом MATLAB ® (.mlx) и созданным исполняемым файлом осуществляется по асинхронному протоколу пользовательских дейтаграмм (UDP). Входящий речевой сигнал отображается с использованием временной шкалы. Маска отображается синим прямоугольником вокруг пятнистых экземпляров ключевого слова YES. Для получения более подробной информации об извлечении функций MFCC и обучении работе с сетью глубокого обучения посетите раздел Ключевые слова - определение шума с использованием сетей MFCC и LSTM.

Speech Command Recognition Using Deep Learning

Распознавание речевых команд с помощью глубокого обучения

Обучение модели глубокого обучения, которая обнаруживает наличие речевых команд в звуке. В примере используется набор данных речевых команд [1] для обучения сверточной нейронной сети распознаванию заданного набора команд.

Открыть сценарий

Speech Command Recognition Code Generation with Intel MKL-DNN

Создание кода распознавания речевых команд с помощью Intel MKL-DNN

Развертывание извлечения функций и сверточной нейронной сети (CNN) для распознавания речевых команд на процессорах Intel ®. Для создания извлечения функций и сетевого кода используется кодер MATLAB и библиотека Intel Math Kernel Library for Deep Neural Networks (MKL-DNN). В этом примере генерируемый код является исполняемой функцией MATLAB (MEX), которая вызывается сценарием MATLAB, который отображает предсказанную речевую команду вместе с сигналом временной области и слуховой спектрограммой. Дополнительные сведения о предварительной обработке звука и обучении работе с сетью см. в разделе Распознавание речевых команд с помощью глубокого обучения.

Открыть сценарий в реальном времени

Speech Command Recognition Code Generation on Raspberry Pi

Формирование кода распознавания речевых команд на Raspberry Pi

Развернуть извлечение функций и сверточную нейронную сеть (CNN) для распознавания речевых команд в Raspberry Pi™. Для создания извлечения функций и сетевого кода используется кодер MATLAB, пакет поддержки MATLAB для оборудования Raspberry Pi и вычислительная библиотека ARM ®. В этом примере сгенерированный код является исполняемым на Raspberry Pi, который вызывается сценарием MATLAB, отображающим предсказанную речевую команду вместе с сигналом и слуховой спектрограммой. Взаимодействие между сценарием MATLAB и исполняемым файлом Raspberry Pi обрабатывается с помощью протокола пользовательских дейтаграмм (UDP). Дополнительные сведения о предварительной обработке звука и обучении работе с сетью см. в разделе Распознавание речевых команд с помощью глубокого обучения.

Открыть сценарий в реальном времени

Cocktail Party Source Separation Using Deep Learning Networks

Разделение источников коктейльных партий с использованием сетей глубокого обучения

Выделение речевого сигнала с помощью сети глубокого обучения.

Открыть сценарий в реальном времени

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевых слов в шуме с использованием сетей MFCC и LSTM

Определение ключевого слова в шумной речи с помощью сети глубокого обучения. В частности, в примере используется сеть двунаправленной долговременной памяти (BiLSTM) и кепстральные коэффициенты частоты (MFCC).

Открыть сценарий в реальном времени

Denoise Speech Using Deep Learning Networks

Denoise Speech с использованием сетей глубокого обучения

Denoise речевые сигналы с использованием сетей глубокого обучения. В примере сравниваются два типа сетей, применяемых к одной задаче: полностью связанные и сверточные.

Открыть сценарий в реальном времени

Train Generative Adversarial Network (GAN) for Sound Synthesis

Обучающая генеративная состязательная сеть (GAN) для синтеза звука

Обучение и использование генеративной состязательной сети (GAN) для генерации звуков.

Открыть сценарий

Voice Activity Detection in Noise Using Deep Learning

Обнаружение голосовой активности в шуме с помощью глубокого обучения

Обнаружение областей речи в среде с низким уровнем сигнала к шуму с помощью глубокого обучения. В примере используется набор данных речевых команд для обучения сети двунаправленной долговременной памяти (BiLSTM) обнаружению активности речи.

Открыть сценарий в реальном времени

Классификация пола с использованием сетей ГРУ

Классифицируйте пол говорящего с помощью глубокого обучения. В этом примере используется сеть Gated Receivative Unit (GRU) и кэпстральные коэффициенты гамматона (gtcc), тон, отношение гармоник и несколько дескрипторов спектральной формы.

Открыть сценарий в реальном времени

Spoken Digit Recognition with Wavelet Scattering and Deep Learning

Распознавание речевых цифр с вейвлет-рассеянием и глубоким обучением

Классифицируйте произносимые цифры с помощью машинных и глубоких методов обучения. В этом примере классификация выполняется с использованием вейвлет-временного рассеяния с помощью вспомогательной векторной машины (SVM) и сети с длительной кратковременной памятью (LSTM). Также применяется байесовская оптимизация для определения подходящих гиперпараметров для повышения точности сети LSTM. Кроме того, пример иллюстрирует подход с использованием глубокой сверточной нейронной сети (CNN) и мел-частотных спектрограмм.

Открыть сценарий в реальном времени

Sequential Feature Selection for Audio Features

Выбор последовательных функций для звуковых функций

Типичный рабочий процесс для выбора элементов, применяемый к задаче распознавания речевых цифр.

Открыть сценарий в реальном времени

Распознавание речевых эмоций

Иллюстрирует простую систему распознавания речевых эмоций (SER) с использованием BiLSTM-сети. Сначала необходимо загрузить набор данных, а затем протестировать обученную сеть на отдельных файлах. Сеть обучалась по небольшой немецкоязычной базе данных [1].

Открыть сценарий в реальном времени

Acoustic Scene Recognition Using Late Fusion

Распознавание акустических сцен с использованием позднего синтеза

Создание многомодельной системы позднего фьюжна для распознавания акустических сцен. Пример обучает сверточную нейронную сеть (CNN) с использованием спектрограмм mel и ансамблевого классификатора с использованием вейвлет-рассеяния. В примере используется набор данных TUT для обучения и оценки [1].

Открыть сценарий

Документация по инструментам для глубокого обучения

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.