Машинное обучение и глубокое обучение для аудио

Управление наборами данных, маркировка и увеличение; сегментация и извлечение характеристик для звуковых, речевых и акустических приложений

Аудио Toolbox™ предоставляет функциональные возможности для разработки решений машинного и глубокого обучения для аудио, речи и акустических приложений, включая идентификацию динамиков, распознавание речевых команд, распознавание акустических сцен и многое другое.

Использовать audioDatastore для параллельного приема больших наборов аудиоданных и обработки файлов.
Используйте Audio Labeler для создания наборов аудиоданных путем аннотирования аудиозаписей вручную и автоматически.
Использовать audioDataAugmenter создание рандомизированных конвейеров встроенных или пользовательских методов обработки сигналов для увеличения и синтеза наборов аудиоданных.
Использовать audioFeatureExtractor извлечение комбинаций различных элементов при совместном использовании промежуточных вычислений.

Audio Toolbox также предоставляет доступ к API сторонних производителей для преобразования текста в речь и речи в текст, а также включает предварительно подготовленные модели VGGish и YAMNet, что позволяет выполнять обучение передаче, классификацию звуков и извлечение встраиваемых функций. Для использования предварительно подготовленных сетей требуется Toolbox™ глубокого обучения.

Управление наборами данных и маркировка
Ввод, создание и маркировка больших наборов данных
Извлечение элементов
Спектрограмма Mel, MFCC, тон, спектральные дескрипторы
Увеличение объема данных
Увеличительные трубопроводы, шаг и время сдвига, время растяжения, контрольный объем и шум
Сегментация
Обнаружение и изоляция речи и других звуков
Предварительно обученные сети
Передача обучения, классификация звука, встраивание функций
Транскрипция и синтез речи
Использование API сторонних производителей для преобразования текста в речь и преобразования речи в текст
Создание кода и поддержка графического процессора
Создание портативных функций C/C + +/MEX и использование графических процессоров для развертывания или ускорения обработки

Характерные примеры

Speech Command Recognition Using Deep Learning

Распознавание речевых команд с помощью глубокого обучения

Обучение модели глубокого обучения, которая обнаруживает наличие речевых команд в звуке. В примере используется набор данных речевых команд [1] для обучения сверточной нейронной сети распознаванию заданного набора команд.

Открыть сценарий

Speech Command Recognition Code Generation with Intel MKL-DNN

Создание кода распознавания речевых команд с помощью Intel MKL-DNN

Развертывание извлечения функций и сверточной нейронной сети (CNN) для распознавания речевых команд на процессорах Intel ®. Для создания извлечения функций и сетевого кода используется кодер MATLAB и библиотека Intel Math Kernel Library for Deep Neural Networks (MKL-DNN). В этом примере генерируемый код является исполняемой функцией MATLAB (MEX), которая вызывается сценарием MATLAB, который отображает предсказанную речевую команду вместе с сигналом временной области и слуховой спектрограммой. Дополнительные сведения о предварительной обработке звука и обучении работе с сетью см. в разделе Распознавание речевых команд с помощью глубокого обучения.

Открыть сценарий в реальном времени

Speech Command Recognition Code Generation on Raspberry Pi

Формирование кода распознавания речевых команд на Raspberry Pi

Развернуть извлечение функций и сверточную нейронную сеть (CNN) для распознавания речевых команд в Raspberry Pi™. Для создания извлечения функций и сетевого кода используется кодер MATLAB, пакет поддержки MATLAB для оборудования Raspberry Pi и вычислительная библиотека ARM ®. В этом примере сгенерированный код является исполняемым на Raspberry Pi, который вызывается сценарием MATLAB, отображающим предсказанную речевую команду вместе с сигналом и слуховой спектрограммой. Взаимодействие между сценарием MATLAB и исполняемым файлом Raspberry Pi обрабатывается с помощью протокола пользовательских дейтаграмм (UDP). Дополнительные сведения о предварительной обработке звука и обучении работе с сетью см. в разделе Распознавание речевых команд с помощью глубокого обучения.

Открыть сценарий в реальном времени

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевых слов в шуме с использованием сетей MFCC и LSTM

Определение ключевого слова в шумной речи с помощью сети глубокого обучения. В частности, в примере используется сеть двунаправленной долговременной памяти (BiLSTM) и кепстральные коэффициенты частоты (MFCC).

Открыть сценарий в реальном времени

Denoise Speech Using Deep Learning Networks

Denoise Speech с использованием сетей глубокого обучения

Denoise речевые сигналы с использованием сетей глубокого обучения. В примере сравниваются два типа сетей, применяемых к одной задаче: полностью связанные и сверточные.

Открыть сценарий в реальном времени

Cocktail Party Source Separation Using Deep Learning Networks

Разделение источников коктейльных партий с использованием сетей глубокого обучения

Выделение речевого сигнала с помощью сети глубокого обучения.

Открыть сценарий в реальном времени

Train Generative Adversarial Network (GAN) for Sound Synthesis

Обучающая генеративная состязательная сеть (GAN) для синтеза звука

Обучение и использование генеративной состязательной сети (GAN) для генерации звуков.

Открыть сценарий

Speaker Identification Using Pitch and MFCC

Идентификация динамика с использованием основного тона и MFCC

Демонстрирует подход машинного обучения для идентификации людей на основе особенностей, извлеченных из записанной речи. Признаками, используемыми для обучения классификатора, являются шаг вокализированных сегментов речи и частотные коэффициенты кепстра (MFCC). Это идентификация динамика с закрытым набором: аудио тестируемого динамика сравнивается со всеми доступными моделями динамика (конечным набором) и возвращается ближайшее совпадение.

Открыть сценарий в реальном времени

Проверка динамика с использованием i-векторов

Верификация говорящего, или аутентификация, является задачей подтверждения того, что личность говорящего - это то, кем он должен быть. Проверка спикера является активной исследовательской областью на протяжении многих лет. Ранний прорыв в производительности заключался в использовании модели гауссовой смеси и универсальной фоновой модели (GMM-UBM) [1] на акустических характеристиках (обычно mfcc). Пример см. в разделе Проверка динамики с использованием гауссовых моделей смесей. Одна из основных трудностей систем GMM-UBM связана с интерцессной изменчивостью. Совместный факторный анализ (JFA) был предложен для компенсации этой изменчивости путем отдельного моделирования межговорящей изменчивости и изменчивости канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить канальное пространство и пространство динамиков в пространство полной изменчивости. Затем интерцессная изменчивость компенсировалась с использованием бэкэнд-процедур, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как оценка косинусного сходства. [5] предложено заменить оценку косинусного сходства вероятностной моделью LDA (PLDA). [11] и [12] предложили способ гауссанизации i-векторов и, следовательно, сделать Gaussian допущения в PLDA, называемый G-PLDA или упрощенный PLDA. Хотя i-векторы изначально предлагались для проверки говорящих, они применялись ко многим проблемам, таким как распознавание языка, диаризация говорящих, распознавание эмоций, оценка возраста и антиспуфинг [10]. Недавно были предложены методы глубокого обучения для замены i-векторов d-векторами или x-векторами [8] [6].

Открыть сценарий в реальном времени

Документация по панели инструментов Audio

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.