exponenta event banner

Машинное обучение и глубокое обучение для аудио

Управление наборами данных, маркировка и увеличение; сегментация и извлечение характеристик для звуковых, речевых и акустических приложений

Аудио Toolbox™ предоставляет функциональные возможности для разработки решений машинного и глубокого обучения для аудио, речи и акустических приложений, включая идентификацию динамиков, распознавание речевых команд, распознавание акустических сцен и многое другое.

  • Использовать audioDatastore для параллельного приема больших наборов аудиоданных и обработки файлов.

  • Используйте Audio Labeler для создания наборов аудиоданных путем аннотирования аудиозаписей вручную и автоматически.

  • Использовать audioDataAugmenter создание рандомизированных конвейеров встроенных или пользовательских методов обработки сигналов для увеличения и синтеза наборов аудиоданных.

  • Использовать audioFeatureExtractor извлечение комбинаций различных элементов при совместном использовании промежуточных вычислений.

Audio Toolbox также предоставляет доступ к API сторонних производителей для преобразования текста в речь и речи в текст, а также включает предварительно подготовленные модели VGGish и YAMNet, что позволяет выполнять обучение передаче, классификацию звуков и извлечение встраиваемых функций. Для использования предварительно подготовленных сетей требуется Toolbox™ глубокого обучения.

Характерные примеры

Speech Command Recognition Code Generation on Raspberry Pi

Формирование кода распознавания речевых команд на Raspberry Pi

Развернуть извлечение функций и сверточную нейронную сеть (CNN) для распознавания речевых команд в Raspberry Pi™. Для создания извлечения функций и сетевого кода используется кодер MATLAB, пакет поддержки MATLAB для оборудования Raspberry Pi и вычислительная библиотека ARM ®. В этом примере сгенерированный код является исполняемым на Raspberry Pi, который вызывается сценарием MATLAB, отображающим предсказанную речевую команду вместе с сигналом и слуховой спектрограммой. Взаимодействие между сценарием MATLAB и исполняемым файлом Raspberry Pi обрабатывается с помощью протокола пользовательских дейтаграмм (UDP). Дополнительные сведения о предварительной обработке звука и обучении работе с сетью см. в разделе Распознавание речевых команд с помощью глубокого обучения.

Speaker Verification Using i-Vectors

Проверка динамика с использованием i-векторов

Верификация говорящего, или аутентификация, является задачей подтверждения того, что личность говорящего - это то, кем он должен быть. Проверка спикера является активной исследовательской областью на протяжении многих лет. Ранний прорыв в производительности заключался в использовании модели гауссовой смеси и универсальной фоновой модели (GMM-UBM) [1] на акустических характеристиках (обычно mfcc). Пример см. в разделе Проверка динамики с использованием гауссовых моделей смесей. Одна из основных трудностей систем GMM-UBM связана с интерцессной изменчивостью. Совместный факторный анализ (JFA) был предложен для компенсации этой изменчивости путем отдельного моделирования межговорящей изменчивости и изменчивости канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить канальное пространство и пространство динамиков в пространство полной изменчивости. Затем интерцессная изменчивость компенсировалась с использованием бэкэнд-процедур, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как оценка косинусного сходства. [5] предложено заменить оценку косинусного сходства вероятностной моделью LDA (PLDA). [11] и [12] предложили способ гауссанизации i-векторов и, следовательно, сделать Gaussian допущения в PLDA, называемый G-PLDA или упрощенный PLDA. Хотя i-векторы изначально предлагались для проверки говорящих, они применялись ко многим проблемам, таким как распознавание языка, диаризация говорящих, распознавание эмоций, оценка возраста и антиспуфинг [10]. Недавно были предложены методы глубокого обучения для замены i-векторов d-векторами или x-векторами [8] [6].