Машинное обучение и глубокое обучение для аудио

Управление набором данных, маркировка и увеличение; сегментация и извлечение признаков для аудио, речи и акустических приложений

Audio Toolbox™ обеспечивает функциональность, чтобы разработать решения для машинного и глубокого обучения для аудио, речи и акустических приложений включая идентификацию динамика, речевое распознавание команды, акустическое распознавание сцены, и многое другое.

  • Используйте audioDatastore поглощать большие наборы аудиоданных и файлы процесса параллельно.

  • Используйте Audio Labeler, чтобы создать наборы аудиоданных путем аннотирования аудиозаписей вручную и автоматически.

  • Используйте audioDataAugmenter создать рандомизированные трубопроводы встроенных или пользовательских методов обработки сигналов для увеличения и синтезирования наборов аудиоданных.

  • Используйте audioFeatureExtractor извлекать комбинации различных функций при совместном использовании промежуточных расчетов.

Audio Toolbox также обеспечивает доступ к сторонним API для текста к речи и речи в тексте, и это включает предварительно обученные модели VGGish и YAMNet так, чтобы можно было использовать обучение с переносом, классифицировать звуки и извлечь вложения функции. Используя предварительно обученные сети требует Deep Learning Toolbox™.

Рекомендуемые примеры

Speech Command Recognition Code Generation on Raspberry Pi

Речевая генерация кода распознавания команды на Raspberry Pi

Разверните извлечение признаков и сверточную нейронную сеть (CNN) для речевого распознавания команды к Raspberry Pi™. Чтобы сгенерировать извлечение признаков и сетевой код, вы используете MATLAB Coder, Пакет поддержки MATLAB для Оборудования Raspberry Pi и Библиотеку ARM® Compute. В этом примере сгенерированный код является исполняемым файлом на вашем Raspberry Pi, который вызван скриптом MATLAB, который отображает предсказанную речевую команду наряду с и слуховой спектрограммой сигнала. Взаимодействие между скриптом MATLAB и исполняемым файлом на вашем Raspberry Pi обработано с помощью пользовательского дейтаграммного протокола (UDP). Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Speaker Verification Using i-Vectors

Верификация динамика Используя i-векторы

Верификация динамика или аутентификация, является задачей подтверждения, что идентичность динамика состоит в том, кем они подразумевают быть. Верификация динамика много лет была активной областью исследования. Ранний прорыв эффективности должен был использовать смешанную гауссовскую модель и универсальную фоновую модель (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для примера смотрите, что Верификация Динамика Использует смешанные гауссовские модели. Одна из основных трудностей систем GMM-UBM включает изменчивость межсеанса. Объединенный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость путем отдельного моделирования изменчивости междинамика и канала или изменчивости сеанса [2] [3]. Однако [4] обнаружил, что канал включает JFA, также содержал информацию о динамиках и предложил комбинировать канал и пробелы динамика в общий пробел изменчивости. Изменчивость межсеанса была затем компенсирована при помощи процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и нормализация ковариации в классе (WCCN), сопровождаемая выигрышем, таких как счет подобия косинуса. [5] предложил заменить подобие косинуса, выигрывающее на вероятностную модель LDA (PLDA). [11] и [12] предложил метод Gaussianize i-векторы, и поэтому сделайте Гауссовы предположения в PLDA, называемом G-PLDA или упрощенным PLDA. В то время как i-векторы были первоначально предложены для верификации динамика, они были применены ко многим проблемам, как распознавание языка, динамик diarization, распознавание эмоции, оценка возраста и антиспуфинг [10]. Недавно, методы глубокого обучения были предложены, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].