Машинное обучение и глубокое обучение для аудио

Управление набором данных, маркировка и увеличение; сегментация и редукция данных для аудио, речи и акустических приложений

Audio Toolbox™ предоставляет функциональные возможности для разработки машинного и глубокого обучения решений для аудио-, речевых и акустических приложений, включая идентификацию динамика, распознавание речевых команд, акустическое распознавание сцен и многое другое.

  • Использование audioDatastore для приема больших наборов аудио данных и параллельной обработки файлов.

  • Используйте Audio Labeler для создания наборов аудио данных путем аннотирования аудиозаписей вручную и автоматически.

  • Использование audioDataAugmenter создание рандомизированных трубопроводов встроенных или пользовательских способов обработки сигналов для увеличения и синтеза наборов аудио данных.

  • Использование audioFeatureExtractor извлечение комбинаций различных функций при совместном использовании промежуточных расчетов.

Audio Toolbox также предоставляет доступ к сторонним API для преобразования текста в речь и речи в текст, и включает предварительно обученные модели VGGish и YAMNet, чтобы можно было выполнять передачу обучения, классифицировать звуки и извлекать функцию встраивания. Использование предварительно обученных сетей требует Toolbox™ Deep Learning.

Рекомендуемые примеры

Speaker Verification Using i-Vectors

Верификация динамика с использованием i-векторов

Верификация типа «динамик» или аутентификация - это задача подтверждения того, что тождества динамика являются тем, кем они считаются. Верификация спикера была активной исследовательской областью на протяжении многих лет. Ранним прорывом в эффективности было использование смешанной гауссовской модели и универсальной фоновой модели (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для получения примера смотрите Динамик Верификации Использование Смешанных гауссовских моделей. Одна из основных трудностей систем GMM-UBM заключается в межсессионной изменчивости. Совместный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость, отдельно моделируя переменность между динамиками и переменность канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить пространства канала и динамика в общее пространство переменности. Затем интерсессионную изменчивость компенсировали с помощью процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как счет подобия косинуса. [5] предложил заменить оценку подобия косинуса вероятностной моделью LDA (PLDA). [11] и [12] предложили способ Гауссианизации i-векторов и, следовательно, сделать Гауссовы предположения в PLDA, называемые G-PLDA или упрощенной PLDA. В то время как i-векторы были первоначально предложены для верификации диктора, они были применены ко многим проблемам, таким как распознавание языка, диаризация диктора, распознавание эмоций, оценка возраста и анти-спуфинг [10]. Недавно были предложены методы глубокого обучения, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].