exponenta event banner

Извлечение элементов

Спектрограмма Mel, MFCC, тон, спектральные дескрипторы

Извлеките функции из звуковых сигналов для использования в качестве входных данных в системах машинного обучения или глубокого обучения. Использовать отдельные функции, такие как melSpectrogram, mfcc, pitch, и spectralCentroidили используйте audioFeatureExtractor объект для создания трубопровода извлечения элементов, который минимизирует избыточные расчеты. В интерактивных сценариях используйте команду «Извлечь звуковые функции» для графического выбора извлекаемых функций.

Объекты

audioFeatureExtractorОптимизация извлечения звуковых функций
cepstralFeatureExtractorИзвлечение кепстральных функций из аудиосегмента
ivectorSystemСоздание i-векторной системы

Задачи интерактивного редактора

Извлечь звуковые функцииОптимизация извлечения звуковых функций в редакторе Live Editor

Функции

развернуть все

audioDeltaВычислить дельта-функции
designAuditoryFilterBankРасчетный набор слуховых фильтров
melSpectrogramСпектрограмма Мэла
audioDeltaВычислить дельта-функции
cepstralCoefficientsИзвлечение кепстральных коэффициентов
gtccИзвлечение кепстральных коэффициентов гамматона, логарифмической энергии, дельты и дельты-дельты
mfccИзвлечение MFCC, энергии регистрации, дельты и дельта-дельты звукового сигнала
vggishFeaturesИзвлечение элементов VGGish
openl3FeaturesИзвлечение OpenL3 элементов
audioDeltaВычислить дельта-функции
harmonicRatioГармоническое отношение
pitchОценка основной частоты звукового сигнала
pitchnnОценка шага с помощью нейронной сети глубокого обучения
audioDeltaВычислить дельта-функции
spectralCentroidСпектральный центроид для звуковых сигналов и слуховых спектрограмм
spectralCrestСпектральный гребень для звуковых сигналов и слуховых спектрограмм
spectralDecreaseСпектральное уменьшение для звуковых сигналов и слуховых спектрограмм
spectralEntropyСпектральная энтропия для аудиосигналов и слуховых спектрограмм
spectralFlatnessСпектральная плоскостность для звуковых сигналов и слуховых спектрограмм
spectralFluxСпектральный поток для звуковых сигналов и слуховых спектрограмм
spectralKurtosisСпектральный куртоз для аудиосигналов и слуховых спектрограмм
spectralRolloffPointТочка спектрального отката для звуковых сигналов и слуховых спектрограмм
spectralSkewnessСпектральный перекос для аудиосигналов и слуховых спектрограмм
spectralSlopeСпектральный наклон для звуковых сигналов и слуховых спектрограмм
spectralSpreadСпектральный разброс для аудиосигналов и слуховых спектрограмм
erb2hzПреобразование из эквивалентного масштаба прямоугольной полосы пропускания (ERB) в герц
bark2hzПеревести из шкала Барка в герц
mel2hzПреобразовать из мель масштаб в герц
hz2erbПреобразование из герца в эквивалентную прямоугольную полосу пропускания (ERB)
hz2barkПеревести из герц в шкалу Барка
hz2melПреобразовать из герц в мель масштаб
phon2soneПеревести из phon в sone
sone2phonПеревести из сона в фон

Блоки

Экстрактор элементов CepstralИзвлечение кепстральных функций из аудиосегмента

Темы

Спектральные дескрипторы

Обзор и применение спектральных дескрипторов.

Характерные примеры

Speaker Recognition Using x-vectors

Распознавание динамиков с помощью x-векторов

Признание спикера отвечает на вопрос «Кто говорит?». Распознавание говорящих обычно делится на две задачи: идентификация говорящих и верификация говорящих. При идентификации говорящего распознается говорящий путем сравнения его речи с закрытым набором шаблонов. При проверке говорящего распознается говорящий путем сравнения вероятности того, что речь принадлежит конкретному говорящему, с заранее определенным порогом. Традиционные методы машинного обучения хорошо выполняют эти задачи в идеальных условиях. Примеры идентификации говорящих с использованием традиционных методов машинного обучения см. в разделах Идентификация говорящих с использованием основного тона и Проверка говорящих с использованием i-векторов. Audio Toolbox™ обеспечивает систему ivsector, которая включает в себя способность обучать систему i-vector, регистрировать динамики или другие звуковые метки, оценивать систему для порога принятия решения, а также идентифицировать или проверять динамики или другие звуковые метки.

Speaker Verification Using i-Vectors

Проверка динамика с использованием i-векторов

Верификация говорящего, или аутентификация, является задачей подтверждения того, что личность говорящего - это то, кем он должен быть. Проверка спикера является активной исследовательской областью на протяжении многих лет. Ранний прорыв в производительности заключался в использовании модели гауссовой смеси и универсальной фоновой модели (GMM-UBM) [1] на акустических характеристиках (обычно mfcc). Пример см. в разделе Проверка динамики с использованием гауссовых моделей смесей. Одна из основных трудностей систем GMM-UBM связана с интерцессной изменчивостью. Совместный факторный анализ (JFA) был предложен для компенсации этой изменчивости путем отдельного моделирования межговорящей изменчивости и изменчивости канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить канальное пространство и пространство динамиков в пространство полной изменчивости. Затем интерцессная изменчивость компенсировалась с использованием бэкэнд-процедур, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как оценка косинусного сходства. [5] предложено заменить оценку косинусного сходства вероятностной моделью LDA (PLDA). [11] и [12] предложили способ гауссанизации i-векторов и, следовательно, сделать Gaussian допущения в PLDA, называемый G-PLDA или упрощенный PLDA. Хотя i-векторы изначально предлагались для проверки говорящих, они применялись ко многим проблемам, таким как распознавание языка, диаризация говорящих, распознавание эмоций, оценка возраста и антиспуфинг [10]. Недавно были предложены методы глубокого обучения для замены i-векторов d-векторами или x-векторами [8] [6].

Speaker Verification Using Gaussian Mixture Model

Верификация динамика с использованием модели гауссовой смеси

Верификация говорящего, или аутентификация, является задачей проверки принадлежности данного речевого сегмента данному говорящему. В системах верификации говорящих существует неизвестный набор всех других говорящих, поэтому вероятность того, что говорящее принадлежит цели верификации, сравнивается с вероятностью того, что оно это делает. Это контрастирует с задачами идентификации говорящих, где вычисляется вероятность каждого говорящего, и эти вероятности сравниваются. И проверка говорящего, и идентификация говорящего могут быть зависимыми от текста или независимыми от текста. В этом примере создается зависящая от текста система проверки говорящего с использованием модели гауссова смешения/универсальной фоновой модели (GMM-UBM).