Редукция данных

Спектрограмма Меля, MFCC, тангаж, спектральные дескрипторы

Извлечение функций из аудиосигналов для использования в качестве входов в системах машинного обучения или глубокого обучения. Используйте отдельные функции, такие как melSpectrogram, mfcc, pitch, и spectralCentroid, или использовать audioFeatureExtractor объект для создания трубопровода редукции данных, который минимизирует избыточные вычисления. В live скриптах используйте команду Извлечь аудио функции (Extract Audio Features), чтобы графически выбрать функции для извлечения.

Объекты

audioFeatureExtractorОптимизация аудио редукции данных
cepstralFeatureExtractorИзвлечение функций cepstral из сегмента audio
ivectorSystemСоздайте i-векторную систему

Задачи Live Editor

Extract Audio FeaturesОптимизация аудио редукции данных в Live Editor

Функции

расширить все

audioDeltaВычисление дельта- функций
designAuditoryFilterBankПроектирование банка слуховых фильтров
melSpectrogramСпектрограмма Меля
audioDeltaВычисление дельта- функций
cepstralCoefficientsИзвлечение коэффициентов cepstral
gtccИзвлеките коэффициенты гамматона cepstral, логарифмическую энергию, дельту и дельту
mfccИзвлечение MFCC, журнала энергии, дельты и дельты аудиосигнала
vggishFeaturesИзвлечение функций VGGish
openl3FeaturesИзвлечение OpenL3 функций
audioDeltaВычисление дельта- функций
harmonicRatioКоэффициент гармоники
pitchОцените основную частоту аудиосигнала
pitchnnОценка тангажа с глубокой нейронной сетью
audioDeltaВычисление дельта- функций
spectralCentroidСпектральный центроид для аудиосигналов и слуховых спектрограмм
spectralCrestСпектральный крест для аудиосигналов и слуховых спектрограмм
spectralDecreaseСпектральное уменьшение для аудиосигналов и слуховых спектрограмм
spectralEntropyСпектральная энтропия для аудиосигналов и слуховых спектрограмм
spectralFlatnessСпектральная плоскостность для аудиосигналов и слуховых спектрограмм
spectralFluxСпектральный поток для аудиосигналов и слуховых спектрограмм
spectralKurtosisСпектральный куртоз для аудиосигналов и слуховых спектрограмм
spectralRolloffPointСпектральная точка срабатывания для аудиосигналов и слуховых спектрограмм
spectralSkewnessСпектральный перекос для аудиосигналов и слуховых спектрограмм
spectralSlopeСпектральный наклон для аудиосигналов и слуховых спектрограмм
spectralSpreadСпектральный спред для аудиосигналов и слуховых спектрограмм
erb2hzПреобразуйте из эквивалентной прямоугольной шкалы полосы пропускания (ERB) в герц
bark2hzПреобразование шкалы коры в герц
mel2hzПреобразовать из шкалы меля в герц
hz2erbПреобразуйте из герца в эквивалентную шкалу прямоугольной полосы пропускания (ERB)
hz2barkПреобразование из герца в шкалу коры
hz2melПеревести герцы в мели шкалы
phon2soneПреобразование фона в сон
sone2phonПеревести соны в фоны

Блоки

Cepstral Feature ExtractorИзвлечение функций cepstral из сегмента audio

Темы

Спектральные дескрипторы

Обзор и применения спектральных дескрипторов.

Рекомендуемые примеры

Speaker Recognition Using x-vectors

Распознавание динамика с использованием x-векторов

Признание спикера отвечает на вопрос «Кто говорит?». Распознавание динамика обычно делится на две задачи: идентификация динамика и верификация динамика. При идентификации динамика динамик распознается путем сравнения их речи с закрытым набором шаблонов. При верификации динамика динамик распознается путем сравнения вероятности того, что речь принадлежит конкретному динамику, с заранее заданным порогом. Традиционные методы машинного обучения хорошо выполняют эти задачи в идеальных условиях. Для примеров идентификации динамика с помощью традиционных методов машинного обучения смотрите Идентификацию динамика с использованием тангажа и MFCC и Верификацию динамика с использованием i-векторов. Audio Toolbox™ предоставляет ivectorSystem, которая инкапсулирует возможность обучать i-векторную систему, регистрировать динамики или другие аудио метки, оценивать систему для порога принятия решения и идентифицировать или проверить динамики или другие аудио метки.

Speaker Verification Using i-Vectors

Верификация динамика с использованием i-векторов

Верификация типа «динамик» или аутентификация - это задача подтверждения того, что тождества динамика являются тем, кем они считаются. Верификация спикера была активной исследовательской областью на протяжении многих лет. Ранним прорывом в эффективности было использование смешанной гауссовской модели и универсальной фоновой модели (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для получения примера смотрите Динамик Верификации Использование Смешанных гауссовских моделей. Одна из основных трудностей систем GMM-UBM заключается в межсессионной изменчивости. Совместный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость, отдельно моделируя переменность между динамиками и переменность канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить пространства канала и динамика в общее пространство переменности. Затем интерсессионную изменчивость компенсировали с помощью процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как счет подобия косинуса. [5] предложил заменить оценку подобия косинуса вероятностной моделью LDA (PLDA). [11] и [12] предложили способ Гауссианизации i-векторов и, следовательно, сделать Гауссовы предположения в PLDA, называемые G-PLDA или упрощенной PLDA. В то время как i-векторы были первоначально предложены для верификации диктора, они были применены ко многим проблемам, таким как распознавание языка, диаризация диктора, распознавание эмоций, оценка возраста и анти-спуфинг [10]. Недавно были предложены методы глубокого обучения, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].