Извлечение признаков

Спектрограмма Мэла, MFCC, тангаж, спектральные дескрипторы

Извлеките функции из звуковых сигналов для использования в качестве входа к системам глубокого обучения или машинному обучению. Используйте отдельные функции, такой как melSpectrogram, mfcc, pitch, и spectralCentroid, или используйте audioFeatureExtractor объект создать трубопровод извлечения признаков, который минимизирует избыточные вычисления. В live скриптах используйте Функции аудио Извлечения, чтобы графически выбрать функции, чтобы извлечь.

Объекты

audioFeatureExtractorОптимальная экстракция функции аудио
cepstralFeatureExtractorИзвлеките функции cepstral из аудио сегмента
ivectorSystemСоздайте систему i-вектора

Задачи Live Editor

Extract Audio FeaturesОптимальная экстракция функции аудио в Live Editor

Функции

развернуть все

audioDeltaВычислите функции дельты
designAuditoryFilterBankСпроектируйте слуховой набор фильтров
melSpectrogramСпектрограмма Мэла
audioDeltaВычислите функции дельты
cepstralCoefficientsИзвлеките cepstral коэффициенты
gtccИзвлеките gammatone cepstral коэффициенты, логарифмическая энергия, дельта и дельта дельты
mfccИзвлеките MFCC, регистрируйте энергию, дельту и дельту дельты звукового сигнала
vggishFeaturesИзвлеките функции VGGish
openl3FeaturesИзвлеките функции OpenL3
audioDeltaВычислите функции дельты
harmonicRatioГармоническое отношение
pitchОцените основную частоту звукового сигнала
pitchnnОцените тангаж с глубокой нейронной сетью
audioDeltaВычислите функции дельты
spectralCentroidСпектральный центроид для звуковых сигналов и слуховых спектрограмм
spectralCrestСпектральный гребень для звуковых сигналов и слуховых спектрограмм
spectralDecreaseСпектральное уменьшение для звуковых сигналов и слуховых спектрограмм
spectralEntropyСпектральная энтропия для звуковых сигналов и слуховых спектрограмм
spectralFlatnessСпектральная плоскость для звуковых сигналов и слуховых спектрограмм
spectralFluxСпектральный поток для звуковых сигналов и слуховых спектрограмм
spectralKurtosisСпектральный эксцесс для звуковых сигналов и слуховых спектрограмм
spectralRolloffPointСпектральная точка спада для звуковых сигналов и слуховых спектрограмм
spectralSkewnessСпектральная скошенность для звуковых сигналов и слуховых спектрограмм
spectralSlopeСпектральный наклон для звуковых сигналов и слуховых спектрограмм
spectralSpreadСпектральное распространение для звуковых сигналов и слуховых спектрограмм
erb2hzПреобразуйте от шкалы эквивалентной прямоугольной полосы пропускания (ERB) до герц
bark2hzПреобразуйте от шкалы Коры до герц
mel2hzПреобразуйте от шкалы mel до герц
hz2erbПреобразуйте от герц до шкалы эквивалентной прямоугольной полосы пропускания (ERB)
hz2barkПреобразуйте от герц, чтобы Лаять шкала
hz2melПреобразуйте от герц до шкалы mel
phon2soneПреобразуйте от фона до сона
sone2phonПреобразуйте от сона до фона

Блоки

Cepstral Feature ExtractorИзвлеките функции cepstral из аудио сегмента

Темы

Спектральные дескрипторы

Обзор и приложения спектральных дескрипторов.

Изучите фильтр перед акцентом Используя глубокое обучение

Используйте сверточную глубокую сеть, чтобы изучить фильтр перед акцентом для распознавания речи.

Рекомендуемые примеры

Speaker Verification Using i-Vectors

Верификация динамика Используя i-векторы

Верификация динамика или аутентификация, является задачей подтверждения, что идентичность динамика состоит в том, кем они подразумевают быть. Верификация динамика много лет была активной областью исследования. Ранний прорыв эффективности должен был использовать смешанную гауссовскую модель и универсальную фоновую модель (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для примера смотрите, что Верификация Динамика Использует смешанные гауссовские модели. Одна из основных трудностей систем GMM-UBM включает изменчивость межсеанса. Объединенный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость путем отдельного моделирования изменчивости междинамика и канала или изменчивости сеанса [2] [3]. Однако [4] обнаружил, что канал включает JFA, также содержал информацию о динамиках и предложил комбинировать канал и пробелы динамика в общий пробел изменчивости. Изменчивость межсеанса была затем компенсирована при помощи процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и нормализация ковариации в классе (WCCN), сопровождаемая выигрышем, таких как счет подобия косинуса. [5] предложил заменить подобие косинуса, выигрывающее на вероятностную модель LDA (PLDA). [11] и [12] предложил метод Gaussianize i-векторы, и поэтому сделайте Гауссовы предположения в PLDA, называемом G-PLDA или упрощенным PLDA. В то время как i-векторы были первоначально предложены для верификации динамика, они были применены ко многим проблемам, как распознавание языка, динамик diarization, распознавание эмоции, оценка возраста и антиспуфинг [10]. Недавно, методы глубокого обучения были предложены, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].