Машинное обучение и глубокое обучение для аудио

Управление набором данных, маркировка и увеличение; сегментация и извлечение признаков для аудио, речи и акустических приложений

Audio Toolbox™ обеспечивает функциональность, чтобы разработать аудио, речь и акустические приложения с помощью машинного обучения и глубокого обучения. Используйте audioDatastore управлять и загружать большие наборы данных. Используйте Audio Labeler, чтобы в интерактивном режиме задать и визуализировать основную истину. Используйте audioDataAugmenter увеличить наборы данных с помощью аудио специфичных методов увеличения. Используйте audioFeatureExtractor создать эффективные и модульные конвейеры извлечения признаков.

Приложения

Audio LabelerЗадайте и визуализируйте метки основной истины

Задачи Live Editor

Extract Audio FeaturesОптимальная экстракция функции аудио в Live Editor

Функции

развернуть все

audioDatastoreDatastore для набора звуковых файлов
mfccИзвлеките mfcc, регистрируйте энергию, дельту и дельту дельты звукового сигнала
gtccИзвлеките gammatone cepstral коэффициенты, логарифмическая энергия, дельта и дельта дельты
cepstralFeatureExtractorИзвлеките функции cepstral из аудио сегмента
audioDataAugmenterУвеличьте аудиоданные
audioTimeScalerПримените время, масштабируясь к передаче потокового аудио
shiftPitchПереключите аудио подачу
stretchAudioРастяните аудио во времени
erb2hzПреобразуйте от шкалы эквивалентной прямоугольной пропускной способности (ERB) до герц
bark2hzПреобразуйте от шкалы Коры до герц
mel2hzПреобразуйте от шкалы mel до герц
hz2erbПреобразуйте от герц до шкалы эквивалентной прямоугольной пропускной способности (ERB)
hz2barkПреобразуйте от герц, чтобы Лаять шкала
hz2melПреобразуйте от герц до шкалы mel
phon2soneПреобразуйте от фона до сона
sone2phonПреобразуйте от сона до фона
designAuditoryFilterBankСпроектируйте слуховой набор фильтров
integratedLoudnessИзмерьте интегрированную область значений громкости и громкости
loudnessMeterСтандартно-совместимые измерения громкости
harmonicRatioГармоническое отношение
pitchОцените основную частоту звукового сигнала
detectSpeechОбнаружьте контуры речи в звуковом сигнале
voiceActivityDetectorОбнаружьте присутствие речи в звуковом сигнале
audioFeatureExtractorОптимальная экстракция функции аудио
spectralCentroidСпектральный центроид для звуковых сигналов и слуховых спектрограмм
spectralCrestСпектральный гребень для звуковых сигналов и слуховых спектрограмм
spectralDecreaseСпектральное уменьшение для звуковых сигналов и слуховых спектрограмм
spectralEntropyСпектральная энтропия для звуковых сигналов и слуховых спектрограмм
spectralFlatnessСпектральная плоскость для звуковых сигналов и слуховых спектрограмм
spectralFluxСпектральный поток для звуковых сигналов и слуховых спектрограмм
spectralKurtosisСпектральный эксцесс для звуковых сигналов и слуховых спектрограмм
spectralRolloffPointСпектральная точка спада для звуковых сигналов и слуховых спектрограмм
spectralSkewnessСпектральная скошенность для звуковых сигналов и слуховых спектрограмм
spectralSlopeСпектральный наклон для звуковых сигналов и слуховых спектрограмм
spectralSpreadСпектральное распространение для звуковых сигналов и слуховых спектрограмм
melSpectrogramСпектрограмма Мэла
kbdwinОкно Kaiser-Bessel-derived
mdctМодифицированное дискретное косинусное преобразование
imdctИнверсия изменила дискретное косинусное преобразование

Блоки

Voice Activity DetectorОбнаружьте присутствие речи в звуковом сигнале
Cepstral Feature ExtractorИзвлеките функции cepstral из аудио сегмента
Loudness MeterСтандартно-совместимые измерения громкости

Темы

Маркируйте Audio Using Audio Labeler

В интерактивном режиме задайте и визуализируйте метки основной истины для аудио наборов данных.

Запись речи в тексте

Выполните запись речи в тексте в MATLAB® с помощью сторонних облачных API.

Преобразование текста к речи

Выполните преобразование текста к речи в MATLAB с помощью сторонних облачных API.

Спектральные дескрипторы

Обзор и приложения спектральных дескрипторов.

Рекомендуемые примеры

Speaker Verification Using i-Vectors

Верификация динамика Используя i-векторы

Верификация динамика или аутентификация, является задачей подтверждения, что идентичность динамика состоит в том, кем они подразумевают быть. Верификация динамика много лет была активной областью исследования. Ранний прорыв производительности должен был использовать смешанную гауссовскую модель и универсальную фоновую модель (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для примера смотрите, что Верификация Динамика Использует смешанные гауссовские модели. Одна из основных трудностей систем GMM-UBM включает изменчивость межсеанса. Объединенный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость путем отдельного моделирования изменчивости междинамика и канала или изменчивости сеанса [2] [3]. Однако [4] обнаружил, что канал включает JFA, также содержал информацию о динамиках и предложил комбинировать канал и пробелы динамика в общий пробел изменчивости. Изменчивость межсеанса была затем компенсирована при помощи процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и нормализация ковариации в классе (WCCN), сопровождаемая выигрышем, таких как счет подобия косинуса. [5] предложил заменить подобие косинуса, выигрывающее на вероятностный LDA (PLDA). В то время как i-векторы были первоначально предложены для верификации динамика, они были применены ко многим проблемам, как распознавание языка, динамик diarization, распознавание эмоции, оценка возраста и антиспуфинг [10]. Недавно, методы глубокого обучения были предложены, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].