Машинное обучение и глубокое обучение для аудио

Управление набором данных, маркировка и увеличение; сегментация и извлечение признаков для аудио, речи и акустических приложений

Audio Toolbox™ обеспечивает функциональность, чтобы разработать аудио, речь и акустические приложения с помощью машинного обучения и глубокого обучения. Используйте audioDatastore управлять и загружать большие наборы данных. Используйте Audio Labeler, чтобы в интерактивном режиме задать и визуализировать основную истину. Используйте audioDataAugmenter увеличить наборы данных с помощью аудио специфичных методов увеличения. Используйте audioFeatureExtractor создать эффективные и модульные конвейеры извлечения признаков.

Приложения

Audio Labeler

Задайте и визуализируйте метки основной истины

Задачи Live Editor

Extract Audio Features

Оптимальная экстракция функции аудио в Live Editor

Функции

развернуть все

Аудио ввод-вывод

audioDatastore Datastore для набора звуковых файлов

Кепстральный анализ

`mfcc`	Извлеките mfcc, регистрируйте энергию, дельту и дельту дельты звукового сигнала
`gtcc`	Извлеките gammatone cepstral коэффициенты, логарифмическая энергия, дельта и дельта дельты
`cepstralFeatureExtractor`	Извлеките функции cepstral из аудио сегмента

Увеличение данных

`audioDataAugmenter`	Увеличьте аудиоданные
`audioTimeScaler`	Примените время, масштабируясь к передаче потокового аудио
`shiftPitch`	Переключите аудио подачу
`stretchAudio`	Растяните аудио во времени

Доменное преобразование

`erb2hz`	Преобразуйте от шкалы эквивалентной прямоугольной пропускной способности (ERB) до герц
`bark2hz`	Преобразуйте от шкалы Коры до герц
`mel2hz`	Преобразуйте от шкалы mel до герц
`hz2erb`	Преобразуйте от герц до шкалы эквивалентной прямоугольной пропускной способности (ERB)
`hz2bark`	Преобразуйте от герц, чтобы Лаять шкала
`hz2mel`	Преобразуйте от герц до шкалы mel
`phon2sone`	Преобразуйте от фона до сона
`sone2phon`	Преобразуйте от сона до фона

Создание фильтра

designAuditoryFilterBank Спроектируйте слуховой набор фильтров

Громкость

`integratedLoudness`	Измерьте интегрированную область значений громкости и громкости
`loudnessMeter`	Стандартно-совместимые измерения громкости

Периодичность и гармонический характер

`harmonicRatio`	Гармоническое отношение
`pitch`	Оцените основную частоту звукового сигнала

Сегментация

`detectSpeech`	Обнаружьте контуры речи в звуковом сигнале
`voiceActivityDetector`	Обнаружьте присутствие речи в звуковом сигнале

Спектральные дескрипторы

`audioFeatureExtractor`	Оптимальная экстракция функции аудио
`spectralCentroid`	Спектральный центроид для звуковых сигналов и слуховых спектрограмм
`spectralCrest`	Спектральный гребень для звуковых сигналов и слуховых спектрограмм
`spectralDecrease`	Спектральное уменьшение для звуковых сигналов и слуховых спектрограмм
`spectralEntropy`	Спектральная энтропия для звуковых сигналов и слуховых спектрограмм
`spectralFlatness`	Спектральная плоскость для звуковых сигналов и слуховых спектрограмм
`spectralFlux`	Спектральный поток для звуковых сигналов и слуховых спектрограмм
`spectralKurtosis`	Спектральный эксцесс для звуковых сигналов и слуховых спектрограмм
`spectralRolloffPoint`	Спектральная точка спада для звуковых сигналов и слуховых спектрограмм
`spectralSkewness`	Спектральная скошенность для звуковых сигналов и слуховых спектрограмм
`spectralSlope`	Спектральный наклон для звуковых сигналов и слуховых спектрограмм
`spectralSpread`	Спектральное распространение для звуковых сигналов и слуховых спектрограмм

Преобразования и окна

`melSpectrogram`	Спектрограмма Мэла
`kbdwin`	Окно Kaiser-Bessel-derived
`mdct`	Модифицированное дискретное косинусное преобразование
`imdct`	Инверсия изменила дискретное косинусное преобразование

Блоки

Voice Activity Detector	Обнаружьте присутствие речи в звуковом сигнале
Cepstral Feature Extractor	Извлеките функции cepstral из аудио сегмента
Loudness Meter	Стандартно-совместимые измерения громкости

Темы

Маркируйте Audio Using Audio Labeler

В интерактивном режиме задайте и визуализируйте метки основной истины для аудио наборов данных.

Запись речи в тексте

Выполните запись речи в тексте в MATLAB^® с помощью сторонних облачных API.

Преобразование текста к речи

Выполните преобразование текста к речи в MATLAB с помощью сторонних облачных API.

Спектральные дескрипторы

Обзор и приложения спектральных дескрипторов.

Рекомендуемые примеры

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите модель глубокого обучения, которая обнаруживает присутствие речевых команд в аудио. Пример использует Речевой Набор данных Команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Speaker Identification Using Pitch and MFCC

Идентификация динамика Используя подачу и MFCC

Демонстрирует подход машинного обучения, чтобы идентифицировать людей на основе функций, извлеченных из записанной речи. Функциями, использованными, чтобы обучить классификатор, является подача речевых сегментов речи и коэффициентов кепстра mel-частоты (MFCC). Это - идентификация динамика замкнутого множества: аудио динамика под тестом сравнено со всеми доступными моделями динамика (конечное множество), и самое близкое соответствие возвращено.

Скрипт Open Live Script

Cocktail Party Source Separation Using Deep Learning Networks

Исходное разделение приема Используя нейронные сети для глубокого обучения

Изолируйте речевой сигнал использование нейронной сети для глубокого обучения.

Скрипт Open Live Script

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевого слова в шуме Используя MFCC и сети LSTM

Идентифицируйте ключевое слово в шумной речи с помощью нейронной сети для глубокого обучения. В частности, пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и mel-частоту cepstral коэффициенты (MFCC).

Скрипт Open Live Script

Denoise Speech Using Deep Learning Networks

Речь Denoise Используя нейронные сети для глубокого обучения

Речевые сигналы Denoise с помощью нейронных сетей для глубокого обучения. Пример выдерживает сравнение, два типа сетей применились к той же задаче: полностью соединенный и сверточный.

Скрипт Open Live Script

Train Generative Adversarial Network (GAN) for Sound Synthesis

Обучите Порождающую соперничающую сеть (GAN) синтезу звука

Обучите и используйте порождающую соперничающую сеть (GAN), чтобы сгенерировать звуки.

Открыть скрипт

Voice Activity Detection in Noise Using Deep Learning

Речевое обнаружение действия в шуме Используя глубокое обучение

Обнаружьте области речи в низкой среде сигнала к шуму с помощью глубокого обучения. Пример использует Речевой Набор данных Команд, чтобы обучить сеть Bidirectional Long Short-Term Memory (BiLSTM) обнаруживать речевое действие.

Скрипт Open Live Script

Классифицируйте пол Используя сети LSTM

Классифицируйте пол докладчика, использующего глубокое обучение. Пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и Коэффициенты Gammatone Cepstral (gtcc), подачу, гармоническое отношение и несколько спектральных дескрипторов формы.

Скрипт Open Live Script

Spoken Digit Recognition with Wavelet Scattering and Deep Learning

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

Классифицируйте разговорные цифры с помощью обоих методов машинного и глубокого обучения. В примере вы выполняете классификацию с помощью времени вейвлета, рассеиваясь с машиной опорных векторов (SVM) и с сетью долгой краткосрочной памяти (LSTM). Вы также применяете Байесовую оптимизацию, чтобы определить подходящие гиперпараметры, чтобы улучшить точность сети LSTM. Кроме того, пример иллюстрирует подход с помощью глубокой сверточной нейронной сети (CNN) и спектрограмм mel-частоты.

Скрипт Open Live Script

Music Genre Classification Using Wavelet Time Scattering

Музыкальная классификация жанров Используя время вейвлета, рассеиваясь

Классифицируйте жанр музыкальной выборки с помощью времени вейвлета, рассеявшись и аудио datastore. В рассеивании вейвлета данные распространены через серию вейвлета, преобразовывает, нелинейность и усреднение, чтобы произвести представления низкого отклонения данных. Эти представления низкого отклонения затем используются в качестве входных параметров к классификатору.

Открыть скрипт

Sequential Feature Selection for Audio Features

Последовательный выбор признаков для функций аудио

Типичный рабочий процесс для выбора признаков применился к задаче разговорного распознавания цифры.

Скрипт Open Live Script

Речевое распознавание эмоции

Иллюстрирует простую систему речевого распознавания эмоции (SER) с помощью сети BiLSTM. Вы начинаете путем загрузки набора данных и затем тестирования обучившего сеть на отдельных файлах. Сеть была обучена на маленькой немецкоязычной базе данных [1].

Скрипт Open Live Script

Acoustic Scene Recognition Using Late Fusion

Акустическое распознавание сцены Используя последний Fusion

Создайте последнюю систему сплава мультимодели для акустического распознавания сцены. Пример обучает сверточную нейронную сеть (CNN) с помощью mel спектрограммы и классификатор ансамбля с помощью рассеивания вейвлета. Пример использует набор данных TUT в обучении и оценке [1].

Открыть скрипт

Speaker Verification Using Gaussian Mixture Model

Верификация динамика Используя смешанную гауссовскую модель

Верификация динамика или аутентификация, является задачей проверки, что данный речевой сегмент принадлежит данному динамику. В системах верификации динамика существует неизвестный набор всех других динамиков, таким образом, вероятность, что произнесение принадлежит цели верификации, сравнивается с вероятностью, что это не делает. Это контрастирует с идентификационными задачами динамика, где вероятность каждого динамика вычисляется, и те вероятности сравнены. И верификация динамика и идентификация динамика могут быть текстовым зависимым или независимым текстом. В этом примере вы создаете зависимую текстом систему верификации динамика с помощью смешанной гауссовской модели / универсальная фоновая модель (GMM-UBM).

Скрипт Open Live Script

Верификация динамика Используя i-векторы

Верификация динамика или аутентификация, является задачей подтверждения, что идентичность динамика состоит в том, кем они подразумевают быть. Верификация динамика много лет была активной областью исследования. Ранний прорыв производительности должен был использовать смешанную гауссовскую модель и универсальную фоновую модель (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для примера смотрите, что Верификация Динамика Использует смешанные гауссовские модели. Одна из основных трудностей систем GMM-UBM включает изменчивость межсеанса. Объединенный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость путем отдельного моделирования изменчивости междинамика и канала или изменчивости сеанса [2] [3]. Однако [4] обнаружил, что канал включает JFA, также содержал информацию о динамиках и предложил комбинировать канал и пробелы динамика в общий пробел изменчивости. Изменчивость межсеанса была затем компенсирована при помощи процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и нормализация ковариации в классе (WCCN), сопровождаемая выигрышем, таких как счет подобия косинуса. [5] предложил заменить подобие косинуса, выигрывающее на вероятностный LDA (PLDA). В то время как i-векторы были первоначально предложены для верификации динамика, они были применены ко многим проблемам, как распознавание языка, динамик diarization, распознавание эмоции, оценка возраста и антиспуфинг [10]. Недавно, методы глубокого обучения были предложены, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].

Скрипт Open Live Script

Pitch Tracking Using Multiple Pitch Estimations and HMM

Передайте отслеживание Используя несколько оценок подачи и HMM

Выполните отслеживание подачи с помощью нескольких оценок подачи, октавы и среднего сглаживания и скрытой модели Маркова (HMM).

Скрипт Open Live Script

Time-Frequency Masking for Harmonic-Percussive Source Separation

Маскирование частоты времени для гармонически-ударного исходного разделения

Маскирование частоты времени является процессом применения весов к интервалам представления частоты времени, чтобы улучшить, уменьшить, или изолировать фрагменты аудио.

Скрипт Open Live Script

Анализ LPC и синтез речи

Используйте Левинсона-Дербина и Изменяющиеся во времени блоки Фильтра Решетки для передачи низкой пропускной способности речи с помощью линейного предсказательного кодирования.

Открытая модель

Документация

Машинное обучение и глубокое обучение для аудио

Приложения

Задачи Live Editor

Функции

Аудио ввод-вывод

Кепстральный анализ

Увеличение данных

Доменное преобразование

Создание фильтра

Громкость

Периодичность и гармонический характер

Сегментация

Спектральные дескрипторы

Преобразования и окна

Блоки

Темы

Рекомендуемые примеры

Распознание речевых команд с использованием глубокого обучения

Идентификация динамика Используя подачу и MFCC

Исходное разделение приема Используя нейронные сети для глубокого обучения

Определение ключевого слова в шуме Используя MFCC и сети LSTM

Речь Denoise Используя нейронные сети для глубокого обучения

Обучите Порождающую соперничающую сеть (GAN) синтезу звука

Речевое обнаружение действия в шуме Используя глубокое обучение

Классифицируйте пол Используя сети LSTM

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

Музыкальная классификация жанров Используя время вейвлета, рассеиваясь

Последовательный выбор признаков для функций аудио

Речевое распознавание эмоции

Акустическое распознавание сцены Используя последний Fusion

Верификация динамика Используя смешанную гауссовскую модель

Верификация динамика Используя i-векторы

Передайте отслеживание Используя несколько оценок подачи и HMM

Маскирование частоты времени для гармонически-ударного исходного разделения

Анализ LPC и синтез речи

Документация Audio Toolbox

Поддержка