Извлечение признаков и глубокое обучение

Аудио маркировка, datastore, речевое обнаружение действия, MFCC, подача, громкость

Audio Toolbox™ позволяет вам извлечь слуховые функции, характерные для задач глубокого обучения и машинного обучения. Используйте Audio Labeler, чтобы в интерактивном режиме задать и визуализировать основную истину для аудио наборов данных. Используйте audioDatastore обрабатывать большое количество аудиозаписей для приложений пакетной обработки данных или машинного и глубокого обучения.

Приложения

Audio Labeler

Задайте и визуализируйте метки основной истины

Функции

развернуть все

Аудио ввод-вывод

audioDatastore Datastore для набора звуковых файлов

Кепстральный анализ

`mfcc`	Извлеките mfcc, регистрируйте энергию, дельту и дельту дельты звукового сигнала
`gtcc`	Извлеките gammatone cepstral коэффициенты, логарифмическая энергия, дельта и дельта дельты
`cepstralFeatureExtractor`	Извлеките функции cepstral из аудио сегмента

Увеличение данных

`audioDataAugmenter`	Увеличьте аудиоданные
`audioTimeScaler`	Примените время, масштабируясь к передаче потокового аудио
`shiftPitch`	Переключите аудио подачу
`stretchAudio`	Растяните аудио во времени

Доменное преобразование

`erb2hz`	Преобразуйте от шкалы эквивалентной прямоугольной пропускной способности (ERB) до герц
`bark2hz`	Преобразуйте от шкалы Коры до герц
`mel2hz`	Преобразуйте от шкалы mel до герц
`hz2erb`	Преобразуйте от герц до шкалы эквивалентной прямоугольной пропускной способности (ERB)
`hz2bark`	Преобразуйте от герц, чтобы Лаять шкала
`hz2mel`	Преобразуйте от герц до шкалы mel

Создание фильтра

designAuditoryFilterBank Спроектируйте слуховой набор фильтров

Громкость

`integratedLoudness`	Измерьте интегрированную область значений громкости и громкости
`loudnessMeter`	Стандартно-совместимые измерения громкости

Периодичность и гармонический характер

`harmonicRatio`	Гармоническое отношение
`pitch`	Оцените основную частоту звукового сигнала

Сегментация

voiceActivityDetector Обнаружьте присутствие речи в звуковом сигнале

Спектральные дескрипторы

`audioFeatureExtractor`	Оптимальная экстракция функции аудио
`spectralCentroid`	Спектральный центроид для звуковых сигналов и слуховых спектрограмм
`spectralCrest`	Спектральный гребень для звуковых сигналов и слуховых спектрограмм
`spectralDecrease`	Спектральное уменьшение для звуковых сигналов и слуховых спектрограмм
`spectralEntropy`	Спектральная энтропия для звуковых сигналов и слуховых спектрограмм
`spectralFlatness`	Спектральная плоскость для звуковых сигналов и слуховых спектрограмм
`spectralFlux`	Спектральный поток для звуковых сигналов и слуховых спектрограмм
`spectralKurtosis`	Спектральный эксцесс для звуковых сигналов и слуховых спектрограмм
`spectralRolloffPoint`	Спектральная точка спада для звуковых сигналов и слуховых спектрограмм
`spectralSkewness`	Спектральная скошенность для звуковых сигналов и слуховых спектрограмм
`spectralSlope`	Спектральный наклон для звуковых сигналов и слуховых спектрограмм
`spectralSpread`	Спектральное распространение для звуковых сигналов и слуховых спектрограмм

Преобразования и окна

`melSpectrogram`	Спектрограмма Мэла
`kbdwin`	Окно Kaiser-Bessel-derived
`mdct`	Модифицированное дискретное косинусное преобразование
`imdct`	Инверсия изменила дискретное косинусное преобразование

Блоки

Voice Activity Detector	Обнаружьте присутствие речи в звуковом сигнале
Cepstral Feature Extractor	Извлеките функции cepstral из аудио сегмента
Loudness Meter	Стандартно-совместимые измерения громкости

Темы

Маркируйте Audio Using Audio Labeler

В интерактивном режиме задайте и визуализируйте метки основной истины для аудио наборов данных.

Запись речи в тексте

Выполните запись речи в тексте в MATLAB^® с помощью сторонних облачных API.

Спектральные дескрипторы

Обзор и приложения спектральных дескрипторов.

Рекомендуемые примеры

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите простую модель глубокого обучения, которая обнаруживает присутствие речевых команд в аудио. Пример использует Речевой Набор данных Команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Speaker Identification Using Pitch and MFCC

Идентификация динамика Используя подачу и MFCC

Демонстрирует подход машинного обучения, чтобы идентифицировать людей на основе функций, извлеченных из записанной речи. Функции, использованные, чтобы обучить классификатор: подача речевых сегментов речи и Коэффициенты кепстра Mel-частоты (MFCC). Это - идентификация динамика замкнутого множества - аудио динамика под тестом сравнено со всеми доступными моделями динамика (конечное множество), и самое близкое соответствие возвращено.

Открыть скрипт

Cocktail Party Source Separation Using Deep Learning Networks

Исходное разделение приема Используя нейронные сети для глубокого обучения

Изолируйте речевой сигнал использование нейронной сети для глубокого обучения.

Скрипт Open Live Script

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевого слова в шуме Используя MFCC и сети LSTM

Идентифицируйте ключевое слово в шумной речи с помощью нейронной сети для глубокого обучения. В частности, пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и mel-частоту cepstral коэффициенты (MFCC).

Открыть скрипт

Denoise Speech Using Deep Learning Networks

Речь Denoise Используя нейронные сети для глубокого обучения

Речевые сигналы Denoise с помощью нейронных сетей для глубокого обучения. Пример выдерживает сравнение, два типа сетей применились к той же задаче: полностью соединенный и сверточный.

Скрипт Open Live Script

Voice Activity Detection in Noise Using Deep Learning

Речевое обнаружение действия в шуме Используя глубокое обучение

Обнаружьте области речи в низкой среде сигнала к шуму с помощью глубокого обучения. Пример использует Речевой Набор данных Команд, чтобы обучить сеть Bidirectional Long Short-Term Memory (BiLSTM) обнаруживать речевое действие.

Открыть скрипт

Классифицируйте пол Используя сети LSTM

Классифицируйте пол докладчика, использующего глубокое обучение. В частности, пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и Коэффициенты Gammatone Cepstral (gtcc), подачу, гармоническое отношение и несколько спектральных дескрипторов формы.

Открыть скрипт

Spoken Digit Recognition with Wavelet Scattering and Deep Learning

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

Классифицируйте разговорные цифры с помощью рассеивания времени вейвлета, соединенного с машиной опорных векторов и глубокой сверточной сетью на основе спектрограмм mel-частоты.

Скрипт Open Live Script

Music Genre Classification Using Wavelet Time Scattering

Музыкальная классификация жанров Используя время вейвлета, рассеиваясь

Классифицируйте жанр музыкальной выборки с помощью времени вейвлета, рассеявшись и аудио datastore. В рассеивании вейвлета данные распространены через серию вейвлета, преобразовывает, нелинейность и усреднение, чтобы произвести представления низкого отклонения данных. Эти представления низкого отклонения затем используются в качестве входных параметров к классификатору.

Открыть скрипт

Sequential Feature Selection for Speech Emotion Recognition

Последовательный выбор признаков для речевого распознавания эмоции

Типичный рабочий процесс для выбора признаков применился к задаче речевого распознавания эмоции. Вы начинаете путем создания базовой точности, использующей общие функции аудио (MFCC). Вы затем увеличиваете свой набор данных, чтобы уменьшить сверхподбор кривой. Наконец, вы выполняете последовательный выбор признаков, чтобы выбрать лучший набор функций.

Открыть скрипт

Acoustic Scene Recognition Using Late Fusion

Акустическое распознавание сцены Используя последний Fusion

Создайте последнюю систему сплава мультимодели для акустического распознавания сцены. Пример обучает сверточную нейронную сеть (CNN) с помощью mel спектрограммы и классификатор ансамбля с помощью рассеивания вейвлета. Пример использует набор данных TUT в обучении и оценке [1].

Открыть скрипт

Pitch Tracking Using Multiple Pitch Estimations and HMM

Передайте отслеживание Используя несколько оценок подачи и HMM

Выполните отслеживание подачи с помощью нескольких оценок подачи, октавы и среднего сглаживания и Скрытой модели Маркова (HMM).

Скрипт Open Live Script

Time-Frequency Masking for Harmonic-Percussive Source Separation

Маскирование частоты времени для гармонически-ударного исходного разделения

Маскирование частоты времени является процессом применения весов к интервалам представления частоты времени, чтобы улучшить, уменьшить, или изолировать фрагменты аудио.

Скрипт Open Live Script

Анализ LPC и синтез речи

Используйте Левинсона-Дербина и Изменяющиеся во времени блоки Фильтра Решетки для передачи низкой пропускной способности речи с помощью линейного предсказательного кодирования.

Открытая модель

Документация

Извлечение признаков и глубокое обучение

Приложения

Функции

Аудио ввод-вывод

Кепстральный анализ

Увеличение данных

Доменное преобразование

Создание фильтра

Громкость

Периодичность и гармонический характер

Сегментация

Спектральные дескрипторы

Преобразования и окна

Блоки

Темы

Рекомендуемые примеры

Распознание речевых команд с использованием глубокого обучения

Идентификация динамика Используя подачу и MFCC

Исходное разделение приема Используя нейронные сети для глубокого обучения

Определение ключевого слова в шуме Используя MFCC и сети LSTM

Речь Denoise Используя нейронные сети для глубокого обучения

Речевое обнаружение действия в шуме Используя глубокое обучение

Классифицируйте пол Используя сети LSTM

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

Музыкальная классификация жанров Используя время вейвлета, рассеиваясь

Последовательный выбор признаков для речевого распознавания эмоции

Акустическое распознавание сцены Используя последний Fusion

Передайте отслеживание Используя несколько оценок подачи и HMM

Маскирование частоты времени для гармонически-ударного исходного разделения

Анализ LPC и синтез речи

Документация Audio Toolbox

Поддержка