Извлечение признаков

Спектрограмма Мэла, MFCC, подача, спектральные дескрипторы

Извлеките функции из звуковых сигналов для использования в качестве входа к системам глубокого обучения или машинному обучению. Используйте отдельные функции, такой как melSpectrogram, mfcc, pitch, и spectralCentroid, или используйте audioFeatureExtractor объект создать конвейер извлечения признаков, который минимизирует избыточные вычисления. В live скриптах используйте Функции аудио Извлечения, чтобы графически выбрать функции, чтобы извлечь.

Объекты

`audioFeatureExtractor`	Оптимальная экстракция функции аудио
`cepstralFeatureExtractor`	Извлеките функции cepstral из аудио сегмента

Задачи Live Editor

Extract Audio Features

Оптимальная экстракция функции аудио в Live Editor

Функции

развернуть все

Слуховые спектрограммы

`audioDelta`	Вычислите функции дельты
`designAuditoryFilterBank`	Спроектируйте слуховой набор фильтров
`melSpectrogram`	Спектрограмма Мэла

Слуховые коэффициенты Cepstral

`audioDelta`	Вычислите функции дельты
`cepstralCoefficients`	Извлеките cepstral коэффициенты
`gtcc`	Извлеките gammatone cepstral коэффициенты, логарифмическая энергия, дельта и дельта дельты
`mfcc`	Извлеките MFCC, регистрируйте энергию, дельту и дельту дельты звукового сигнала

Покажите вложения

vggishFeatures Извлеките функции VGGish

Периодичность и гармонический характер

`audioDelta`	Вычислите функции дельты
`harmonicRatio`	Гармоническое отношение
`pitch`	Оцените основную частоту звукового сигнала

Спектральные дескрипторы

`audioDelta`	Вычислите функции дельты
`spectralCentroid`	Спектральный центроид для звуковых сигналов и слуховых спектрограмм
`spectralCrest`	Спектральный гребень для звуковых сигналов и слуховых спектрограмм
`spectralDecrease`	Спектральное уменьшение для звуковых сигналов и слуховых спектрограмм
`spectralEntropy`	Спектральная энтропия для звуковых сигналов и слуховых спектрограмм
`spectralFlatness`	Спектральная плоскость для звуковых сигналов и слуховых спектрограмм
`spectralFlux`	Спектральный поток для звуковых сигналов и слуховых спектрограмм
`spectralKurtosis`	Спектральный эксцесс для звуковых сигналов и слуховых спектрограмм
`spectralRolloffPoint`	Спектральная точка спада для звуковых сигналов и слуховых спектрограмм
`spectralSkewness`	Спектральная скошенность для звуковых сигналов и слуховых спектрограмм
`spectralSlope`	Спектральный наклон для звуковых сигналов и слуховых спектрограмм
`spectralSpread`	Спектральное распространение для звуковых сигналов и слуховых спектрограмм

Доменное преобразование

`erb2hz`	Преобразуйте от шкалы эквивалентной прямоугольной пропускной способности (ERB) до герц
`bark2hz`	Преобразуйте от шкалы Коры до герц
`mel2hz`	Преобразуйте от шкалы mel до герц
`hz2erb`	Преобразуйте от герц до шкалы эквивалентной прямоугольной пропускной способности (ERB)
`hz2bark`	Преобразуйте от герц, чтобы Лаять шкала
`hz2mel`	Преобразуйте от герц до шкалы mel
`phon2sone`	Преобразуйте от фона до сона
`sone2phon`	Преобразуйте от сона до фона

Блоки

Cepstral Feature Extractor

Извлеките функции cepstral из аудио сегмента

Темы

Спектральные дескрипторы

Обзор и приложения спектральных дескрипторов.

Рекомендуемые примеры

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите модель глубокого обучения, которая обнаруживает присутствие речевых команд в аудио. Пример использует Речевой Набор данных Команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Voice Activity Detection in Noise Using Deep Learning

Речевое обнаружение действия в шуме Используя глубокое обучение

Обнаружьте области речи в низкой среде сигнала к шуму с помощью глубокого обучения. Пример использует Речевой Набор данных Команд, чтобы обучить сеть Bidirectional Long Short-Term Memory (BiLSTM) обнаруживать речевое действие.

Скрипт Open Live Script

Классифицируйте пол Используя сети LSTM

Классифицируйте пол докладчика, использующего глубокое обучение. Пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и Коэффициенты Gammatone Cepstral (gtcc), подачу, гармоническое отношение и несколько спектральных дескрипторов формы.

Скрипт Open Live Script

Spoken Digit Recognition with Wavelet Scattering and Deep Learning

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

Классифицируйте разговорные цифры с помощью обоих методов машинного и глубокого обучения. В примере вы выполняете классификацию с помощью времени вейвлета, рассеиваясь с машиной опорных векторов (SVM) и с сетью долгой краткосрочной памяти (LSTM). Вы также применяете Байесовую оптимизацию, чтобы определить подходящие гиперпараметры, чтобы улучшить точность сети LSTM. Кроме того, пример иллюстрирует подход с помощью глубокой сверточной нейронной сети (CNN) и спектрограмм mel-частоты.

Скрипт Open Live Script

Music Genre Classification Using Wavelet Time Scattering

Музыкальная классификация жанров Используя время вейвлета, рассеиваясь

Классифицируйте жанр музыкальной выборки с помощью времени вейвлета, рассеявшись и аудио datastore. В рассеивании вейвлета данные распространены через серию вейвлета, преобразовывает, нелинейность и усреднение, чтобы произвести представления низкого отклонения данных. Эти представления низкого отклонения затем используются в качестве входных параметров к классификатору.

Открыть скрипт

Sequential Feature Selection for Audio Features

Последовательный выбор признаков для функций аудио

Типичный рабочий процесс для выбора признаков применился к задаче разговорного распознавания цифры.

Скрипт Open Live Script

Acoustic Scene Recognition Using Late Fusion

Акустическое распознавание сцены Используя последний Fusion

Создайте последнюю систему сплава мультимодели для акустического распознавания сцены. Пример обучает сверточную нейронную сеть (CNN) с помощью mel спектрограммы и классификатор ансамбля с помощью рассеивания вейвлета. Пример использует набор данных TUT для обучения и оценки [1].

Открыть скрипт

Верификация динамика Используя i-векторы

Верификация динамика или аутентификация, является задачей подтверждения, что идентичность динамика состоит в том, кем они подразумевают быть. Верификация динамика много лет была активной областью исследования. Ранний прорыв эффективности должен был использовать смешанную гауссовскую модель и универсальную фоновую модель (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для примера смотрите, что Верификация Динамика Использует смешанные гауссовские модели. Одна из основных трудностей систем GMM-UBM включает изменчивость межсеанса. Объединенный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость путем отдельного моделирования изменчивости междинамика и канала или изменчивости сеанса [2] [3]. Однако [4] обнаружил, что канал включает JFA, также содержал информацию о динамиках и предложил комбинировать канал и пробелы динамика в общий пробел изменчивости. Изменчивость межсеанса была затем компенсирована при помощи процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и нормализация ковариации в классе (WCCN), сопровождаемая выигрышем, таких как счет подобия косинуса. [5] предложил заменить подобие косинуса, выигрывающее на вероятностный LDA (PLDA). [11] и [12] предложил метод Gaussianize i-векторы, и поэтому сделайте Гауссовы предположения в PLDA, называемом G-PLDA или упрощенным PLDA. Далее описанный общее, В то время как i-векторы были первоначально предложены для верификации динамика, они были применены ко многим проблемам, как распознавание языка, динамик diarization, распознавание эмоции, оценка возраста и антиспуфинг [10]. Недавно, методы глубокого обучения были предложены, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].

Скрипт Open Live Script

Speaker Verification Using Gaussian Mixture Model

Верификация динамика Используя смешанную гауссовскую модель

Верификация динамика или аутентификация, является задачей проверки, что данный речевой сегмент принадлежит данному динамику. В системах верификации динамика существует неизвестный набор всех других динамиков, таким образом, вероятность, что произнесение принадлежит цели верификации, сравнивается с вероятностью, что это не делает. Это контрастирует с идентификационными задачами динамика, где вероятность каждого динамика вычисляется, и те вероятности сравнены. И верификация динамика и идентификация динамика могут быть текстовым зависимым или независимым текстом. В этом примере вы создаете зависимую текстом систему верификации динамика с помощью смешанной гауссовской модели / универсальная фоновая модель (GMM-UBM).

Скрипт Open Live Script

Pitch Tracking Using Multiple Pitch Estimations and HMM

Передайте отслеживание Используя несколько оценок подачи и HMM

Выполните отслеживание подачи с помощью нескольких оценок подачи, октавы и среднего сглаживания и скрытой модели Маркова (HMM).

Скрипт Open Live Script

Анализ LPC и синтез речи

Используйте Левинсона-Дербина и Изменяющиеся во времени блоки Фильтра Решетки для передачи низкой пропускной способности речи с помощью линейного предсказательного кодирования.

Открытая модель

Документация

Извлечение признаков

Объекты

Задачи Live Editor

Функции

Слуховые спектрограммы

Слуховые коэффициенты Cepstral

Покажите вложения

Периодичность и гармонический характер

Спектральные дескрипторы

Доменное преобразование

Блоки

Темы

Рекомендуемые примеры

Распознание речевых команд с использованием глубокого обучения

Речевое обнаружение действия в шуме Используя глубокое обучение

Классифицируйте пол Используя сети LSTM

Разговорное распознавание цифры с рассеиванием вейвлета и глубоким обучением

Музыкальная классификация жанров Используя время вейвлета, рассеиваясь

Последовательный выбор признаков для функций аудио

Акустическое распознавание сцены Используя последний Fusion

Верификация динамика Используя i-векторы

Верификация динамика Используя смешанную гауссовскую модель

Передайте отслеживание Используя несколько оценок подачи и HMM

Анализ LPC и синтез речи

Документация Audio Toolbox

Поддержка