Редукция данных

Спектрограмма Меля, MFCC, тангаж, спектральные дескрипторы

Извлечение функций из аудиосигналов для использования в качестве входов в системах машинного обучения или глубокого обучения. Используйте отдельные функции, такие как melSpectrogram, mfcc, pitch, и spectralCentroid, или использовать audioFeatureExtractor объект для создания трубопровода редукции данных, который минимизирует избыточные вычисления. В live скриптах используйте команду Извлечь аудио функции (Extract Audio Features), чтобы графически выбрать функции для извлечения.

Объекты

`audioFeatureExtractor`	Оптимизация аудио редукции данных
`cepstralFeatureExtractor`	Извлечение функций cepstral из сегмента audio
`ivectorSystem`	Создайте i-векторную систему

Задачи Live Editor

Extract Audio Features

Оптимизация аудио редукции данных в Live Editor

Функции

расширить все

Слуховые спектрограммы

`audioDelta`	Вычисление дельта- функций
`designAuditoryFilterBank`	Проектирование банка слуховых фильтров
`melSpectrogram`	Спектрограмма Меля

Слуховые коэффициенты Cepstral

`audioDelta`	Вычисление дельта- функций
`cepstralCoefficients`	Извлечение коэффициентов cepstral
`gtcc`	Извлеките коэффициенты гамматона cepstral, логарифмическую энергию, дельту и дельту
`mfcc`	Извлечение MFCC, журнала энергии, дельты и дельты аудиосигнала

Встраивание функций

`vggishFeatures`	Извлечение функций VGGish
`openl3Features`	Извлечение OpenL3 функций

Периодичность и гармоничность

`audioDelta`	Вычисление дельта- функций
`harmonicRatio`	Коэффициент гармоники
`pitch`	Оцените основную частоту аудиосигнала
`pitchnn`	Оценка тангажа с глубокой нейронной сетью

Спектральные дескрипторы

`audioDelta`	Вычисление дельта- функций
`spectralCentroid`	Спектральный центроид для аудиосигналов и слуховых спектрограмм
`spectralCrest`	Спектральный крест для аудиосигналов и слуховых спектрограмм
`spectralDecrease`	Спектральное уменьшение для аудиосигналов и слуховых спектрограмм
`spectralEntropy`	Спектральная энтропия для аудиосигналов и слуховых спектрограмм
`spectralFlatness`	Спектральная плоскостность для аудиосигналов и слуховых спектрограмм
`spectralFlux`	Спектральный поток для аудиосигналов и слуховых спектрограмм
`spectralKurtosis`	Спектральный куртоз для аудиосигналов и слуховых спектрограмм
`spectralRolloffPoint`	Спектральная точка срабатывания для аудиосигналов и слуховых спектрограмм
`spectralSkewness`	Спектральный перекос для аудиосигналов и слуховых спектрограмм
`spectralSlope`	Спектральный наклон для аудиосигналов и слуховых спектрограмм
`spectralSpread`	Спектральный спред для аудиосигналов и слуховых спектрограмм

Преобразование области

`erb2hz`	Преобразуйте из эквивалентной прямоугольной шкалы полосы пропускания (ERB) в герц
`bark2hz`	Преобразование шкалы коры в герц
`mel2hz`	Преобразовать из шкалы меля в герц
`hz2erb`	Преобразуйте из герца в эквивалентную шкалу прямоугольной полосы пропускания (ERB)
`hz2bark`	Преобразование из герца в шкалу коры
`hz2mel`	Перевести герцы в мели шкалы
`phon2sone`	Преобразование фона в сон
`sone2phon`	Перевести соны в фоны

Блоки

Cepstral Feature Extractor

Извлечение функций cepstral из сегмента audio

Темы

Спектральные дескрипторы

Обзор и применения спектральных дескрипторов.

Рекомендуемые примеры

Распознавание динамика с использованием x-векторов

Признание спикера отвечает на вопрос «Кто говорит?». Распознавание динамика обычно делится на две задачи: идентификация динамика и верификация динамика. При идентификации динамика динамик распознается путем сравнения их речи с закрытым набором шаблонов. При верификации динамика динамик распознается путем сравнения вероятности того, что речь принадлежит конкретному динамику, с заранее заданным порогом. Традиционные методы машинного обучения хорошо выполняют эти задачи в идеальных условиях. Для примеров идентификации динамика с помощью традиционных методов машинного обучения смотрите Идентификацию динамика с использованием тангажа и MFCC и Верификацию динамика с использованием i-векторов. Audio Toolbox™ предоставляет ivectorSystem, которая инкапсулирует возможность обучать i-векторную систему, регистрировать динамики или другие аудио метки, оценивать систему для порога принятия решения и идентифицировать или проверить динамики или другие аудио метки.

Открыть Live Script

Диаризация динамика с использованием x-векторов

Диаризация динамика - это процесс разбиения аудиосигнала на сегменты в соответствии с тождествами динамика. В нем дается ответ на вопрос «кто говорил, когда» без предварительного знания ораторов и, в зависимости от заявки, без предварительного знания числа ораторов.

Открыть Live Script

Train Spoken Digit Recognition Network Using Out-of-Memory Features

Обучите сеть распознавания разговорных цифр с помощью функций нехватки памяти

Обучает сеть распознавания разговорных цифр на слуховых спектрограммах вне памяти с помощью преобразованного datastore. В этом примере вы извлекаете слуховые спектрограммы из аудио с помощью audioDatastore и audioFeatureExtractor, и записываете их на диск. Затем вы используете signalDatastore для доступа к функциям во время обучения. Рабочий процесс полезен, когда функции обучения не помещаются в памяти. В этом рабочем процессе вы извлекаете функции только один раз, что ускоряет рабочий процесс, если вы итератируетесь по проекту модели глубокого обучения.

Открыть Live Script

Train Spoken Digit Recognition Network Using Out-of-Memory Audio Data

Обучите сеть распознавания разговорных цифр с помощью Audio Данных

Обучает сеть распознавания разговорных цифр на аудио данных за пределами памяти с помощью преобразованного datastore. В этом примере вы применяете случайный тангаж сдвиг к аудио данных, используемым для обучения сверточной нейронной сети (CNN). Для каждой итерации обучения аудио данных дополняется с помощью объекта audioDataAugmenter, а затем функции извлекаются с помощью объекта audioFeatureExtractor. Рабочий процесс в этом примере применяется к любому случайному увеличению данных, используемому в цикле обучения. Рабочий процесс также применяется, когда базовый набор аудио данных или функции обучения не помещаются в памяти.

Открыть Live Script

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите модель глубокого обучения, которая обнаруживает наличие речевых команд в аудио. Пример использует набор данных речевых команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Voice Activity Detection in Noise Using Deep Learning

Обнаружение голосовой активности в шуме с помощью глубокого обучения

Обнаружение областей речи в среде низкий сигнал-шум с помощью глубокого обучения. Пример использует набор данных речевых команд, чтобы обучить двунаправленную сеть долгой краткосрочной памяти (BiLSTM) для обнаружения голосовой активности.

Открыть Live Script

Классификация полов с помощью сетей GRU

Классифицируйте пол диктора с помощью глубокого обучения. В примере используются сеть Gated Recurrent Модуля (GRU) и коэффициенты Гамматона Cepstral (gtcc), тангаж, гармоническое отношение и несколько спектральных дескрипторов формы.

Открыть Live Script

Spoken Digit Recognition with Wavelet Scattering and Deep Learning

Распознавание разговорных цифр с вейвлет и глубоким обучением

Классифицируйте разговорные цифры с помощью как машинного, так и глубокого метода обучения. В примере вы выполняете классификацию, используя рассеяние вейвлета времени с помощью машины опорных векторов (SVM) и с помощью сети долгой краткосрочной памяти (LSTM). Вы также применяете байесовскую оптимизацию, чтобы определить подходящие гиперпараметры, чтобы улучшить точность сети LSTM. Кроме сложения, пример иллюстрирует подход, использующий глубокую сверточную нейронную сеть (CNN) и мел-частотные спектрограммы.

Открыть Live Script

Music Genre Classification Using Wavelet Time Scattering

Классификация жанра музыки с использованием вейвлета вейвлет-времени

Классификация жанра музыкального отрывка с помощью вейвлет рассеяния и audio datastore. При вейвлет данные распространяются через ряд вейвлет, нелинейностей и усреднения, чтобы получить низкодисперсные представления данных. Эти представления с низкой дисперсией затем используются в качестве входов для классификатора.

Открыть Live Script

Sequential Feature Selection for Audio Features

Последовательный выбор признаков для аудио функций

Типичный рабочий процесс выбора признаков, примененный к задаче распознавания разговорных цифр.

Открыть Live Script

Acoustic Scene Recognition Using Late Fusion

Распознавание акустической сцены с использованием позднего слияния

Создайте мультимодельную систему позднего слияния для распознавания акустической сцены. Пример обучает сверточную нейронную сеть (CNN), используя mel spectrogram и ансамблевый классификатор, использующий вейвлет. Пример использует набор данных TUT для обучения и оценки [1].

Открыть скрипт

Верификация динамика с использованием i-векторов

Верификация типа «динамик» или аутентификация - это задача подтверждения того, что тождества динамика являются тем, кем они считаются. Верификация спикера была активной исследовательской областью на протяжении многих лет. Ранним прорывом в эффективности было использование смешанной гауссовской модели и универсальной фоновой модели (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для получения примера смотрите Динамик Верификации Использование Смешанных гауссовских моделей. Одна из основных трудностей систем GMM-UBM заключается в межсессионной изменчивости. Совместный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость, отдельно моделируя переменность между динамиками и переменность канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить пространства канала и динамика в общее пространство переменности. Затем интерсессионную изменчивость компенсировали с помощью процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как счет подобия косинуса. [5] предложил заменить оценку подобия косинуса вероятностной моделью LDA (PLDA). [11] и [12] предложили способ Гауссианизации i-векторов и, следовательно, сделать Гауссовы предположения в PLDA, называемые G-PLDA или упрощенной PLDA. В то время как i-векторы были первоначально предложены для верификации диктора, они были применены ко многим проблемам, таким как распознавание языка, диаризация диктора, распознавание эмоций, оценка возраста и анти-спуфинг [10]. Недавно были предложены методы глубокого обучения, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].

Открыть Live Script

Speaker Verification Using Gaussian Mixture Model

Верификация спикера с использованием Смешанной гауссовской модели

Верификация динамика, или аутентификация, является задачей проверки того, что данный сегмент речи принадлежит данному динамику. В системах верификации дикторов существует неизвестный набор всех других дикторов, поэтому вероятность того, что высказывание принадлежит цели верификации, сравнивается с вероятностью того, что оно не делает. Это контрастирует с задачами идентификации диктора, где вычисляется вероятность каждого диктора, и эти вероятности сравниваются. И верификация динамика, и идентификация динамика могут быть зависящими от текста или независимыми от текста. В этом примере вы создаете зависящую от текста систему верификации динамика, используя Смешанную гауссовскую модель/универсальную фоновую модель (GMM-UBM).

Открыть Live Script

Pitch Tracking Using Multiple Pitch Estimations and HMM

Отслеживание тангажа с использованием нескольких оценок тангажа и HMM

Выполните отслеживание тангажа с помощью нескольких оценок тангажа, октавного и медианного сглаживания и скрытой модели Маркова (HMM).

Открыть Live Script

LPC-анализ и синтез речи

Используйте блоки Levinson-Durbin и Time-Variing Lattice Filter для передачи речи с низкой пропускной способностью, используя линейное прогнозирующее кодирование.

Откройте модель

Speaker Identification Using Custom SincNet Layer and Deep Learning

Идентификация динамика с использованием пользовательского слоя SincNet и глубокого обучения

Выполните распознавание речи с помощью пользовательского слоя глубокого обучения, который реализует mel-масштабную группу фильтров.

Открыть Live Script

Документация

Редукция данных

Объекты

Задачи Live Editor

Функции

Слуховые спектрограммы

Слуховые коэффициенты Cepstral

Встраивание функций

Периодичность и гармоничность

Спектральные дескрипторы

Преобразование области

Блоки

Темы

Рекомендуемые примеры

Распознавание динамика с использованием x-векторов

Диаризация динамика с использованием x-векторов

Обучите сеть распознавания разговорных цифр с помощью функций нехватки памяти

Обучите сеть распознавания разговорных цифр с помощью Audio Данных

Распознание речевых команд с использованием глубокого обучения

Обнаружение голосовой активности в шуме с помощью глубокого обучения

Классификация полов с помощью сетей GRU

Распознавание разговорных цифр с вейвлет и глубоким обучением

Классификация жанра музыки с использованием вейвлета вейвлет-времени

Последовательный выбор признаков для аудио функций

Распознавание акустической сцены с использованием позднего слияния

Верификация динамика с использованием i-векторов

Верификация спикера с использованием Смешанной гауссовской модели

Отслеживание тангажа с использованием нескольких оценок тангажа и HMM

LPC-анализ и синтез речи

Идентификация динамика с использованием пользовательского слоя SincNet и глубокого обучения

Документация Audio Toolbox

Поддержка