mfcc

Извлечение MFCC, журнала энергии, дельты и дельты аудиосигнала

Синтаксис

coeffs = mfcc(audioIn,fs)

coeffs = mfcc(___,Name,Value)

[coeffs,delta,deltaDelta,loc] = mfcc(___)

Описание

coeffs = mfcc(audioIn,fs) возвращает mel frequency cepstral коэффициенты (MFCC) для аудио входа, дискретизированные с частотой fs Гц.

coeffs = mfcc(___,Name,Value) задает опции с использованием одного или нескольких Name,Value аргументы в виде пар.

Пример: coeffs = mfcc(audioIn,fs,'LogEnergy','Replace') возвращает mel frequency cepstral коэффициенты для аудио входного сигнала, дискретизированного в fs Гц. Первый коэффициент в coeffs вектор заменяется на логарифмическое значение энергии.

[coeffs,delta,deltaDelta,loc] = mfcc(___) также возвращает дельту, дельту и местоположение выборок, соответствующих каждому окну данных.

Примеры

свернуть все

Вычисление коэффициентов Мел-частоты Cepstral

Попробовать в MATLAB

Вычислите mel frequency cepstral коэффициенты речевого сигнала, используя mfcc функция. Функция возвращается delta, изменение коэффициентов и deltaDelta, изменение значений дельты. Журнал значение энергии, которое вычисляет функция, может подготовить вектор коэффициентов или заменить первый элемент вектора коэффициентов. Это делается на основе того, задаете ли вы 'LogEnergy' аргумент в 'Append' или 'Replace'.

Считайте аудиосигнал из 'Counting-16-44p1-mono-15secs.wav' файл с использованием audioread функция. The mfcc функция обрабатывает все речевые данные в пакете. Исходя из количества входных строк, длины окна и длины перекрытия, mfcc разделяет речь на 1551 систему координат и вычисляет функции cepstral для каждой системы координат. Каждая строка в coeffs матрица соответствует логарифмическому значению энергии, за которым следуют 13 мел-частотно-кепстральные коэффициенты для соответствующей системы координат речевого файла. Функция также вычисляет loc, местоположение последней выборки в каждом входном кадре.

[audioIn,fs] = audioread('Counting-16-44p1-mono-15secs.wav');
[coeffs,delta,deltaDelta,loc] = mfcc(audioIn,fs);

Извлечение MFCC из аудио частотного диапазона

Попробовать в MATLAB

Считайте в аудио файла и преобразуйте его в частотное представление.

[audioIn,fs] = audioread("Rainbow-16-8-mono-114secs.wav");

win = hann(1024,"periodic");
S = stft(audioIn,"Window",win,"OverlapLength",512,"Centered",false);

Чтобы извлечь коэффициенты mel-frequency cepstral, вызовите mfcc с частотным частотным диапазоном звука. Игнорируйте логарифмическую энергию.

coeffs = mfcc(S,fs,"LogEnergy","Ignore");

Во многих приложениях наблюдения MFCC преобразуются в сводную статистику для использования в задачах классификации. Постройте график функции плотности вероятностей для одного из мел-частотных кепстральных коэффициентов, чтобы наблюдать его распределения.

nbins = 60;
coefficientToAnalyze = 4;

гистограмма (коэффициенты (:, коэффициентToAnalyze + 1), nbins,"Normalization","pdf")
заголовок (sprintf ("Coefficient %d", коэффициентToAnalyze))

Figure contains an axes. The axes with title Coefficient 4 contains an object of type histogram.

Входные параметры

свернуть все

`audioIn` - Входной сигнал
вектор | матрица | трехмерный массив

Входной сигнал, заданный как вектор, матрица или трехмерный массив.

Если audioIn является реальным, он интерпретируется как сигнал временной области и должен быть вектором-столбцом или матрицей. Столбцы матрицы обрабатываются как независимые аудиоканалы.
Если audioIn является комплексным, интерпретируется как сигнал частотного диапазона. В этом случае audioIn должен быть L -by- M -by- N массивом, где L - количество точек ДПФ, M - количество отдельных спектров, а N - количество отдельных каналов.

Типы данных: single | double
Поддержка комплексного числа: Да

`fs` - Частота дискретизации (Гц)
положительная скалярная величина

Частота дискретизации входного сигнала в Гц, заданная как положительная скалярная величина.

Типы данных: single | double

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: [coeffs,delta,deltaDelta,loc] = mfcc(audioIn,fs,'LogEnergy','Replace','DeltaWindowLength',5) возвращает mel frequency cepstral коэффициенты для аудио входного сигнала, дискретизированного в fs Гц. Первый коэффициент в coeffs вектор заменяется на логарифмическое значение энергии. Набор из 5 коэффициентов cepstral используется для вычисления значений дельты и дельты.

`'Window'` - Окно применяется во временном интервале
`hamming(round(fs*0.3),'periodic')` (по умолчанию) | вектор

Окно, примененное во временном интервале, задается как разделенная разделенными запятой парами, состоящая из 'Window' и вектор действительных чисел. Количество элементов в векторе должно быть в области значений [1, size (audioIn,1)]. Количество элементов в векторе также должно быть больше OverlapLength.

Типы данных: single | double

`'OverlapLength'` - Количество перекрываемых выборок между смежными окнами
`раунд (fs*0.02)` (по умолчанию) | целое число

Количество выборок, перекрывающихся между смежными окнами, заданное как разделенная разделенными запятой парами, состоящая из 'OverlapLength' и целое число в области значений [0, число (Window)). Если не задано, OverlapLength значение по умолчанию - round (0,02 * fs).

Типы данных: single | double

`'NumCoeffs'` - Количество возвращенных коэффициентов
`13` (по умолчанию) | положительное скалярное целое число

Количество коэффициентов, возвращенных для каждого окна данных, заданное в виде целого числа в области значений [2 v], где v количество допустимых полос пропускания.

Количество допустимых полос пропускания определяется как sum(BandEdges <= floor(fs/2))-2. Диапазон пропускания действителен, если его ребра опускаются ниже fs/2, где fs - частота дискретизации входа аудиосигнала, заданная в качестве второго аргумента, fs.

Типы данных: single | double

`'BandEdges'` - Ленточные ребра группы фильтров (Гц)
Вектор-строка

Края полосы ребер группы фильтров в Гц, заданные как неотрицательный монотонно увеличивающийся вектор-строка в области значений [0, fs/2]. Количество ребер полосы данных должно находиться в области значений [4, 160]. mfcc функция проектирует наполовину перекрытые треугольные фильтры на основе BandEdges. Это означает, что все ребра полосы, кроме первого и последнего, также являются центральными частотами проектируемых полосно-пропускающих фильтров.

По умолчанию BandEdges является вектором с 42 элементами, что приводит к 40-диапазонной группе фильтров, которая охватывает от приблизительно 133 Гц до 6864 Гц. Значения по умолчанию полос разнесены, как описано в [2].

Типы данных: single | double

`'FFTLength'` - Количество интервалов для вычисления ДПФ
`numel (Window)` (по умолчанию) | положительное скалярное целое число

Количество интервалов, используемых для вычисления дискретного преобразования Фурье (DFT) оконных входных выборок. Длина БПФ должна быть больше или равной количеству элементов в Window.

Типы данных: single | double

`'Rectification'` - Тип нелинейного выпрямления
`'log'` (по умолчанию) | `'cubic-root'`

Тип нелинейного выпрямления, примененного до дискретного косинусного преобразования, заданный как 'log' или 'cubic-root'.

Типы данных: char | string

`'DeltaWindowLength'` - Количество коэффициентов для вычисления дельты и дельты
`9` (по умолчанию) | нечетное целое число, больше 2

Количество коэффициентов, используемых для вычисления дельты и значений дельты-дельты, заданных как разделенная разделенными запятой парами, состоящая из 'DeltaWindowLength' и нечетное целое число, больше двух. Если не задано, DeltaWindowLength по умолчанию является 9.

Дельты вычисляются с помощью audioDelta функция.

Типы данных: single | double

`'LogEnergy'` - Укажите, как показана энергия журнала
`'Append'` (по умолчанию) | `'Replace'` | `'Ignore'`

Задайте, как энергия журнала показана в выходе вектора коэффициентов, заданном как:

'Append' - Функция подготавливает энергию журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs.
'Replace' - Функция заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
'Ignore' -- Объект не вычисляет и не возвращает энергию журнала.

Типы данных: char | string

Выходные аргументы

свернуть все

`coeffs` - Мел частотных кепстральных коэффициентов (MFCC)
матрица | трехмерный массив

Частотные коэффициенты Меля, возвращенные как L -by- M матрица или L -by- M -by- N массив, где:

L - Количество окон анализа, в которых разбит аудиосигнал. Размер входа, Window, и OverlapLength управляйте этой размерностью: L = floor ((size (audioIn1) − число (Window))) / (numel(Window) − OverlapLength) + 1.
M -- Количество коэффициентов, возвращаемых на систему координат. Это значение определяется NumCoeffs и LogEnergy.
Когда LogEnergy установлено в:
- 'Append' - Функция готовит значение энергии журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs.
- 'Replace' - Функция заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
- 'Ignore' - Функция не вычисляет и не возвращает энергию журнала. Длина вектора коэффициентов NumCoeffs.
N -- Количество каналов входа (столбцы). Это значение размера (audioIn,2).

Типы данных: single | double

`delta` - Изменение коэффициентов
матрица | массив

Изменение коэффициентов из одной системы координат данных в другой, возвращаемое как L матрица M или L массив -by- M -by- N. The delta массив имеет тот же размер и тип данных, что и coeffs массив.

Типы данных: single | double

`deltaDelta` - Изменение значений дельты
матрица | массив

Изменение в delta значения из одной системы координат данных в другой, возвращенные как L -by- M матрица или L -by- M -by- N массив. The deltaDelta массив имеет тот же размер и тип данных, что и coeffs и delta массивы.

Типы данных: single | double

`loc` - Расположение последней выборки в каждом входном кадре
вектор

Расположение последней выборки в каждом окне анализа, возвращаемое как вектор-столбец с одинаковым числом строк, как coeffs.

Типы данных: single | double

Алгоритмы

Коэффициенты Mel frequency cepstrum являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели речи «источник-фильтр» кепстральные коэффициенты понимаются как представляющие фильтр (голосовой тракт). Частотная характеристика голосового тракта относительно гладкая, в то время как источник голосовой речи может быть смоделирован как импульсный train. В результате голосовой тракт может быть оценен спектральной огибающей речевого сегмента.

Мотивирующая идея мел частотных кепстральных коэффициентов состоит в том, чтобы сжать информацию о голосовом тракте (сглаженном спектре) в небольшое количество коэффициентов, основанных на понимании улитки. Несмотря на отсутствие жесткого стандарта для вычисления коэффициентов, основные шаги описаны схемой.

По умолчанию mel filter bank линейно разделяет первые 10 треугольных фильтров и логарифмически разделяет оставшиеся фильтры.

Информация, содержащаяся в коэффициенте zeroth mel frequency cepstral, часто дополняется или заменяется энергией журнала. Вычисление журнала энергии зависит от области входа.

Если вход (audioIn) является сигналом временной области, энергия журнала вычисляется с помощью следующего уравнения:

$\log E = \log (sum (x^{2}))$

Если вход (audioIn) является сигналом частотного диапазона, энергия журнала вычисляется с помощью следующего уравнения:

$\log E = \log (sum ({| x |}^{2}) / F F T L e n g t h)$

Вопросы совместимости

расширить все

Расчеты дельта-дельта

Поведение изменено в R2020b

Расчеты дельта-дельта и дельта-дельта теперь вычисляются с помощью audioDelta функция, которая имеет другое поведение при запуске, чем предыдущий алгоритм. Значение по умолчанию DeltaWindowLength параметр изменился с 2 на 9. Длина дельта-окна 2 больше не поддерживается.

`WindowLength` будет удалено в следующем релизе

Изменение поведения в будущем релизе

The WindowLength параметр будет удален из mfcc функция в будущем релизе. Используйте Window вместо этого параметр.

В релизах до R2020b можно было задать только длину окна временной области. Окно всегда проектировалось как периодическое окно Хэмминга. Можно заменить образцы кода

coeffs = mfcc(audioin,fs,'WindowLength',1024);

С помощью этого кода:

coeffs = mfcc(audioIn,fs,'Window',hamming(1024,'periodic'));

Ссылки

[1] Рабинер, Лоуренс Р. и Рональд У. Шафер. Теория и приложения цифровой обработки речи. Upper Saddle River, NJ: Pearson, 2010.

[2] Аудиторный тулбокс. https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®

Генерация кода GPU
Сгенерируйте код CUDA ® для графических процессоров NVIDIA ® с помощью GPU Coder™

Массивы графических процессоров
Ускорите код, запустив на графическом процессорном модуле (GPU) с помощью Parallel Computing Toolbox™.

См. также

audioDelta | audioFeatureExtractor | Cepstral Feature Extractor | cepstralCoefficients | detectSpeech

Документация

mfcc

Синтаксис

Описание

Примеры

Вычисление коэффициентов Мел-частоты Cepstral

Извлечение MFCC из аудио частотного диапазона

Входные параметры

`audioIn` - Входной сигнал
вектор | матрица | трехмерный массив

`fs` - Частота дискретизации (Гц)
положительная скалярная величина

Аргументы в виде пар имя-значение

`'Window'` - Окно применяется во временном интервале
`hamming(round(fs*0.3),'periodic')` (по умолчанию) | вектор

`'OverlapLength'` - Количество перекрываемых выборок между смежными окнами
`раунд (fs*0.02)` (по умолчанию) | целое число

`'NumCoeffs'` - Количество возвращенных коэффициентов
`13` (по умолчанию) | положительное скалярное целое число

`'BandEdges'` - Ленточные ребра группы фильтров (Гц)
Вектор-строка

`'FFTLength'` - Количество интервалов для вычисления ДПФ
`numel (Window)` (по умолчанию) | положительное скалярное целое число

`'Rectification'` - Тип нелинейного выпрямления
`'log'` (по умолчанию) | `'cubic-root'`

`'DeltaWindowLength'` - Количество коэффициентов для вычисления дельты и дельты
`9` (по умолчанию) | нечетное целое число, больше 2

`'LogEnergy'` - Укажите, как показана энергия журнала
`'Append'` (по умолчанию) | `'Replace'` | `'Ignore'`

Выходные аргументы

`coeffs` - Мел частотных кепстральных коэффициентов (MFCC)
матрица | трехмерный массив

`delta` - Изменение коэффициентов
матрица | массив

`deltaDelta` - Изменение значений дельты
матрица | массив

`loc` - Расположение последней выборки в каждом входном кадре
вектор

Алгоритмы

Вопросы совместимости

Расчеты дельта-дельта

`WindowLength` будет удалено в следующем релизе

Ссылки

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®

Генерация кода GPU
Сгенерируйте код CUDA ® для графических процессоров NVIDIA ® с помощью GPU Coder™

Массивы графических процессоров
Ускорите код, запустив на графическом процессорном модуле (GPU) с помощью Parallel Computing Toolbox™.

См. также

Темы

Документация Audio Toolbox

Поддержка

Документация

mfcc

Синтаксис

Описание

Примеры

Вычисление коэффициентов Мел-частоты Cepstral

Извлечение MFCC из аудио частотного диапазона

Входные параметры

audioIn - Входной сигнал вектор | матрица | трехмерный массив

fs - Частота дискретизации (Гц) положительная скалярная величина

Аргументы в виде пар имя-значение

'Window' - Окно применяется во временном интервале hamming(round(fs*0.3),'periodic') (по умолчанию) | вектор

'OverlapLength' - Количество перекрываемых выборок между смежными окнами раунд (fs*0.02) (по умолчанию) | целое число

'NumCoeffs' - Количество возвращенных коэффициентов 13 (по умолчанию) | положительное скалярное целое число

'BandEdges' - Ленточные ребра группы фильтров (Гц) Вектор-строка

'FFTLength' - Количество интервалов для вычисления ДПФ numel (Window) (по умолчанию) | положительное скалярное целое число

'Rectification' - Тип нелинейного выпрямления 'log' (по умолчанию) | 'cubic-root'

'DeltaWindowLength' - Количество коэффициентов для вычисления дельты и дельты 9 (по умолчанию) | нечетное целое число, больше 2

'LogEnergy' - Укажите, как показана энергия журнала 'Append' (по умолчанию) | 'Replace' | 'Ignore'

Выходные аргументы

coeffs - Мел частотных кепстральных коэффициентов (MFCC) матрица | трехмерный массив

delta - Изменение коэффициентов матрица | массив

deltaDelta - Изменение значений дельты матрица | массив

loc - Расположение последней выборки в каждом входном кадре вектор

Алгоритмы

Вопросы совместимости

Расчеты дельта-дельта

WindowLength будет удалено в следующем релизе

Ссылки

Расширенные возможности

Генерация кода C/C + + Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®

Генерация кода GPU Сгенерируйте код CUDA ® для графических процессоров NVIDIA ® с помощью GPU Coder™

Массивы графических процессоров Ускорите код, запустив на графическом процессорном модуле (GPU) с помощью Parallel Computing Toolbox™.

См. также

Темы

Документация Audio Toolbox

Поддержка

`audioIn` - Входной сигнал
вектор | матрица | трехмерный массив

`fs` - Частота дискретизации (Гц)
положительная скалярная величина

`'Window'` - Окно применяется во временном интервале
`hamming(round(fs*0.3),'periodic')` (по умолчанию) | вектор

`'OverlapLength'` - Количество перекрываемых выборок между смежными окнами
`раунд (fs*0.02)` (по умолчанию) | целое число

`'NumCoeffs'` - Количество возвращенных коэффициентов
`13` (по умолчанию) | положительное скалярное целое число

`'BandEdges'` - Ленточные ребра группы фильтров (Гц)
Вектор-строка

`'FFTLength'` - Количество интервалов для вычисления ДПФ
`numel (Window)` (по умолчанию) | положительное скалярное целое число

`'Rectification'` - Тип нелинейного выпрямления
`'log'` (по умолчанию) | `'cubic-root'`

`'DeltaWindowLength'` - Количество коэффициентов для вычисления дельты и дельты
`9` (по умолчанию) | нечетное целое число, больше 2

`'LogEnergy'` - Укажите, как показана энергия журнала
`'Append'` (по умолчанию) | `'Replace'` | `'Ignore'`

`coeffs` - Мел частотных кепстральных коэффициентов (MFCC)
матрица | трехмерный массив

`delta` - Изменение коэффициентов
матрица | массив

`deltaDelta` - Изменение значений дельты
матрица | массив

`loc` - Расположение последней выборки в каждом входном кадре
вектор

`WindowLength` будет удалено в следующем релизе

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®

Генерация кода GPU
Сгенерируйте код CUDA ® для графических процессоров NVIDIA ® с помощью GPU Coder™

Массивы графических процессоров
Ускорите код, запустив на графическом процессорном модуле (GPU) с помощью Parallel Computing Toolbox™.