mfcc

Извлеките MFCC, регистрируйте энергию, дельту и дельту дельты звукового сигнала

Синтаксис

coeffs = mfcc(audioIn,fs)

coeffs = mfcc(___,Name,Value)

[coeffs,delta,deltaDelta,loc] = mfcc(___)

Описание

coeffs = mfcc(audioIn,fs) возвращает mel частоту cepstral коэффициенты (MFCCs) для аудиовхода, произведенного на частоте fs Гц.

coeffs = mfcc(___,Name,Value) задает опции с помощью одного или нескольких Name,Value парные аргументы.

Пример: coeffs = mfcc(audioIn,fs,'LogEnergy','Replace') возвращает mel частоту cepstral коэффициенты для входного аудиосигнала, произведенного в fs Гц. Первый коэффициент в coeffs вектор заменяется логарифмической энергетической ценностью.

[coeffs,delta,deltaDelta,loc] = mfcc(___) также возвращает дельту, дельту дельты и местоположение выборок, соответствующих каждому окну данных.

Примеры

свернуть все

Вычислите частоту Мэла коэффициенты Cepstral

Попробовать в MATLAB

Вычислите mel частоту cepstral коэффициенты речевого сигнала использование mfcc функция. Функция возвращает delta, изменение в коэффициентах и deltaDelta, изменение в значениях дельты. Логарифмическая энергетическая ценность, которую вычисляет функция, может предварительно ожидать содействующий вектор или заменить первый элемент содействующего вектора. Это сделано на основе того, устанавливаете ли вы 'LogEnergy' аргумент к 'Append' или 'Replace'.

Считайте звуковой сигнал из 'Counting-16-44p1-mono-15secs.wav' файл с помощью audioread функция. mfcc функция обрабатывает целые речевые данные в пакете. На основе количества входных строк, длины окна, и длины перекрытия, mfcc делит речь в 1 551 систему координат и вычисляет функции cepstral каждой системы координат. Каждая строка в coeffs матрица соответствует логарифмической энергетической ценности, сопровождаемой 13 mel-частотами cepstral коэффициенты для соответствующей системы координат речевого файла. Функция также вычисляет loc, местоположение последней выборки в каждом входном кадре.

[audioIn,fs] = audioread('Counting-16-44p1-mono-15secs.wav');
[coeffs,delta,deltaDelta,loc] = mfcc(audioIn,fs);

Извлеките MFCC из аудио частотного диапазона

Попробовать в MATLAB

Читайте в звуковом файле и преобразуйте его в представление частоты.

[audioIn,fs] = audioread("Rainbow-16-8-mono-114secs.wav");

win = hann(1024,"periodic");
S = stft(audioIn,"Window",win,"OverlapLength",512,"Centered",false);

Чтобы извлечь mel-частоту cepstral коэффициенты, вызовите mfcc с аудио частотного диапазона. Проигнорируйте логарифмическую энергию.

coeffs = mfcc(S,fs,"LogEnergy","Ignore");

Во многих приложениях наблюдения MFCC преобразованы в итоговую статистику для использования в задачах классификации. Постройте функцию плотности вероятности для одной из mel-частоты cepstral коэффициенты, чтобы наблюдать ее распределения.

nbins = 60;
coefficientToAnalyze = 4;

гистограмма (coefs (: coefficientToAnalyze+1), nbins,"Normalization","pdf")
заголовок (sprintf ("Coefficient %d", coefficientToAnalyze))

Figure contains an axes object. The axes object with title Coefficient 4 contains an object of type histogram.

Входные параметры

свернуть все

`audioIn` — Входной сигнал
вектор | матрица | трехмерный массив

Входной сигнал в виде вектора, матрицы или трехмерного массива.

Если audioIn действительно, это интерпретировано как сигнал временной области и должно быть вектор-столбцом или матрицей. Столбцы матрицы обработаны как независимые звуковые каналы.
Если audioIn является комплексным, это интерпретировано как сигнал частотного диапазона. В этом случае, audioIn должен быть L-by-M-by-N массив, где L является количеством точек ДПФ, M является количеством отдельных спектров, и N является количеством отдельных каналов.

Типы данных: single | double
Поддержка комплексного числа: Да

`fs` — Частота дискретизации (Гц)
положительная скалярная величина

Частота дискретизации входного сигнала в Гц в виде положительной скалярной величины.

Типы данных: single | double

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: [coeffs,delta,deltaDelta,loc] = mfcc(audioIn,fs,'LogEnergy','Replace','DeltaWindowLength',5) возвращает mel частоту cepstral коэффициенты для входного аудиосигнала, произведенного в fs Гц. Первый коэффициент в coeffs вектор заменяется логарифмической энергетической ценностью. Набор 5 cepstral коэффициентов используется для расчета дельта и значения дельты дельты.

`Window` — Окно применяется во временном интервале
`hamming(round(fs*0.3),'periodic')` (значение по умолчанию) | вектор

Окно, примененное во временном интервале в виде разделенной запятой пары, состоящей из 'Window' и вектор действительных чисел. Число элементов в векторе должно быть в области значений [1, размер (audioIn,1)]. Число элементов в векторе должно также быть больше OverlapLength.

Типы данных: single | double

`OverlapLength` — Количество перекрывающихся выборок между смежными окнами
`вокруг (fs*0.02)` (значение по умолчанию) | целое число

Количество отсчетов, перекрытое между смежными окнами в виде разделенной запятой пары, состоящей из 'OverlapLength' и целое число в области значений [0, numel (Window)). Если незаданный, OverlapLength значения по умолчанию к раунду (0.02*fs).

Типы данных: single | double

`NumCoeffs` — Количество коэффициентов возвращено
13 (значение по умолчанию) | положительное скалярное целое число

Количество коэффициентов, возвращенных для каждого окна данных в виде целого числа в области значений [2 v], где v является количеством допустимых полос пропускания.

Количество допустимых полос пропускания задано как sum(BandEdges <= floor(fs/2))-2. Полоса пропускания допустима, если ее ребра падают ниже fs/2, где fs является частотой дискретизации входного звукового сигнала в виде второго аргумента, fs.

Типы данных: single | double

`BandEdges` — Ребра полосы набора фильтров (Гц)
вектор-строка

Ребра полосы набора фильтров в Гц в виде неотрицательного монотонно увеличивающегося вектора-строки в области значений [0, fs/2]. Количество ребер полосы должно быть в области значений [4, 160]. mfcc функционируйте проекты полуперекрыли треугольные фильтры на основе BandEdges. Это означает, что все ребра полосы, за исключением первого и последнего, являются также центральными частотами спроектированных полосовых фильтров.

По умолчанию, BandEdges вектор с 42 элементами, который приводит к банку с 40 ленточными фильтрами, который охватывает приблизительно 133 Гц к 6 864 Гц. Полосы по умолчанию расположены с интервалами как описано в [2].

Типы данных: single | double

`FFTLength` — Количество интервалов для вычисления ДПФ
`numel (Window)` (значение по умолчанию) | положительное скалярное целое число

Количество интервалов раньше вычисляло дискретное преобразование Фурье (ДПФ) оконных входных выборок. Длина БПФ должна быть больше или быть равна числу элементов в Window.

Типы данных: single | double

`Rectification` — Тип нелинейного исправления
`'log'` (значение по умолчанию) | `'cubic-root'`

Тип нелинейного исправления, примененного до дискретного косинусного преобразования в виде 'log' или 'cubic-root'.

Типы данных: char | string

`DeltaWindowLength` — Количество коэффициентов для вычисления дельты и дельты дельты
9 (значение по умолчанию) | нечетное целое число, больше, чем 2

Количество коэффициентов раньше вычисляло дельту и значения дельты дельты в виде разделенной запятой пары, состоящей из 'DeltaWindowLength' и нечетное целое число, больше, чем два. Если незаданный, DeltaWindowLength значения по умолчанию к 9.

Дельты вычисляются с помощью audioDelta функция.

Типы данных: single | double

`LogEnergy` — Задайте, как логарифмическую энергию показывают
`'Append'` (значение по умолчанию) | `'Replace'` | `'Ignore'`

Задайте, как логарифмическую энергию показывают в содействующем векторе выход в виде:

'Append' – Функция предварительно ожидает логарифмическую энергию к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs.
'Replace' – Функция заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
'Ignore' – Объект не вычисляет или возвращает логарифмическую энергию.

Типы данных: char | string

Выходные аргументы

свернуть все

`coeffs` — Частота Мэла cepstral коэффициенты (MFCCs)
матрица | трехмерный массив

Частота Мэла cepstral коэффициенты, возвращенные как L-by-M матрица или L-by-M-by-N массив, где:

L Количество аналитических окон звуковой сигнал разделено в. Входной размер, Window, и OverlapLength управляйте этой размерностью: L = пол ((размер (audioIn, 1) − numel (Window))) / (numel(Window) − OverlapLength) + 1.
M Количество коэффициентов возвращено на систему координат. Это значение определяется NumCoeffs и LogEnergy.
Когда LogEnergy установлен в:
- 'Append' – Функция предварительно ожидает логарифмическую энергетическую ценность к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs.
- 'Replace' – Функция заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
- 'Ignore' – Функция не вычисляет или возвращает логарифмическую энергию. Длиной содействующего вектора является NumCoeffs.
N Количество входных каналов (столбцы). Это значение является размером (audioIn,2).

Типы данных: single | double

`delta` — Изменитесь в коэффициентах
матрица | массив

Изменитесь в коэффициентах от одной системы координат данных другому, возвращенному как L-by-M матрица или L-by-M-by-N массив. delta массив одного размера и тип данных с coeffs массив.

Типы данных: single | double

`deltaDelta` — Изменитесь в значениях дельты
матрица | массив

Изменитесь в delta значения от одной системы координат данных другому, возвращенному как L-by-M матрица или L-by-M-by-N массив. deltaDelta массив одного размера и тип данных с coeffs и delta массивы.

Типы данных: single | double

`loc` — Местоположение последней выборки в каждом входном кадре
вектор

Местоположение последней выборки в каждом аналитическом окне, возвращенном как вектор-столбец с одинаковым числом строк как coeffs.

Типы данных: single | double

Алгоритмы

Коэффициенты кепстра частоты Мэла являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели фильтра источника речи, cepstral коэффициенты, как изучают, представляют фильтр (речевой тракт). Частотная характеристика речевого тракта относительно является гладкой, тогда как источник речевой речи может быть смоделирован, когда импульс обучается. В результате речевой тракт может быть оценен спектральным конвертом речевого сегмента.

Идея мотивации mel частоты cepstral коэффициенты состоит в том, чтобы сжать информацию о речевом тракте (сглаживавший спектр) в небольшое количество коэффициентов на основе понимания улитки уха. Несмотря на то, что нет никакого твердого стандарта для вычисления коэффициентов, основные шаги обрисованы в общих чертах схемой.

Значение по умолчанию mel набор фильтров линейно располагает первые 10 треугольных фильтров с интервалами и логарифмически располагает остающиеся фильтры с интервалами.

Информация, содержавшаяся в нулевой mel частоте cepstral коэффициент, часто увеличивается с или заменяется логарифмической энергией. Логарифмическое энергетическое вычисление зависит от входной области.

Если вход (audioIn) является сигналом временной области, логарифмическая энергия вычисляется с помощью следующего уравнения:

$\log E = \log (sum (x^{2}))$

Если вход (audioIn) является сигналом частотного диапазона, логарифмическая энергия вычисляется с помощью следующего уравнения:

$\log E = \log (sum ({| x |}^{2}) / F F T L e n g t h)$

Вопросы совместимости

развернуть все

Delta и расчет дельты дельты

Поведение изменяется в R2020b

Вычисления дельты и дельты дельты теперь вычисляются с помощью audioDelta функция, которая имеет различное поведение запуска, чем предыдущий алгоритм. Значение по умолчанию DeltaWindowLength параметр изменился от 2 к 9. Длина окна дельты 2 больше не поддерживается.

`WindowLength` будет удален в будущем релизе

Изменение поведения в будущем релизе

WindowLength параметр будет удален из mfcc функция в будущем релизе. Используйте Window параметр вместо этого.

В релизах до R2020b вы могли только задать длину окна временного интервала. Окно всегда проектировалось как периодическое Окно Хэмминга. Можно заменить экземпляры кода

coeffs = mfcc(audioin,fs,'WindowLength',1024);

С этим кодом:

coeffs = mfcc(audioIn,fs,'Window',hamming(1024,'periodic'));

Ссылки

[1] Rabiner, Лоуренс Р. и Рональд В. Шафер. Теория и приложения цифровой речевой обработки. Верхний Сэддл-Ривер, NJ: Пирсон, 2010.

[2] Слуховой Тулбокс. https://engineering.purdue.edu / ~ malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf

Документация

mfcc

Синтаксис

Описание

Примеры

Вычислите частоту Мэла коэффициенты Cepstral

Извлеките MFCC из аудио частотного диапазона

Входные параметры

`audioIn` — Входной сигнал
вектор | матрица | трехмерный массив

`fs` — Частота дискретизации (Гц)
положительная скалярная величина

Аргументы name-value

`Window` — Окно применяется во временном интервале
`hamming(round(fs*0.3),'periodic')` (значение по умолчанию) | вектор

`OverlapLength` — Количество перекрывающихся выборок между смежными окнами
`вокруг (fs*0.02)` (значение по умолчанию) | целое число

`NumCoeffs` — Количество коэффициентов возвращено
13 (значение по умолчанию) | положительное скалярное целое число

`BandEdges` — Ребра полосы набора фильтров (Гц)
вектор-строка

`FFTLength` — Количество интервалов для вычисления ДПФ
`numel (Window)` (значение по умолчанию) | положительное скалярное целое число

`Rectification` — Тип нелинейного исправления
`'log'` (значение по умолчанию) | `'cubic-root'`

`DeltaWindowLength` — Количество коэффициентов для вычисления дельты и дельты дельты
9 (значение по умолчанию) | нечетное целое число, больше, чем 2

`LogEnergy` — Задайте, как логарифмическую энергию показывают
`'Append'` (значение по умолчанию) | `'Replace'` | `'Ignore'`

Выходные аргументы

`coeffs` — Частота Мэла cepstral коэффициенты (MFCCs)
матрица | трехмерный массив

`delta` — Изменитесь в коэффициентах
матрица | массив

`deltaDelta` — Изменитесь в значениях дельты
матрица | массив

`loc` — Местоположение последней выборки в каждом входном кадре
вектор

Алгоритмы

Вопросы совместимости

Delta и расчет дельты дельты

`WindowLength` будет удален в будущем релизе

Ссылки

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Смотрите также

Темы

Документация Audio Toolbox

Поддержка

Документация

mfcc

Синтаксис

Описание

Примеры

Вычислите частоту Мэла коэффициенты Cepstral

Извлеките MFCC из аудио частотного диапазона

Входные параметры

audioIn — Входной сигнал вектор | матрица | трехмерный массив

fs — Частота дискретизации (Гц) положительная скалярная величина

Аргументы name-value

Window — Окно применяется во временном интервале hamming(round(fs*0.3),'periodic') (значение по умолчанию) | вектор

OverlapLength — Количество перекрывающихся выборок между смежными окнами вокруг (fs*0.02) (значение по умолчанию) | целое число

NumCoeffs — Количество коэффициентов возвращено13 (значение по умолчанию) | положительное скалярное целое число

BandEdges — Ребра полосы набора фильтров (Гц) вектор-строка

FFTLength — Количество интервалов для вычисления ДПФ numel (Window) (значение по умолчанию) | положительное скалярное целое число

Rectification — Тип нелинейного исправления 'log' (значение по умолчанию) | 'cubic-root'

DeltaWindowLength — Количество коэффициентов для вычисления дельты и дельты дельты9 (значение по умолчанию) | нечетное целое число, больше, чем 2

LogEnergy — Задайте, как логарифмическую энергию показывают 'Append' (значение по умолчанию) | 'Replace' | 'Ignore'

Выходные аргументы

coeffs — Частота Мэла cepstral коэффициенты (MFCCs) матрица | трехмерный массив

delta — Изменитесь в коэффициентах матрица | массив

deltaDelta — Изменитесь в значениях дельты матрица | массив

loc — Местоположение последней выборки в каждом входном кадре вектор

Алгоритмы

Вопросы совместимости

Delta и расчет дельты дельты

WindowLength будет удален в будущем релизе

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью MATLAB® Coder™.

Генерация кода графического процессора Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Массивы графического процессора Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Смотрите также

Темы

Документация Audio Toolbox

Поддержка

`audioIn` — Входной сигнал
вектор | матрица | трехмерный массив

`fs` — Частота дискретизации (Гц)
положительная скалярная величина

`Window` — Окно применяется во временном интервале
`hamming(round(fs*0.3),'periodic')` (значение по умолчанию) | вектор

`OverlapLength` — Количество перекрывающихся выборок между смежными окнами
`вокруг (fs*0.02)` (значение по умолчанию) | целое число

`NumCoeffs` — Количество коэффициентов возвращено
13 (значение по умолчанию) | положительное скалярное целое число

`BandEdges` — Ребра полосы набора фильтров (Гц)
вектор-строка

`FFTLength` — Количество интервалов для вычисления ДПФ
`numel (Window)` (значение по умолчанию) | положительное скалярное целое число

`Rectification` — Тип нелинейного исправления
`'log'` (значение по умолчанию) | `'cubic-root'`

`DeltaWindowLength` — Количество коэффициентов для вычисления дельты и дельты дельты
9 (значение по умолчанию) | нечетное целое число, больше, чем 2

`LogEnergy` — Задайте, как логарифмическую энергию показывают
`'Append'` (значение по умолчанию) | `'Replace'` | `'Ignore'`

`coeffs` — Частота Мэла cepstral коэффициенты (MFCCs)
матрица | трехмерный массив

`delta` — Изменитесь в коэффициентах
матрица | массив

`deltaDelta` — Изменитесь в значениях дельты
матрица | массив

`loc` — Местоположение последней выборки в каждом входном кадре
вектор

`WindowLength` будет удален в будущем релизе

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.