Извлечение MFCC, журнала энергии, дельты и дельты аудиосигнала
задает опции с использованием одного или нескольких coeffs
= mfcc(___,Name,Value
)Name,Value
аргументы в виде пар.
coeffs = mfcc(audioIn,fs,'LogEnergy','Replace')
возвращает mel frequency cepstral коэффициенты для аудио входного сигнала, дискретизированного в fs
Гц. Первый коэффициент в coeffs
вектор заменяется на логарифмическое значение энергии.[
также возвращает дельту, дельту и местоположение выборок, соответствующих каждому окну данных.coeffs
,delta
,deltaDelta
,loc
] = mfcc(___)
Коэффициенты Mel frequency cepstrum являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели речи «источник-фильтр» кепстральные коэффициенты понимаются как представляющие фильтр (голосовой тракт). Частотная характеристика голосового тракта относительно гладкая, в то время как источник голосовой речи может быть смоделирован как импульсный train. В результате голосовой тракт может быть оценен спектральной огибающей речевого сегмента.
Мотивирующая идея мел частотных кепстральных коэффициентов состоит в том, чтобы сжать информацию о голосовом тракте (сглаженном спектре) в небольшое количество коэффициентов, основанных на понимании улитки. Несмотря на отсутствие жесткого стандарта для вычисления коэффициентов, основные шаги описаны схемой.
По умолчанию mel filter bank линейно разделяет первые 10 треугольных фильтров и логарифмически разделяет оставшиеся фильтры.
Информация, содержащаяся в коэффициенте zeroth mel frequency cepstral, часто дополняется или заменяется энергией журнала. Вычисление журнала энергии зависит от области входа.
Если вход (audioIn) является сигналом временной области, энергия журнала вычисляется с помощью следующего уравнения:
Если вход (audioIn) является сигналом частотного диапазона, энергия журнала вычисляется с помощью следующего уравнения:
[1] Рабинер, Лоуренс Р. и Рональд У. Шафер. Теория и приложения цифровой обработки речи. Upper Saddle River, NJ: Pearson, 2010.
[2] Аудиторный тулбокс. https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf
audioDelta
| audioFeatureExtractor
| Cepstral Feature Extractor | cepstralCoefficients
| detectSpeech