Cepstral Feature Extractor

Извлечение функций cepstral из сегмента audio

Библиотека:
Audio измерения

Описание

Блок Cepstral Feature Extractor извлекает функции cepstral из аудиосегмента. Функции Cepstral обычно используются для характеристики речевых и музыкальных сигналов.

Порты

Вход

расширить все

`Port_1` - Аудио вход в cepstral извлечения функций
Вектор-столбец | матрица

Аудио вход в cepstral функции extractor, заданный как вектор-столбец или матрица. Если задано в виде матрицы, столбцы обрабатываются как независимые аудиоканалы.

Типы данных: single | double

Выход

расширить все

`coeffs` - Коэффициенты Cepstral
Вектор-столбец | матрица

Коэффициенты Cepstral, возвращенные как вектор-столбец или матрица. Если матрица коэффициентов является матрицей N -by - M, N определяется значениями, которые вы задаете в параметрах Number of coefficients to return и Log energy usage. M равняется количеству входа аудиоканалов.

Когда параметр Log energy usage установлен в:

Append - Блок подготавливает значение энергии журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs, где NumCoeffs - значение, заданное в параметре Number of coefficients to return.
Replace - Блок заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
Ignore -- Блок не вычисляет и не возвращает журнала энергию.

Этот порт не называется, пока вы не выберете Output delta параметр, параметр Output delta-delta или оба.

Типы данных: single | double

`delta` - Изменение коэффициентов
Вектор-столбец | матрица

Изменение коэффициентов во время последовательных вызовов алгоритма, возвращаемое как вектор-столбец или матрица. Массив delta имеет тот же размер и тип данных, что и массив coeffs.

Зависимости

Чтобы включить этот порт, выберите параметр Output delta.

Типы данных: single | double

`deltaDelta` - Изменение значений дельты
Вектор-столбец | матрица

Изменение значений delta во время последовательных вызовов алгоритма, возвращаемое как вектор-столбец или матрица. Массив deltaDelta имеет тот же размер и тип данных, что и coeffs и delta массивы.

Зависимости

Чтобы включить этот порт, выберите параметр Output delta-delta.

Типы данных: single | double

Параметры

расширить все

Если параметр указан как настраиваемый, то можно изменить его значение во время симуляции.

`Filter bank type` - Тип банка фильтров
`Mel` (по умолчанию) | `Gammatone`

Тип группы фильтров, заданный как Mel или Gammatone:

Mel - Блок вычисляет коэффициенты mel frequency cepstral (MFCC).
Gammatone - Блок вычисляет коэффициенты gammatone cepstral (GTCC).

Настраиваемый: Нет

`Domain of the input signal` - Область входного сигнала
`Time` (по умолчанию) | `Frequency`

Область входного сигнала, заданная как Time или Frequency.

Настраиваемый: Нет

`Number of coefficients to return` - Количество возвращаемых коэффициентов
`13` (по умолчанию) | положительное целое число

Количество возвращаемых коэффициентов, заданное в виде целого числа в области значений [2, v], где v количество допустимых полос пропускания. Количество допустимых полос пропускания зависит от типа банка фильтров:

Mel - Количество допустимых полос пропускания определяется как sum(κ <= floor(fs/2))-2, где κ количество ребер полосы пропускания в mel filter bank и fs - частота дискретизации.
Gammatone - Количество допустимых полос пропускания определяется как ceil (hz2erb(R (2)) -hz2erb(R (1))), где R - частотная область значений группы гамматоновых фильтров.

Настраиваемый: Нет

Типы данных: single | double

`Nonlinear rectification` - Тип нелинейного выпрямления
`Log` (по умолчанию) | `Cubic-Root`

Тип нелинейного выпрямления, применяемого до дискретного косинусного преобразования.

Настраиваемый: Нет

`Inherit FFT length from input dimensions` - Наследовать длину БПФ от входа
`on` (по умолчанию) | `off`

Когда вы выбираете этот параметр, длина БПФ равна количеству строк в входном сигнале.

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input signal равным Time.

`FFTLength` - длина БПФ
`[]` (по умолчанию) | положительное целое число

Длина БПФ, заданная как положительное целое число. Значение по умолчанию, [], означает, что длина БПФ равна количеству строк в входном сигнале.

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input signal равным Time и выберите параметр Inherit FFT length from input dimensions.

`Log energy usage` - Укажите, как показана энергия журнала
`Append` (по умолчанию) | `Replace` | `Ignore`

Задайте, как энергия журнала показана в выходе вектора коэффициентов, заданном как:

Append - Блок подготавливает энергию журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs, где NumCoeffs - значение, заданное в параметре Number of coefficients to return.
Replace - Блок заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
Ignore -- Блок не вычисляет и не возвращает журнала энергию.

Настраиваемый: Нет

`Output delta` - Выходные значения дельты
`off` (по умолчанию) | `on`

Когда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, delta. Этот порт выводит изменение коэффициентов на последовательные вызовы алгоритма.

Настраиваемый: Нет

`Output delta-delta` - Выходные значения дельта-дельты
`off` (по умолчанию) | `on`

Когда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, deltaDelta. Этот порт выводит изменение значений дельты во время последовательных вызовов алгоритма.

Настраиваемый: Нет

`Inherit sample rate from input` - Укажите источник входной частоты выборки
`off` (по умолчанию) | `on`

Когда вы выбираете этот параметр, блок наследует свою частоту дискретизации от входного сигнала. Когда вы очищаете этот параметр, вы задаете частоту дискретизации в Input sample rate (Hz) параметре.

Настраиваемый: Нет

`Input sample rate (Hz)` - Частота дискретизации входов
`16000` (по умолчанию) | положительная скалярная величина

Входная частота выборки в Гц, заданная как действительная положительная скалярная величина.

Зависимости

Чтобы включить этот параметр, очистите параметр Inherit sample rate from input.

`Simulate using` - Задайте тип выполняемой симуляции
`Code generation` (по умолчанию) | `Interpreted execution`

Code generation - Симулируйте модель с использованием сгенерированного кода C. Первый раз, когда вы запускаете симуляцию, Simulink^® генерирует код С для блока. Код С повторно используется для последующих симуляций, пока модель не меняется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.
Interpreted execution -- Моделируйте модель с помощью MATLAB^® интерпретатор. Эта опция сокращает время запуска, но имеет более низкую скорость симуляции, чем Code generation. В этом режиме можно отлаживать исходный код блока.

Настраиваемый: Нет

Вкладка «Дополнительно»

`Gammatone frequency range (Hz)` - Частотная область значений группы гамматоновых фильтров (Гц)
`[50 8000]` (по умолчанию) | двухэлементный вектор-строка

Частотная область значений группы гамматоновых фильтров в Гц, заданная как положительная, монотонно увеличивающаяся двухэлементный вектор-строка. Максимальная частотная область значений может быть любым конечным числом. Центральные частоты группы фильтров равномерно разнесены по частотной области значений по шкале ERB.

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Filter bank type равным Gammatone.

`Band edges of Mel filter bank (Hz)` - Ленточные ребра mel filter bank
Вектор-строка

Края полосы ребер группы фильтров в Гц, заданные как неотрицательный монотонно увеличивающийся вектор-строка в области значений [0, ∞). Максимальная частота полосы пропускания может быть любым конечным числом. Количество полос пропускания должно быть в области значений [4, 80].

Диапазонные ребра по умолчанию разнесены линейно для первой десятки, а затем логарифмически после этого. Полосы ребер по умолчанию заданы как рекомендуемые [1].

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Filter bank type равным Mel.

`Domain for Mel filter bank design` - Mel filter bank design области
`Hz` (по умолчанию) | `Bin`

Область проекта банка Мел-фильтров, заданная как Hz или Bin. Банк фильтров разработан как перекрывающиеся треугольники с ребрами полосы, заданными параметром Band edges of filter bank (Hz).

Ребра полосы данных указаны в Гц. Когда вы устанавливаете область проекта на:

Hz - треугольники банка фильтров рисуются в Гц и отображаются на интервалы.
Для получения дополнительной информации см. раздел [1].
Bin -- Частоты ребра полосы в Hz преобразуются в интервалы. Треугольники банка фильтров рисуются симметрично в интервалах.
Для получения дополнительной информации см. раздел [2].

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Filter bank type равным Mel.

`Filter bank normalization` - Нормализация банка фильтров
`Bandwidth` (по умолчанию) | `Area` | `None`

Метод нормализации для нормализации весов группы фильтров, заданный как:

Bandwidth - Веса каждого полосного фильтра нормированы соответствующей полосой пропускания фильтра.
Area - Веса каждого полосно-пропускающего фильтра нормированы соответствующей площадью полосно-пропускающего фильтра.
None - Веса фильтра не нормированы.

Настраиваемый: Нет

Примеры моделей

Извлечение коэффициентов Cepstral

Используйте блок Cepstral Функции Extractor, чтобы извлечь и визуализировать коэффициенты cepstral из аудио файла.

Характеристики блоков

Типы данных	`double` \| `single`
Прямое сквозное соединение	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулем	`no`

Алгоритмы

расширить все

Слуховые коэффициенты Cepstrum

Слуховые коэффициенты cepstrum являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели речи «источник-фильтр» кепстральные коэффициенты понимаются как представляющие фильтр (голосовой тракт). Частотная характеристика голосового тракта относительно гладкая, в то время как источник голосовой речи может быть смоделирован как импульсный train. В результате голосовой тракт может быть оценен спектральной огибающей речевого сегмента.

Мотивирующая идея cepstral коэффициентов состоит в том, чтобы сжать информацию о голосовом тракте (сглаженный спектр) в небольшое количество коэффициентов, основанных на понимании улитки. Несмотря на отсутствие жесткого стандарта для вычисления коэффициентов, основные шаги описаны схемой.

Двумя популярными реализациями банка фильтров являются mel filter bank и gammatone filter bank.

Mel Filter Bank (Банк Мел-фильтров)

По умолчанию mel filter bank линейно разделяет первые 10 треугольных фильтров и логарифмически разделяет оставшиеся фильтры.

Банк Гамматоновых Фильтров

Группа гамматоновых фильтров по умолчанию состоит из гамматоновых фильтров, расположенных линейно по шкале ERB между 50 и 8000 Гц. Банк фильтров разработан gammatoneFilterBank.

Журнал энергии

Если вход (x) является сигналом временной области, энергия журнала вычисляется с помощью следующего уравнения:

$\log E = \log (sum (x^{2}))$

Если вход (x) является сигналом частотного диапазона, энергия журнала вычисляется с помощью следующего уравнения:

$\log E = \log (sum ({| x |}^{2}) / F F T L e n g t h)$

Ссылки

[1] Аудиторный тулбокс. https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf

[2] ETSI ES 201 108 V1.1.3 (2003-09). https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ Simulink ®

См. также

cepstralFeatureExtractor | mfcc | pitch | Voice Activity Detector | voiceActivityDetector

Темы

Идентификация динамика с использованием тангажа и MFCC

Введенный в R2018a

Документация

Cepstral Feature Extractor

Описание

Порты

Вход

Port_1 - Аудио вход в cepstral извлечения функций Вектор-столбец | матрица

Выход

coeffs - Коэффициенты Cepstral Вектор-столбец | матрица

delta - Изменение коэффициентов Вектор-столбец | матрица

Зависимости

deltaDelta - Изменение значений дельты Вектор-столбец | матрица

Зависимости

Параметры

Filter bank type - Тип банка фильтров Mel (по умолчанию) | Gammatone

Domain of the input signal - Область входного сигнала Time (по умолчанию) | Frequency

Number of coefficients to return - Количество возвращаемых коэффициентов 13 (по умолчанию) | положительное целое число

Nonlinear rectification - Тип нелинейного выпрямления Log (по умолчанию) | Cubic-Root

Inherit FFT length from input dimensions - Наследовать длину БПФ от входа on (по умолчанию) | off

Зависимости

FFTLength - длина БПФ [] (по умолчанию) | положительное целое число

Зависимости

Log energy usage - Укажите, как показана энергия журнала Append (по умолчанию) | Replace | Ignore

Output delta - Выходные значения дельты off (по умолчанию) | on

Output delta-delta - Выходные значения дельта-дельты off (по умолчанию) | on

Inherit sample rate from input - Укажите источник входной частоты выборки off (по умолчанию) | on

Input sample rate (Hz) - Частота дискретизации входов 16000 (по умолчанию) | положительная скалярная величина

Зависимости

Simulate using - Задайте тип выполняемой симуляции Code generation (по умолчанию) | Interpreted execution

Gammatone frequency range (Hz) - Частотная область значений группы гамматоновых фильтров (Гц) [50 8000] (по умолчанию) | двухэлементный вектор-строка

Зависимости

Band edges of Mel filter bank (Hz) - Ленточные ребра mel filter bank Вектор-строка

Зависимости

Domain for Mel filter bank design - Mel filter bank design области Hz (по умолчанию) | Bin

Зависимости

Filter bank normalization - Нормализация банка фильтров Bandwidth (по умолчанию) | Area | None

Примеры моделей

Извлечение коэффициентов Cepstral

Характеристики блоков

Алгоритмы

Слуховые коэффициенты Cepstrum

Журнал энергии

Ссылки

Расширенные возможности

Генерация кода C/C + + Сгенерируйте код C и C++ с помощью Coder™ Simulink ®

См. также

Темы

Документация Audio Toolbox

Поддержка

`Port_1` - Аудио вход в cepstral извлечения функций
Вектор-столбец | матрица

`coeffs` - Коэффициенты Cepstral
Вектор-столбец | матрица

`delta` - Изменение коэффициентов
Вектор-столбец | матрица

`deltaDelta` - Изменение значений дельты
Вектор-столбец | матрица

`Filter bank type` - Тип банка фильтров
`Mel` (по умолчанию) | `Gammatone`

`Domain of the input signal` - Область входного сигнала
`Time` (по умолчанию) | `Frequency`

`Number of coefficients to return` - Количество возвращаемых коэффициентов
`13` (по умолчанию) | положительное целое число

`Nonlinear rectification` - Тип нелинейного выпрямления
`Log` (по умолчанию) | `Cubic-Root`

`Inherit FFT length from input dimensions` - Наследовать длину БПФ от входа
`on` (по умолчанию) | `off`

`FFTLength` - длина БПФ
`[]` (по умолчанию) | положительное целое число

`Log energy usage` - Укажите, как показана энергия журнала
`Append` (по умолчанию) | `Replace` | `Ignore`

`Output delta` - Выходные значения дельты
`off` (по умолчанию) | `on`

`Output delta-delta` - Выходные значения дельта-дельты
`off` (по умолчанию) | `on`

`Inherit sample rate from input` - Укажите источник входной частоты выборки
`off` (по умолчанию) | `on`

`Input sample rate (Hz)` - Частота дискретизации входов
`16000` (по умолчанию) | положительная скалярная величина

`Simulate using` - Задайте тип выполняемой симуляции
`Code generation` (по умолчанию) | `Interpreted execution`

`Gammatone frequency range (Hz)` - Частотная область значений группы гамматоновых фильтров (Гц)
`[50 8000]` (по умолчанию) | двухэлементный вектор-строка

`Band edges of Mel filter bank (Hz)` - Ленточные ребра mel filter bank
Вектор-строка

`Domain for Mel filter bank design` - Mel filter bank design области
`Hz` (по умолчанию) | `Bin`

`Filter bank normalization` - Нормализация банка фильтров
`Bandwidth` (по умолчанию) | `Area` | `None`

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ Simulink ®