Cepstral Feature Extractor

Извлеките функции cepstral из аудио сегмента

Библиотека:
Audio Toolbox / Измерения

Описание

Блок Cepstral Feature Extractor извлекает функции cepstral из аудио сегмента. Функции Cepstral обычно используются, чтобы охарактеризовать музыкальные сигналы и речь.

Порты

Входной параметр

развернуть все

`Port_1` — Аудиовход к cepstral показывает экстрактор
вектор-столбец | матрица

Аудиовход к cepstral показывает экстрактор в виде вектор-столбца или матрицы. Если задано как матрица, столбцы обработаны как независимые звуковые каналы.

Типы данных: single | double

Вывод

развернуть все

`coeffs` — Коэффициенты Cepstral
вектор-столбец | матрица

Коэффициенты Cepstral, возвращенные как вектор-столбец или матрица. Если содействующей матрицей является N-by-M матрица, N определяется значениями, которые вы задаете в параметрах Log energy usage и Number of coefficients to return. M равняется количеству входных звуковых каналов.

Когда параметр Log energy usage устанавливается на:

Append – Блок предварительно ожидает логарифмическую энергетическую ценность к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs, где NumCoeffs является значением, заданным в параметре Number of coefficients to return.
Replace – Блок заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
Ignore – Блок не вычисляет или возвращает логарифмическую энергию.

Этот порт без имени, пока вы не выбираете параметр Output delta, параметр Output delta-delta или обоих.

Типы данных: single | double

`delta` — Изменитесь в коэффициентах
вектор-столбец | матрица

Изменитесь в коэффициентах по последовательным вызовам алгоритма, возвращенного как вектор-столбец или матрица. Массив delta одного размера и тип данных как массив coeffs.

Зависимости

Чтобы включить этот порт, выберите параметр Output delta.

Типы данных: single | double

`deltaDelta` — Изменитесь в значениях дельты
вектор-столбец | матрица

Изменитесь в значениях delta по последовательным вызовам алгоритма, возвращенного как вектор-столбец или матрица. Массив deltaDelta одного размера и тип данных с массивами delta и coeffs.

Зависимости

Чтобы включить этот порт, выберите параметр Output delta-delta.

Типы данных: single | double

Параметры

развернуть все

Если параметр перечислен как настраиваемый, то можно изменить его значение в процессе моделирования.

`Filter bank type` — Тип набора фильтров
`Mel` (значение по умолчанию) | `Gammatone`

Тип набора фильтров в виде любого Mel или Gammatone:

Mel – Блок вычисляет частоту mel cepstral коэффициенты (MFCC).
Gammatone – Блок вычисляет gammatone cepstral коэффициенты (GTCC).

Настраиваемый: нет

`Domain of the input signal` — Область входного сигнала
`Time` (значение по умолчанию) | `Frequency`

Область входного сигнала в виде любого Time или Frequency.

Настраиваемый: нет

`Number of coefficients to return` — Количество коэффициентов, чтобы возвратиться
13 (значение по умолчанию) | положительное целое число

Количество коэффициентов, чтобы возвратиться в виде целого числа в области значений [2, v], где v является количеством допустимых полос пропускания. Количество допустимых полос пропускания зависит от типа набора фильтров:

Mel – Количество допустимых полос пропускания задано как sum(κ <= floor(fs/2))-2, где κ количество ребер полосы в mel наборе фильтров и fs частота дискретизации.
Gammatone – Количество допустимых полос пропускания задано, как перекрывают (hz2erbr2 -hz2erbR1 , где R частотный диапазон gammatone набора фильтров.

Настраиваемый: нет

Типы данных: single | double

`Nonlinear rectification` — Тип нелинейного исправления
`Log` (значение по умолчанию) | `Cubic-Root`

Тип нелинейного исправления применяется до дискретного косинусного преобразования.

Настраиваемый: нет

`Inherit FFT length from input dimensions` — Наследуйте длину БПФ от входа
`on` (значение по умолчанию) | `off`

Когда вы выбираете этот параметр, длина БПФ равна количеству строк во входном сигнале.

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input signal на Time.

`FFTLength` — Длина БПФ
`[]` (значение по умолчанию) | положительное целое число

Длина БПФ в виде положительного целого числа. Значение по умолчанию, [], средние значения, что длина БПФ равна количеству строк во входном сигнале.

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input signal на Time и выберите параметр Inherit FFT length from input dimensions.

`Log energy usage` — Задайте, как логарифмическую энергию показывают
`Append` (значение по умолчанию) | `Replace` | `Ignore`

Задайте, как логарифмическую энергию показывают в содействующем векторе выход в виде:

Append – Блок предварительно ожидает логарифмическую энергию к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs, где NumCoeffs является значением, заданным в параметре Number of coefficients to return.
Replace – Блок заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
Ignore – Блок не вычисляет или возвращает логарифмическую энергию.

Настраиваемый: нет

`Output delta` — Выведите значения дельты
`off` (значение по умолчанию) | `on`

Когда вы выбираете этот параметр, дополнительный выходной порт, delta, добавляется к блоку. Это выходы порта изменение в коэффициентах по последовательным вызовам алгоритма.

Настраиваемый: нет

`Output delta-delta` — Выведите значения дельты дельты
`off` (значение по умолчанию) | `on`

Когда вы выбираете этот параметр, дополнительный выходной порт, deltaDelta, добавляется к блоку. Это выходы порта изменение в значениях дельты по последовательным вызовам алгоритма.

Настраиваемый: нет

`Inherit sample rate from input` — Задайте источник входной частоты дискретизации
`off` (значение по умолчанию) | `on`

Когда вы выбираете этот параметр, блок наследовал свою частоту дискретизации от входного сигнала. Когда вы очищаете этот параметр, вы задаете частоту дискретизации в параметре Input sample rate (Hz).

Настраиваемый: нет

`Input sample rate (Hz)` — Частота дискретизации входа
16000 (значение по умолчанию) | положительная скалярная величина

Введите частоту дискретизации в Гц в виде действительной положительной скалярной величины.

Зависимости

Чтобы включить этот параметр, очистите параметр Inherit sample rate from input.

`Simulate using` — Задайте тип симуляции, чтобы запуститься
`Code generation` (значение по умолчанию) | `Interpreted execution`

Code generation – Симулируйте модель с помощью сгенерированного кода C. В первый раз, когда вы запускаете симуляцию, Simulink^® генерирует код С для блока. Код С снова используется для последующих симуляций, пока модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.
Interpreted execution – Симулируйте модель с помощью интерпретатора MATLAB^®. Эта опция сокращает время запуска, но имеет более медленную скорость симуляции, чем Code generation. В этом режиме можно отладить исходный код блока.

Настраиваемый: нет

Вкладка "Дополнительно"

`Gammatone frequency range (Hz)` — Частотный диапазон gammatone набора фильтров (Гц)
[50 8000] (значение по умолчанию) | двухэлементный вектор-строка

Частотный диапазон gammatone набора фильтров в Гц в виде положительного, монотонно увеличивающегося двухэлементного вектора-строки. Максимальный частотный диапазон может быть любым конечным числом. Центральные частоты набора фильтров равномерно распределены через частотный диапазон по шкале ERB.

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Filter bank type на Gammatone.

`Band edges of Mel filter bank (Hz)` — Ребра полосы mel набора фильтров
вектор-строка

Ребра полосы набора фильтров в Гц в виде неотрицательного монотонно увеличивающегося вектора-строки в области значений [0, ∞). Максимум bandedge частота может быть любым конечным числом. Количество bandedges должно быть в области значений [4, 80].

Ребра полосы по умолчанию расположены с интервалами линейно для первых десяти и затем логарифмически после этого. Ребра полосы по умолчанию установлены, как рекомендуется [1].

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Filter bank type на Mel.

`Domain for Mel filter bank design` — Набор фильтров Мэла проектирует область
`Hz` (значение по умолчанию) | `Bin`

Набор фильтров Мэла проектирует область в виде любого Hz или Bin. filterbank спроектирован как перекрытые треугольники с ребрами полосы, заданными параметром Band edges of filter bank (Hz).

Ребра полосы заданы в Гц. Когда вы устанавливаете область проекта на:

Hz – Треугольники набора фильтров чертятся в Гц и сопоставлены на интервалы.
Для получения дополнительной информации см. [1].
Bin – Частоты ребра полосы в Hz преобразованы в интервалы. Треугольники набора фильтров чертятся симметрично в интервалах.
Для получения дополнительной информации см. [2].

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Filter bank type на Mel.

`Filter bank normalization` — Нормируйте набор фильтров
`Bandwidth` (значение по умолчанию) | `Area` | `None`

Метод нормализации раньше нормировал веса набора фильтров в виде:

Bandwidth – Веса каждого полосового фильтра нормированы на соответствующую пропускную способность фильтра.
Area – Веса каждого полосового фильтра нормированы на соответствующую область полосового фильтра.
None – Веса фильтра не нормированы.

Настраиваемый: нет

Примеры модели

Извлеките коэффициенты Cepstral

Используйте блок Cepstral Feature Extractor, чтобы извлечь и визуализировать cepstral коэффициенты из звукового файла.

Характеристики блока

Типы данных	`double` \| `single`
Прямое сквозное соединение	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулем	`no`

Алгоритмы

развернуть все

Слуховые коэффициенты кепстра

Слуховые коэффициенты кепстра являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели фильтра источника речи, cepstral коэффициенты, как изучают, представляют фильтр (речевой тракт). Частотная характеристика речевого тракта относительно является гладкой, тогда как источник речевой речи может быть смоделирован, когда импульс обучается. В результате речевой тракт может быть оценен спектральным конвертом речевого сегмента.

Идея мотивации cepstral коэффициентов состоит в том, чтобы сжать информацию о речевом тракте (сглаживавший спектр) в небольшое количество коэффициентов на основе понимания улитки уха. Несмотря на то, что нет никакого твердого стандарта для вычисления коэффициентов, основные шаги обрисованы в общих чертах схемой.

Две популярных реализации набора фильтров являются mel набором фильтров и gammatone набором фильтров.

Набор фильтров Мэла

Значение по умолчанию mel набор фильтров линейно располагает первые 10 треугольных фильтров с интервалами и логарифмически располагает остающиеся фильтры с интервалами.

Набор фильтров Gammatone

Значение по умолчанию gammatone набор фильтров состоит из фильтров gammatone, расположенных с интервалами линейно по шкале ERB между 50 и 8 000 Гц. Набор фильтров спроектирован gammatoneFilterBank.

Регистрируйте энергию

Если вход (x) является сигналом временной области, логарифмическая энергия вычисляется с помощью следующего уравнения:

$\log E = \log (sum (x^{2}))$

Если вход (x) является сигналом частотного диапазона, логарифмическая энергия вычисляется с помощью следующего уравнения:

$\log E = \log (sum ({| x |}^{2}) / F F T L e n g t h)$

Ссылки

[1] Слуховой Тулбокс. https://engineering.purdue.edu / ~ malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf

[2] ETSI ES 201 108 V1.1.3 (2003-09). https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Темы

Идентификация динамика Используя подачу и MFCC

Введенный в R2018a

Документация

Cepstral Feature Extractor

Описание

Порты

Входной параметр

Port_1 — Аудиовход к cepstral показывает экстрактор вектор-столбец | матрица

Вывод

coeffs — Коэффициенты Cepstral вектор-столбец | матрица

delta — Изменитесь в коэффициентах вектор-столбец | матрица

Зависимости

deltaDelta — Изменитесь в значениях дельты вектор-столбец | матрица

Зависимости

Параметры

Filter bank type — Тип набора фильтров Mel (значение по умолчанию) | Gammatone

Domain of the input signal — Область входного сигнала Time (значение по умолчанию) | Frequency

Number of coefficients to return — Количество коэффициентов, чтобы возвратиться13 (значение по умолчанию) | положительное целое число

Nonlinear rectification — Тип нелинейного исправления Log (значение по умолчанию) | Cubic-Root

Inherit FFT length from input dimensions — Наследуйте длину БПФ от входа on (значение по умолчанию) | off

Зависимости

FFTLength — Длина БПФ [] (значение по умолчанию) | положительное целое число

Зависимости

Log energy usage — Задайте, как логарифмическую энергию показывают Append (значение по умолчанию) | Replace | Ignore

Output delta — Выведите значения дельты off (значение по умолчанию) | on

Output delta-delta — Выведите значения дельты дельты off (значение по умолчанию) | on

Inherit sample rate from input — Задайте источник входной частоты дискретизации off (значение по умолчанию) | on

Input sample rate (Hz) — Частота дискретизации входа16000 (значение по умолчанию) | положительная скалярная величина

Зависимости

Simulate using — Задайте тип симуляции, чтобы запуститься Code generation (значение по умолчанию) | Interpreted execution

Gammatone frequency range (Hz) — Частотный диапазон gammatone набора фильтров (Гц)[50 8000] (значение по умолчанию) | двухэлементный вектор-строка

Зависимости

Band edges of Mel filter bank (Hz) — Ребра полосы mel набора фильтров вектор-строка

Зависимости

Domain for Mel filter bank design — Набор фильтров Мэла проектирует область Hz (значение по умолчанию) | Bin

Зависимости

Filter bank normalization — Нормируйте набор фильтров Bandwidth (значение по умолчанию) | Area | None

Примеры модели

Извлеките коэффициенты Cepstral

Характеристики блока

Алгоритмы

Слуховые коэффициенты кепстра

Регистрируйте энергию

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Темы

Документация Audio Toolbox

Поддержка

`Port_1` — Аудиовход к cepstral показывает экстрактор
вектор-столбец | матрица

`coeffs` — Коэффициенты Cepstral
вектор-столбец | матрица

`delta` — Изменитесь в коэффициентах
вектор-столбец | матрица

`deltaDelta` — Изменитесь в значениях дельты
вектор-столбец | матрица

`Filter bank type` — Тип набора фильтров
`Mel` (значение по умолчанию) | `Gammatone`

`Domain of the input signal` — Область входного сигнала
`Time` (значение по умолчанию) | `Frequency`

`Number of coefficients to return` — Количество коэффициентов, чтобы возвратиться
13 (значение по умолчанию) | положительное целое число

`Nonlinear rectification` — Тип нелинейного исправления
`Log` (значение по умолчанию) | `Cubic-Root`

`Inherit FFT length from input dimensions` — Наследуйте длину БПФ от входа
`on` (значение по умолчанию) | `off`

`FFTLength` — Длина БПФ
`[]` (значение по умолчанию) | положительное целое число

`Log energy usage` — Задайте, как логарифмическую энергию показывают
`Append` (значение по умолчанию) | `Replace` | `Ignore`

`Output delta` — Выведите значения дельты
`off` (значение по умолчанию) | `on`

`Output delta-delta` — Выведите значения дельты дельты
`off` (значение по умолчанию) | `on`

`Inherit sample rate from input` — Задайте источник входной частоты дискретизации
`off` (значение по умолчанию) | `on`

`Input sample rate (Hz)` — Частота дискретизации входа
16000 (значение по умолчанию) | положительная скалярная величина

`Simulate using` — Задайте тип симуляции, чтобы запуститься
`Code generation` (значение по умолчанию) | `Interpreted execution`

`Gammatone frequency range (Hz)` — Частотный диапазон gammatone набора фильтров (Гц)
[50 8000] (значение по умолчанию) | двухэлементный вектор-строка

`Band edges of Mel filter bank (Hz)` — Ребра полосы mel набора фильтров
вектор-строка

`Domain for Mel filter bank design` — Набор фильтров Мэла проектирует область
`Hz` (значение по умолчанию) | `Bin`

`Filter bank normalization` — Нормируйте набор фильтров
`Bandwidth` (значение по умолчанию) | `Area` | `None`

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.