Извлечение функций cepstral из сегмента audio
Audio измерения
Блок Cepstral Feature Extractor извлекает функции cepstral из аудиосегмента. Функции Cepstral обычно используются для характеристики речевых и музыкальных сигналов.
Port_1
- Аудио вход в cepstral извлечения функцийАудио вход в cepstral функции extractor, заданный как вектор-столбец или матрица. Если задано в виде матрицы, столбцы обрабатываются как независимые аудиоканалы.
Типы данных: single
| double
coeffs
- Коэффициенты CepstralКоэффициенты Cepstral, возвращенные как вектор-столбец или матрица. Если матрица коэффициентов является матрицей N -by - M, N определяется значениями, которые вы задаете в параметрах Number of coefficients to return и Log energy usage. M равняется количеству входа аудиоканалов.
Когда параметр Log energy usage установлен в:
Append
- Блок подготавливает значение энергии журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs, где NumCoeffs - значение, заданное в параметре Number of coefficients to return.
Replace
- Блок заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
Ignore
-- Блок не вычисляет и не возвращает журнала энергию.
Этот порт не называется, пока вы не выберете Output delta параметр, параметр Output delta-delta или оба.
Типы данных: single
| double
delta
- Изменение коэффициентовИзменение коэффициентов во время последовательных вызовов алгоритма, возвращаемое как вектор-столбец или матрица. Массив delta имеет тот же размер и тип данных, что и массив coeffs.
Чтобы включить этот порт, выберите параметр Output delta.
Типы данных: single
| double
deltaDelta
- Изменение значений дельтыИзменение значений delta во время последовательных вызовов алгоритма, возвращаемое как вектор-столбец или матрица. Массив deltaDelta имеет тот же размер и тип данных, что и coeffs и delta массивы.
Чтобы включить этот порт, выберите параметр Output delta-delta.
Типы данных: single
| double
Если параметр указан как настраиваемый, то можно изменить его значение во время симуляции.
Filter bank type
- Тип банка фильтровMel
(по умолчанию) | Gammatone
Тип группы фильтров, заданный как Mel
или Gammatone
:
Mel
- Блок вычисляет коэффициенты mel frequency cepstral (MFCC).
Gammatone
- Блок вычисляет коэффициенты gammatone cepstral (GTCC).
Настраиваемый: Нет
Domain of the input signal
- Область входного сигналаTime
(по умолчанию) | Frequency
Область входного сигнала, заданная как Time
или Frequency
.
Настраиваемый: Нет
Number of coefficients to return
- Количество возвращаемых коэффициентов13
(по умолчанию) | положительное целое числоКоличество возвращаемых коэффициентов, заданное в виде целого числа в области значений [2, v], где v количество допустимых полос пропускания. Количество допустимых полос пропускания зависит от типа банка фильтров:
Mel
- Количество допустимых полос пропускания определяется как sum(κ <= floor(fs/2))-2
, где κ
количество ребер полосы пропускания в mel filter bank и fs
- частота дискретизации.
Gammatone
- Количество допустимых полос пропускания определяется как ceil (
, где hz2erb
(R (2)) -hz2erb
(R (1)))R
- частотная область значений группы гамматоновых фильтров.
Настраиваемый: Нет
Типы данных: single
| double
Nonlinear rectification
- Тип нелинейного выпрямленияLog
(по умолчанию) | Cubic-Root
Тип нелинейного выпрямления, применяемого до дискретного косинусного преобразования.
Настраиваемый: Нет
Inherit FFT length from input dimensions
- Наследовать длину БПФ от входаon
(по умолчанию) | off
Когда вы выбираете этот параметр, длина БПФ равна количеству строк в входном сигнале.
Настраиваемый: Нет
Чтобы включить этот параметр, установите Domain of the input signal равным Time
.
FFTLength
- длина БПФ[]
(по умолчанию) | положительное целое числоДлина БПФ, заданная как положительное целое число. Значение по умолчанию, []
, означает, что длина БПФ равна количеству строк в входном сигнале.
Настраиваемый: Нет
Чтобы включить этот параметр, установите Domain of the input signal равным Time
и выберите параметр Inherit FFT length from input dimensions.
Типы данных: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
Log energy usage
- Укажите, как показана энергия журналаAppend
(по умолчанию) | Replace
| Ignore
Задайте, как энергия журнала показана в выходе вектора коэффициентов, заданном как:
Append
- Блок подготавливает энергию журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs, где NumCoeffs - значение, заданное в параметре Number of coefficients to return.
Replace
- Блок заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
Ignore
-- Блок не вычисляет и не возвращает журнала энергию.
Настраиваемый: Нет
Output delta
- Выходные значения дельтыoff
(по умолчанию) | on
Когда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, delta. Этот порт выводит изменение коэффициентов на последовательные вызовы алгоритма.
Настраиваемый: Нет
Output delta-delta
- Выходные значения дельта-дельтыoff
(по умолчанию) | on
Когда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, deltaDelta. Этот порт выводит изменение значений дельты во время последовательных вызовов алгоритма.
Настраиваемый: Нет
Inherit sample rate from input
- Укажите источник входной частоты выборкиoff
(по умолчанию) | on
Когда вы выбираете этот параметр, блок наследует свою частоту дискретизации от входного сигнала. Когда вы очищаете этот параметр, вы задаете частоту дискретизации в Input sample rate (Hz) параметре.
Настраиваемый: Нет
Input sample rate (Hz)
- Частота дискретизации входов16000
(по умолчанию) | положительная скалярная величинаВходная частота выборки в Гц, заданная как действительная положительная скалярная величина.
Чтобы включить этот параметр, очистите параметр Inherit sample rate from input.
Simulate using
- Задайте тип выполняемой симуляцииCode generation
(по умолчанию) | Interpreted execution
Code generation
- Симулируйте модель с использованием сгенерированного кода C. Первый раз, когда вы запускаете симуляцию, Simulink® генерирует код С для блока. Код С повторно используется для последующих симуляций, пока модель не меняется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution
.
Interpreted execution
-- Моделируйте модель с помощью MATLAB® интерпретатор. Эта опция сокращает время запуска, но имеет более низкую скорость симуляции, чем Code generation
. В этом режиме можно отлаживать исходный код блока.
Настраиваемый: Нет
Gammatone frequency range (Hz)
- Частотная область значений группы гамматоновых фильтров (Гц)[50 8000]
(по умолчанию) | двухэлементный вектор-строкаЧастотная область значений группы гамматоновых фильтров в Гц, заданная как положительная, монотонно увеличивающаяся двухэлементный вектор-строка. Максимальная частотная область значений может быть любым конечным числом. Центральные частоты группы фильтров равномерно разнесены по частотной области значений по шкале ERB.
Настраиваемый: Нет
Чтобы включить этот параметр, установите Filter bank type равным Gammatone
.
Band edges of Mel filter bank (Hz)
- Ленточные ребра mel filter bankКрая полосы ребер группы фильтров в Гц, заданные как неотрицательный монотонно увеличивающийся вектор-строка в области значений [0, ∞). Максимальная частота полосы пропускания может быть любым конечным числом. Количество полос пропускания должно быть в области значений [4, 80].
Диапазонные ребра по умолчанию разнесены линейно для первой десятки, а затем логарифмически после этого. Полосы ребер по умолчанию заданы как рекомендуемые [1].
Настраиваемый: Нет
Чтобы включить этот параметр, установите Filter bank type равным Mel
.
Domain for Mel filter bank design
- Mel filter bank design областиHz
(по умолчанию) | Bin
Область проекта банка Мел-фильтров, заданная как Hz
или Bin
. Банк фильтров разработан как перекрывающиеся треугольники с ребрами полосы, заданными параметром Band edges of filter bank (Hz).
Ребра полосы данных указаны в Гц. Когда вы устанавливаете область проекта на:
Hz
- треугольники банка фильтров рисуются в Гц и отображаются на интервалы.
Для получения дополнительной информации см. раздел [1].
Bin
-- Частоты ребра полосы в Hz
преобразуются в интервалы. Треугольники банка фильтров рисуются симметрично в интервалах.
Для получения дополнительной информации см. раздел [2].
Настраиваемый: Нет
Чтобы включить этот параметр, установите Filter bank type равным Mel
.
Filter bank normalization
- Нормализация банка фильтровBandwidth
(по умолчанию) | Area
| None
Метод нормализации для нормализации весов группы фильтров, заданный как:
Bandwidth
- Веса каждого полосного фильтра нормированы соответствующей полосой пропускания фильтра.
Area
- Веса каждого полосно-пропускающего фильтра нормированы соответствующей площадью полосно-пропускающего фильтра.
None
- Веса фильтра не нормированы.
Настраиваемый: Нет
Типы данных |
|
Прямое сквозное соединение |
|
Многомерные сигналы |
|
Сигналы переменного размера |
|
Обнаружение пересечения нулем |
|
Слуховые коэффициенты cepstrum являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели речи «источник-фильтр» кепстральные коэффициенты понимаются как представляющие фильтр (голосовой тракт). Частотная характеристика голосового тракта относительно гладкая, в то время как источник голосовой речи может быть смоделирован как импульсный train. В результате голосовой тракт может быть оценен спектральной огибающей речевого сегмента.
Мотивирующая идея cepstral коэффициентов состоит в том, чтобы сжать информацию о голосовом тракте (сглаженный спектр) в небольшое количество коэффициентов, основанных на понимании улитки. Несмотря на отсутствие жесткого стандарта для вычисления коэффициентов, основные шаги описаны схемой.
Двумя популярными реализациями банка фильтров являются mel filter bank и gammatone filter bank.
По умолчанию mel filter bank линейно разделяет первые 10 треугольных фильтров и логарифмически разделяет оставшиеся фильтры.
Группа гамматоновых фильтров по умолчанию состоит из гамматоновых фильтров, расположенных линейно по шкале ERB между 50 и 8000 Гц. Банк фильтров разработан gammatoneFilterBank
.
Если вход (x) является сигналом временной области, энергия журнала вычисляется с помощью следующего уравнения:
Если вход (x) является сигналом частотного диапазона, энергия журнала вычисляется с помощью следующего уравнения:
[1] Аудиторный тулбокс. https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf
[2] ETSI ES 201 108 V1.1.3 (2003-09). https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf
cepstralFeatureExtractor
| mfcc
| pitch
| Voice Activity Detector | voiceActivityDetector
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.