Извлечение кепстральных функций из аудиосегмента
Панель звуковых инструментов/измерения
Блок извлечения кепстральных элементов извлекает кепстральные элементы из аудиосегмента. Кепстральные особенности обычно используются для характеристики речевых и музыкальных сигналов.
Port_1 - Вход звука в экстрактор кепстральных функцийЗвуковой вход в экстрактор кепстральных элементов, заданный как вектор столбца или матрица. Если указано как матрица, столбцы обрабатываются как независимые аудиоканалы.
Типы данных: single | double
coeffs - Цепстральные коэффициентыКэпстральные коэффициенты, возвращаемые в виде вектора-столбца или матрицы. Если матрица коэффициентов является матрицей N-by-M, N определяется значениями, заданными в полях Число возвращаемых коэффициентов (Number of coefficients to return) и Логарифм (Log energy usage). M равно количеству входных аудиоканалов.
Если для параметра Log energy usage установлено значение:
Append - Блок добавляет логарифмическое значение энергии к вектору коэффициентов. Длина вектора коэффициентов равна 1 + NumCoeffs, где NumCoeffs - значение, указанное в параметре Количество коэффициентов для возврата.
Replace - Блок заменяет первый коэффициент логарифмической энергией сигнала. Длина вектора коэффициентов равна NumCoeffs.
Ignore - Блок не вычисляет и не возвращает логарифмическую энергию.
Этот порт не называется до тех пор, пока не будет выбран параметр Output delta, параметр Output delta-delta или оба параметра.
Типы данных: single | double
delta - Изменение коэффициентовИзменение коэффициентов при последовательных вызовах алгоритма, возвращаемых в виде вектора столбца или матрицы. Дельта-массив имеет тот же размер и тот же тип данных, что и массив коэффициентов.
Для активизации этого порта выберите параметр Output delta.
Типы данных: single | double
deltaDelta - Изменение значений дельтыИзменение значений дельты при последовательных вызовах алгоритма, возвращаемых в виде вектора столбца или матрицы. Массив DeltaDelta имеет тот же размер и тот же тип данных, что и массивы coeffs и delta.
Для активизации этого порта выберите параметр Output delta-delta.
Типы данных: single | double
Если параметр указан как настраиваемый, его значение можно изменить во время моделирования.
Filter bank type - Тип банка фильтровMel (по умолчанию) | GammatoneТип банка фильтров, указанный как Mel или Gammatone:
Mel - Блок вычисляет частотные кепстральные коэффициенты (MFCC).
Gammatone - Блок вычисляет кэпстральные коэффициенты гамматона (GTCC).
Настраиваемый: Нет
Domain of the input signal - Область входного сигналаTime (по умолчанию) | FrequencyОбласть входного сигнала, указанная как Time или Frequency.
Настраиваемый: Нет
Number of coefficients to return - Количество возвращаемых коэффициентов13 (по умолчанию) | положительное целое числоЧисло возвращаемых коэффициентов, указанное как целое число в диапазоне [2, v], где v - количество допустимых полос пропускания. Количество допустимых полос пропускания зависит от типа банка фильтров:
Mel - Количество допустимых паролей определяется как sum(κ <= floor(fs/2))-2, где κ - количество ребер полосы в наборе фильтров mel и fs - частота выборки.
Gammatone - Количество допустимых паролей определяется как ceil(, где hz2erb(R(2))-hz2erb(R(1)))R - диапазон частот набора гамматоновых фильтров.
Настраиваемый: Нет
Типы данных: single | double
Nonlinear rectification - Тип нелинейного выпрямленияLog (по умолчанию) | Cubic-RootТип нелинейного исправления, применяемого до дискретного косинусного преобразования.
Настраиваемый: Нет
Inherit FFT length from input dimensions - Наследование длины БПФ от входных данныхon (по умолчанию) | offПри выборе этого параметра длина БПФ равна количеству строк во входном сигнале.
Настраиваемый: Нет
Чтобы включить этот параметр, установите для параметра Domain входного сигнала значение Time.
FFTLength - длина БПФ[] (по умолчанию) | положительное целое числоДлина БПФ, заданная как положительное целое число. Значение по умолчанию, [], означает, что длина БПФ равна количеству строк во входном сигнале.
Настраиваемый: Нет
Чтобы включить этот параметр, установите для параметра Domain входного сигнала значение Time и выберите параметр Наследовать длину БПФ из входных размеров.
Типы данных: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64
Log energy usage - Укажите способ отображения энергии журналаAppend (по умолчанию) | Replace | IgnoreУкажите, как логарифмическая энергия отображается на выходе вектора коэффициентов, указанного как:
Append - Блок добавляет логарифмическую энергию к вектору коэффициентов. Длина вектора коэффициентов равна 1 + NumCoeffs, где NumCoeffs - значение, указанное в параметре Количество коэффициентов для возврата.
Replace - Блок заменяет первый коэффициент логарифмической энергией сигнала. Длина вектора коэффициентов равна NumCoeffs.
Ignore - Блок не вычисляет и не возвращает логарифмическую энергию.
Настраиваемый: Нет
Output delta - Значения дельты выводаoff (по умолчанию) | onПри выборе этого параметра к блоку добавляется дополнительный выходной порт дельта. Этот порт выводит изменение коэффициентов при последовательных вызовах алгоритма.
Настраиваемый: Нет
Output delta-delta - Выходные дельта-дельта значенияoff (по умолчанию) | onПри выборе этого параметра к блоку добавляется дополнительный выходной порт deltaDelta. Этот порт выводит изменение дельта-значений при последовательных вызовах алгоритма.
Настраиваемый: Нет
Inherit sample rate from input - Указать источник входной частоты дискретизацииoff (по умолчанию) | onПри выборе этого параметра блок наследует частоту дискретизации от входного сигнала. При сбросе этого параметра задается частота дискретизации в параметре Частота дискретизации на входе (Гц).
Настраиваемый: Нет
Input sample rate (Hz) - Частота выборки входных данных16000 (по умолчанию) | положительный скалярЧастота входных выборок в Гц, заданная как действительный положительный скаляр.
Чтобы включить этот параметр, очистите параметр Inherit sample rate от входного параметра.
Simulate using - Укажите тип выполняемого моделированияCode generation (по умолчанию) | Interpreted executionCode generation - Моделирование модели с использованием сгенерированного кода C. При первом запуске моделирования Simulink ® генерирует код C для блока. Код C используется повторно для последующего моделирования, если модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующего моделирования сравнима сInterpreted execution.
Interpreted execution - Моделирование модели с помощью интерпретатора MATLAB ®. Эта опция сокращает время запуска, но имеет более низкую скорость моделирования, чемCode generation. В этом режиме можно отладить исходный код блока.
Настраиваемый: Нет
Gammatone frequency range (Hz) - Частотный диапазон набора гамматоновых фильтров (Гц)[50 8000] (по умолчанию) | двухэлементный вектор строкиЧастотный диапазон набора гамматоновых фильтров в Гц, определяемый как положительный, монотонно увеличивающийся двухэлементный вектор строки. Максимальный диапазон частот может быть любым конечным числом. Центральные частоты блока фильтров равномерно разнесены по частотному диапазону по шкале ERB.
Настраиваемый: Нет
Чтобы включить этот параметр, установите для параметра Тип банка фильтра значение Gammatone.
Band edges of Mel filter bank (Hz) - Бандажные кромки банка фильтровГраницы полос набора фильтров в Гц, определяемые как неотрицательный монотонно увеличивающийся вектор строки в диапазоне [0, ∞). Максимальная частота полосы пропускания может быть любым конечным числом. Число полос пропускания должно находиться в диапазоне [4, 80].
Границы полос по умолчанию линейно разнесены для первых десяти, а затем логарифмически. Границы области данных по умолчанию устанавливаются в соответствии с рекомендациями [1].
Настраиваемый: Нет
Чтобы включить этот параметр, установите для параметра Тип банка фильтра значение Mel.
Domain for Mel filter bank design - Домен проектирования банка фильтров MelHz (по умолчанию) | BinДомен проектирования банка фильтров Mel, указанный как Hz или Bin. Блок фильтров выполнен в виде перекрывающихся треугольников с границами полос, заданными параметром Band edges блока фильтров (Гц).
Границы полос указаны в Гц. Если для области конструирования задано значение:
Настраиваемый: Нет
Чтобы включить этот параметр, установите для параметра Тип банка фильтра значение Mel.
Filter bank normalization - Нормализовать банк фильтровBandwidth (по умолчанию) | Area | NoneМетод нормализации, используемый для нормализации весов набора фильтров, указанный как:
Bandwidth - Веса каждого полосового фильтра нормализуются соответствующей полосой пропускания фильтра.
Area - Веса каждого полосового фильтра нормируются соответствующей областью полосового фильтра.
None - Веса фильтра не нормализованы.
Настраиваемый: Нет
Типы данных |
|
Прямой проход |
|
Многомерные сигналы |
|
Сигналы переменного размера |
|
Обнаружение пересечения нулей |
|
Коэффициенты слухового кепстра являются популярными признаками, извлеченными из речевых сигналов для использования в задачах распознавания. В модели «источник-фильтр» речи кепстральные коэффициенты понимаются как представляющие фильтр (речевой тракт). Частотная характеристика голосового тракта является относительно гладкой, тогда как источник озвученной речи может быть смоделирован как импульсный поезд. В результате речевой тракт может быть оценен по спектральной огибающей речевого сегмента.
Мотивирующая идея кепстральных коэффициентов заключается в сжатии информации о голосовом тракте (сглаженном спектре) в небольшое количество коэффициентов, основанных на понимании улитки. Хотя нет жёсткого стандарта для вычисления коэффициентов, основные шаги очерчены диаграммой.

Двумя популярными реализациями банка фильтров являются банк фильтров mel и банк фильтров gammatone.
Набор фильтров по умолчанию линейно размещает первые 10 треугольных фильтров, а остальные - логарифмически.

Набор гамматоновых фильтров по умолчанию состоит из гамматоновых фильтров, расположенных линейно по шкале ERB между 50 и 8000 Гц. Банк фильтров разработан gammatoneFilterBank.

Если вход (x) является сигналом временной области, логарифмическая энергия вычисляется с использованием следующего уравнения:
x2))
Если вход (x) является сигналом частотной области, логарифмическая энергия вычисляется с использованием следующего уравнения:
FFTLength)
[1] Панель слуховых инструментов. https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf
[2] ETSI ES 201 108 V1.1.3 (2003-09). https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf
cepstralFeatureExtractor | mfcc | pitch | Детектор речевой активности | voiceActivityDetector
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.
