Извлечение функций cepstral из сегмента audio
Audio измерения
Блок Cepstral Feature Extractor извлекает функции cepstral из аудиосегмента. Функции Cepstral обычно используются для характеристики речевых и музыкальных сигналов.
Port_1 - Аудио вход в cepstral извлечения функцийАудио вход в cepstral функции extractor, заданный как вектор-столбец или матрица. Если задано в виде матрицы, столбцы обрабатываются как независимые аудиоканалы.
Типы данных: single | double
coeffs - Коэффициенты CepstralКоэффициенты Cepstral, возвращенные как вектор-столбец или матрица. Если матрица коэффициентов является матрицей N -by - M, N определяется значениями, которые вы задаете в параметрах Number of coefficients to return и Log energy usage. M равняется количеству входа аудиоканалов.
Когда параметр Log energy usage установлен в:
Append - Блок подготавливает значение энергии журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs, где NumCoeffs - значение, заданное в параметре Number of coefficients to return.
Replace - Блок заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
Ignore -- Блок не вычисляет и не возвращает журнала энергию.
Этот порт не называется, пока вы не выберете Output delta параметр, параметр Output delta-delta или оба.
Типы данных: single | double
delta - Изменение коэффициентовИзменение коэффициентов во время последовательных вызовов алгоритма, возвращаемое как вектор-столбец или матрица. Массив delta имеет тот же размер и тип данных, что и массив coeffs.
Чтобы включить этот порт, выберите параметр Output delta.
Типы данных: single | double
deltaDelta - Изменение значений дельтыИзменение значений delta во время последовательных вызовов алгоритма, возвращаемое как вектор-столбец или матрица. Массив deltaDelta имеет тот же размер и тип данных, что и coeffs и delta массивы.
Чтобы включить этот порт, выберите параметр Output delta-delta.
Типы данных: single | double
Если параметр указан как настраиваемый, то можно изменить его значение во время симуляции.
Filter bank type - Тип банка фильтровMel (по умолчанию) | GammatoneТип группы фильтров, заданный как Mel или Gammatone:
Mel - Блок вычисляет коэффициенты mel frequency cepstral (MFCC).
Gammatone - Блок вычисляет коэффициенты gammatone cepstral (GTCC).
Настраиваемый: Нет
Domain of the input signal - Область входного сигналаTime (по умолчанию) | FrequencyОбласть входного сигнала, заданная как Time или Frequency.
Настраиваемый: Нет
Number of coefficients to return - Количество возвращаемых коэффициентов13 (по умолчанию) | положительное целое числоКоличество возвращаемых коэффициентов, заданное в виде целого числа в области значений [2, v], где v количество допустимых полос пропускания. Количество допустимых полос пропускания зависит от типа банка фильтров:
Mel - Количество допустимых полос пропускания определяется как sum(κ <= floor(fs/2))-2, где κ количество ребер полосы пропускания в mel filter bank и fs - частота дискретизации.
Gammatone - Количество допустимых полос пропускания определяется как ceil (, где hz2erb(R (2)) -hz2erb(R (1)))R - частотная область значений группы гамматоновых фильтров.
Настраиваемый: Нет
Типы данных: single | double
Nonlinear rectification - Тип нелинейного выпрямленияLog (по умолчанию) | Cubic-RootТип нелинейного выпрямления, применяемого до дискретного косинусного преобразования.
Настраиваемый: Нет
Inherit FFT length from input dimensions - Наследовать длину БПФ от входаon (по умолчанию) | offКогда вы выбираете этот параметр, длина БПФ равна количеству строк в входном сигнале.
Настраиваемый: Нет
Чтобы включить этот параметр, установите Domain of the input signal равным Time.
FFTLength - длина БПФ[] (по умолчанию) | положительное целое числоДлина БПФ, заданная как положительное целое число. Значение по умолчанию, [], означает, что длина БПФ равна количеству строк в входном сигнале.
Настраиваемый: Нет
Чтобы включить этот параметр, установите Domain of the input signal равным Time и выберите параметр Inherit FFT length from input dimensions.
Типы данных: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64
Log energy usage - Укажите, как показана энергия журналаAppend (по умолчанию) | Replace | IgnoreЗадайте, как энергия журнала показана в выходе вектора коэффициентов, заданном как:
Append - Блок подготавливает энергию журнала к вектору коэффициентов. Длина вектора коэффициентов 1 + NumCoeffs, где NumCoeffs - значение, заданное в параметре Number of coefficients to return.
Replace - Блок заменяет первый коэффициент на журнал энергию сигнала. Длина вектора коэффициентов NumCoeffs.
Ignore -- Блок не вычисляет и не возвращает журнала энергию.
Настраиваемый: Нет
Output delta - Выходные значения дельтыoff (по умолчанию) | onКогда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, delta. Этот порт выводит изменение коэффициентов на последовательные вызовы алгоритма.
Настраиваемый: Нет
Output delta-delta - Выходные значения дельта-дельтыoff (по умолчанию) | onКогда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, deltaDelta. Этот порт выводит изменение значений дельты во время последовательных вызовов алгоритма.
Настраиваемый: Нет
Inherit sample rate from input - Укажите источник входной частоты выборкиoff (по умолчанию) | onКогда вы выбираете этот параметр, блок наследует свою частоту дискретизации от входного сигнала. Когда вы очищаете этот параметр, вы задаете частоту дискретизации в Input sample rate (Hz) параметре.
Настраиваемый: Нет
Input sample rate (Hz) - Частота дискретизации входов16000 (по умолчанию) | положительная скалярная величинаВходная частота выборки в Гц, заданная как действительная положительная скалярная величина.
Чтобы включить этот параметр, очистите параметр Inherit sample rate from input.
Simulate using - Задайте тип выполняемой симуляцииCode generation (по умолчанию) | Interpreted executionCode generation - Симулируйте модель с использованием сгенерированного кода C. Первый раз, когда вы запускаете симуляцию, Simulink® генерирует код С для блока. Код С повторно используется для последующих симуляций, пока модель не меняется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.
Interpreted execution -- Моделируйте модель с помощью MATLAB® интерпретатор. Эта опция сокращает время запуска, но имеет более низкую скорость симуляции, чем Code generation. В этом режиме можно отлаживать исходный код блока.
Настраиваемый: Нет
Gammatone frequency range (Hz) - Частотная область значений группы гамматоновых фильтров (Гц)[50 8000] (по умолчанию) | двухэлементный вектор-строкаЧастотная область значений группы гамматоновых фильтров в Гц, заданная как положительная, монотонно увеличивающаяся двухэлементный вектор-строка. Максимальная частотная область значений может быть любым конечным числом. Центральные частоты группы фильтров равномерно разнесены по частотной области значений по шкале ERB.
Настраиваемый: Нет
Чтобы включить этот параметр, установите Filter bank type равным Gammatone.
Band edges of Mel filter bank (Hz) - Ленточные ребра mel filter bankКрая полосы ребер группы фильтров в Гц, заданные как неотрицательный монотонно увеличивающийся вектор-строка в области значений [0, ∞). Максимальная частота полосы пропускания может быть любым конечным числом. Количество полос пропускания должно быть в области значений [4, 80].
Диапазонные ребра по умолчанию разнесены линейно для первой десятки, а затем логарифмически после этого. Полосы ребер по умолчанию заданы как рекомендуемые [1].
Настраиваемый: Нет
Чтобы включить этот параметр, установите Filter bank type равным Mel.
Domain for Mel filter bank design - Mel filter bank design областиHz (по умолчанию) | BinОбласть проекта банка Мел-фильтров, заданная как Hz или Bin. Банк фильтров разработан как перекрывающиеся треугольники с ребрами полосы, заданными параметром Band edges of filter bank (Hz).
Ребра полосы данных указаны в Гц. Когда вы устанавливаете область проекта на:
Hz - треугольники банка фильтров рисуются в Гц и отображаются на интервалы.

Для получения дополнительной информации см. раздел [1].
Bin -- Частоты ребра полосы в Hz преобразуются в интервалы. Треугольники банка фильтров рисуются симметрично в интервалах.

Для получения дополнительной информации см. раздел [2].
Настраиваемый: Нет
Чтобы включить этот параметр, установите Filter bank type равным Mel.
Filter bank normalization - Нормализация банка фильтровBandwidth (по умолчанию) | Area | NoneМетод нормализации для нормализации весов группы фильтров, заданный как:
Bandwidth - Веса каждого полосного фильтра нормированы соответствующей полосой пропускания фильтра.
Area - Веса каждого полосно-пропускающего фильтра нормированы соответствующей площадью полосно-пропускающего фильтра.
None - Веса фильтра не нормированы.
Настраиваемый: Нет
Типы данных |
|
Прямое сквозное соединение |
|
Многомерные сигналы |
|
Сигналы переменного размера |
|
Обнаружение пересечения нулем |
|
Слуховые коэффициенты cepstrum являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели речи «источник-фильтр» кепстральные коэффициенты понимаются как представляющие фильтр (голосовой тракт). Частотная характеристика голосового тракта относительно гладкая, в то время как источник голосовой речи может быть смоделирован как импульсный train. В результате голосовой тракт может быть оценен спектральной огибающей речевого сегмента.
Мотивирующая идея cepstral коэффициентов состоит в том, чтобы сжать информацию о голосовом тракте (сглаженный спектр) в небольшое количество коэффициентов, основанных на понимании улитки. Несмотря на отсутствие жесткого стандарта для вычисления коэффициентов, основные шаги описаны схемой.

Двумя популярными реализациями банка фильтров являются mel filter bank и gammatone filter bank.
По умолчанию mel filter bank линейно разделяет первые 10 треугольных фильтров и логарифмически разделяет оставшиеся фильтры.

Группа гамматоновых фильтров по умолчанию состоит из гамматоновых фильтров, расположенных линейно по шкале ERB между 50 и 8000 Гц. Банк фильтров разработан gammatoneFilterBank.

Если вход (x) является сигналом временной области, энергия журнала вычисляется с помощью следующего уравнения:
Если вход (x) является сигналом частотного диапазона, энергия журнала вычисляется с помощью следующего уравнения:
[1] Аудиторный тулбокс. https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf
[2] ETSI ES 201 108 V1.1.3 (2003-09). https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf
cepstralFeatureExtractor | mfcc | pitch | Voice Activity Detector | voiceActivityDetector
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.
