Извлеките функции cepstral из аудио сегмента
Audio Toolbox / Измерения
Блок Cepstral Feature Extractor извлекает функции cepstral из аудио сегмента. Функции Cepstral обычно используются, чтобы охарактеризовать музыкальные сигналы и речь.
Port_1 — Аудиовход к cepstral показывает экстракторАудиовход к cepstral показывает экстрактор в виде вектор-столбца или матрицы. Если задано как матрица, столбцы обработаны как независимые звуковые каналы.
Типы данных: single | double
coeffs — Коэффициенты CepstralКоэффициенты Cepstral, возвращенные как вектор-столбец или матрица. Если содействующей матрицей является N-by-M матрица, N определяется значениями, которые вы задаете в параметрах Log energy usage и Number of coefficients to return. M равняется количеству входных звуковых каналов.
Когда параметр Log energy usage устанавливается на:
Append – Блок предварительно ожидает логарифмическую энергетическую ценность к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs, где NumCoeffs является значением, заданным в параметре Number of coefficients to return.
Replace – Блок заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
Ignore – Блок не вычисляет или возвращает логарифмическую энергию.
Этот порт без имени, пока вы не выбираете параметр Output delta, параметр Output delta-delta или обоих.
Типы данных: single | double
delta — Изменитесь в коэффициентахИзменитесь в коэффициентах по последовательным вызовам алгоритма, возвращенного как вектор-столбец или матрица. Массив delta одного размера и тип данных как массив coeffs.
Чтобы включить этот порт, выберите параметр Output delta.
Типы данных: single | double
deltaDelta — Изменитесь в значениях дельтыИзменитесь в значениях delta по последовательным вызовам алгоритма, возвращенного как вектор-столбец или матрица. Массив deltaDelta одного размера и тип данных с массивами delta и coeffs.
Чтобы включить этот порт, выберите параметр Output delta-delta.
Типы данных: single | double
Если параметр перечислен как настраиваемый, то можно изменить его значение в процессе моделирования.
Filter bank type — Тип набора фильтровMel (значение по умолчанию) | GammatoneТип набора фильтров в виде любого Mel или Gammatone:
Mel – Блок вычисляет частоту mel cepstral коэффициенты (MFCC).
Gammatone – Блок вычисляет gammatone cepstral коэффициенты (GTCC).
Настраиваемый: нет
Domain of the input signal — Область входного сигналаTime (значение по умолчанию) | FrequencyОбласть входного сигнала в виде любого Time или Frequency.
Настраиваемый: нет
Number of coefficients to return — Количество коэффициентов, чтобы возвратиться (значение по умолчанию) | положительное целое числоКоличество коэффициентов, чтобы возвратиться в виде целого числа в области значений [2, v], где v является количеством допустимых полос пропускания. Количество допустимых полос пропускания зависит от типа набора фильтров:
Mel – Количество допустимых полос пропускания задано как sum(κ <= floor(fs/2))-2, где κ количество ребер полосы в mel наборе фильтров и fs частота дискретизации.
Gammatone – Количество допустимых полос пропускания задано, как перекрывают (, где hz2erbr2 -hz2erbR1 R частотный диапазон gammatone набора фильтров.
Настраиваемый: нет
Типы данных: single | double
Nonlinear rectification — Тип нелинейного исправленияLog (значение по умолчанию) | Cubic-RootТип нелинейного исправления применяется до дискретного косинусного преобразования.
Настраиваемый: нет
Inherit FFT length from input dimensions — Наследуйте длину БПФ от входаon (значение по умолчанию) | offКогда вы выбираете этот параметр, длина БПФ равна количеству строк во входном сигнале.
Настраиваемый: нет
Чтобы включить этот параметр, установите Domain of the input signal на Time.
FFTLength — Длина БПФ[] (значение по умолчанию) | положительное целое числоДлина БПФ в виде положительного целого числа. Значение по умолчанию, [], средние значения, что длина БПФ равна количеству строк во входном сигнале.
Настраиваемый: нет
Чтобы включить этот параметр, установите Domain of the input signal на Time и выберите параметр Inherit FFT length from input dimensions.
Типы данных: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64
Log energy usage — Задайте, как логарифмическую энергию показываютAppend (значение по умолчанию) | Replace | IgnoreЗадайте, как логарифмическую энергию показывают в содействующем векторе выход в виде:
Append – Блок предварительно ожидает логарифмическую энергию к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs, где NumCoeffs является значением, заданным в параметре Number of coefficients to return.
Replace – Блок заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
Ignore – Блок не вычисляет или возвращает логарифмическую энергию.
Настраиваемый: нет
Output delta — Выведите значения дельтыoff (значение по умолчанию) | onКогда вы выбираете этот параметр, дополнительный выходной порт, delta, добавляется к блоку. Это выходы порта изменение в коэффициентах по последовательным вызовам алгоритма.
Настраиваемый: нет
Output delta-delta — Выведите значения дельты дельтыoff (значение по умолчанию) | onКогда вы выбираете этот параметр, дополнительный выходной порт, deltaDelta, добавляется к блоку. Это выходы порта изменение в значениях дельты по последовательным вызовам алгоритма.
Настраиваемый: нет
Inherit sample rate from input — Задайте источник входной частоты дискретизацииoff (значение по умолчанию) | onКогда вы выбираете этот параметр, блок наследовал свою частоту дискретизации от входного сигнала. Когда вы очищаете этот параметр, вы задаете частоту дискретизации в параметре Input sample rate (Hz).
Настраиваемый: нет
Input sample rate (Hz) — Частота дискретизации входа (значение по умолчанию) | положительная скалярная величинаВведите частоту дискретизации в Гц в виде действительной положительной скалярной величины.
Чтобы включить этот параметр, очистите параметр Inherit sample rate from input.
Simulate using — Задайте тип симуляции, чтобы запуститьсяCode generation (значение по умолчанию) | Interpreted executionCode generation – Симулируйте модель с помощью сгенерированного кода C. В первый раз, когда вы запускаете симуляцию, Simulink® генерирует код С для блока. Код С снова используется для последующих симуляций, пока модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.
Interpreted execution – Симулируйте модель с помощью интерпретатора MATLAB®. Эта опция сокращает время запуска, но имеет более медленную скорость симуляции, чем Code generation. В этом режиме можно отладить исходный код блока.
Настраиваемый: нет
Gammatone frequency range (Hz) — Частотный диапазон gammatone набора фильтров (Гц) (значение по умолчанию) | двухэлементный вектор-строкаЧастотный диапазон gammatone набора фильтров в Гц в виде положительного, монотонно увеличивающегося двухэлементного вектора-строки. Максимальный частотный диапазон может быть любым конечным числом. Центральные частоты набора фильтров равномерно распределены через частотный диапазон по шкале ERB.
Настраиваемый: нет
Чтобы включить этот параметр, установите Filter bank type на Gammatone.
Band edges of Mel filter bank (Hz) — Ребра полосы mel набора фильтровРебра полосы набора фильтров в Гц в виде неотрицательного монотонно увеличивающегося вектора-строки в области значений [0, ∞). Максимум bandedge частота может быть любым конечным числом. Количество bandedges должно быть в области значений [4, 80].
Ребра полосы по умолчанию расположены с интервалами линейно для первых десяти и затем логарифмически после этого. Ребра полосы по умолчанию установлены, как рекомендуется [1].
Настраиваемый: нет
Чтобы включить этот параметр, установите Filter bank type на Mel.
Domain for Mel filter bank design — Набор фильтров Мэла проектирует областьHz (значение по умолчанию) | BinНабор фильтров Мэла проектирует область в виде любого Hz или Bin. filterbank спроектирован как перекрытые треугольники с ребрами полосы, заданными параметром Band edges of filter bank (Hz).
Ребра полосы заданы в Гц. Когда вы устанавливаете область проекта на:
Настраиваемый: нет
Чтобы включить этот параметр, установите Filter bank type на Mel.
Filter bank normalization — Нормируйте набор фильтровBandwidth (значение по умолчанию) | Area | NoneМетод нормализации раньше нормировал веса набора фильтров в виде:
Bandwidth – Веса каждого полосового фильтра нормированы на соответствующую пропускную способность фильтра.
Area – Веса каждого полосового фильтра нормированы на соответствующую область полосового фильтра.
None – Веса фильтра не нормированы.
Настраиваемый: нет
Типы данных |
|
Прямое сквозное соединение |
|
Многомерные сигналы |
|
Сигналы переменного размера |
|
Обнаружение пересечения нулем |
|
Слуховые коэффициенты кепстра являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели фильтра источника речи, cepstral коэффициенты, как изучают, представляют фильтр (речевой тракт). Частотная характеристика речевого тракта относительно является гладкой, тогда как источник речевой речи может быть смоделирован, когда импульс обучается. В результате речевой тракт может быть оценен спектральным конвертом речевого сегмента.
Идея мотивации cepstral коэффициентов состоит в том, чтобы сжать информацию о речевом тракте (сглаживавший спектр) в небольшое количество коэффициентов на основе понимания улитки уха. Несмотря на то, что нет никакого твердого стандарта для вычисления коэффициентов, основные шаги обрисованы в общих чертах схемой.

Две популярных реализации набора фильтров являются mel набором фильтров и gammatone набором фильтров.
Значение по умолчанию mel набор фильтров линейно располагает первые 10 треугольных фильтров с интервалами и логарифмически располагает остающиеся фильтры с интервалами.

Значение по умолчанию gammatone набор фильтров состоит из фильтров gammatone, расположенных с интервалами линейно по шкале ERB между 50 и 8 000 Гц. Набор фильтров спроектирован gammatoneFilterBank.

Если вход (x) является сигналом временной области, логарифмическая энергия вычисляется с помощью следующего уравнения:
Если вход (x) является сигналом частотного диапазона, логарифмическая энергия вычисляется с помощью следующего уравнения:
[1] Слуховой Тулбокс. https://engineering.purdue.edu / ~ malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf
[2] ETSI ES 201 108 V1.1.3 (2003-09). https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf
cepstralFeatureExtractor | mfcc | pitch | Voice Activity Detector | voiceActivityDetector
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.
