Извлеките функции cepstral из аудио сегмента
Audio Toolbox / Измерения
Блок Cepstral Feature Extractor извлекает функции cepstral из аудио сегмента. Функции Cepstral обычно используются, чтобы охарактеризовать музыкальные сигналы и речь.
Port_1
— Аудиовход к cepstral показывает экстракторАудиовход к cepstral показывает экстрактор, заданный как вектор-столбец или матрица. Если задано как матрица, столбцы обработаны как независимые звуковые каналы.
Типы данных: single
| double
coeffs
— Коэффициенты CepstralКоэффициенты Cepstral, возвращенные как вектор-столбец или матрица. Если содействующей матрицей является N-by-M матрица, N определяется значениями, которые вы задаете в параметрах Log energy usage и Number of coefficients to return. M равняется количеству входных звуковых каналов.
Когда параметр Log energy usage устанавливается на:
Append
– Блок предварительно ожидает логарифмическую энергетическую ценность к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs, где NumCoeffs является значением, заданным в параметре Number of coefficients to return.
Replace
– Блок заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
Ignore
– Блок не вычисляет или возвращает логарифмическую энергию.
Этот порт без имени, пока вы не выбираете параметр Output delta, параметр Output delta-delta или обоих.
Типы данных: single
| double
delta
— Изменитесь в коэффициентахИзменитесь в коэффициентах по последовательным вызовам алгоритма, возвращенного как вектор-столбец или матрица. Массив delta одного размера и тип данных как массив coeffs.
Чтобы включить этот порт, выберите параметр Output delta.
Типы данных: single
| double
deltaDelta
— Изменитесь в значениях дельтыИзменитесь в значениях delta по последовательным вызовам алгоритма, возвращенного как вектор-столбец или матрица. Массив deltaDelta одного размера и тип данных с массивами delta и coeffs.
Чтобы включить этот порт, выберите параметр Output delta-delta.
Типы данных: single
| double
Если параметр перечислен как настраиваемый, то можно изменить его значение в процессе моделирования.
Filter bank type
— Тип набора фильтровMel
(значение по умолчанию) | Gammatone
Тип набора фильтров, заданного как любой Mel
или Gammatone
:
Mel
– Блок вычисляет частоту mel cepstral коэффициенты (MFCC).
Gammatone
– Блок вычисляет gammatone cepstral коэффициенты (GTCC).
Настраиваемый: нет
Domain of the input signal
— Область входного сигналаTime
(значение по умолчанию) | Frequency
Область входного сигнала, заданная как любой Time
или Frequency
.
Настраиваемый: нет
Number of coefficients to return
— Количество коэффициентов, чтобы возвратиться
(значение по умолчанию) | положительное целое числоКоличество коэффициентов, чтобы возвратиться, заданный как целое число в области значений [2, v], где v является количеством допустимых полос пропускания. Количество допустимых полос пропускания зависит от типа набора фильтров:
Mel
– Количество допустимых полос пропускания задано как sum(κ <= floor(fs/2))-2
, где κ
количество ребер полосы в mel наборе фильтров и fs
частота дискретизации.
Gammatone
– Количество допустимых полос пропускания задано, как перекрывают (
, где hz2erb
(R (2))-hz2erb
R1 R
частотный диапазон gammatone набора фильтров.
Настраиваемый: нет
Типы данных: single
| double
Inherit FFT length from input dimensions
— Наследуйте длину БПФ от входаon
(значение по умолчанию) | off
Когда вы выбираете этот параметр, длина БПФ равна количеству строк во входном сигнале.
Настраиваемый: нет
Чтобы включить этот параметр, установите Domain of the input signal на Time
.
FFTLength
— Длина БПФ[]
(значение по умолчанию) | положительное целое числоДлина БПФ, заданная как положительное целое число. Значение по умолчанию, []
, средние значения, что длина БПФ равна количеству строк во входном сигнале.
Настраиваемый: нет
Чтобы включить этот параметр, установите Domain of the input signal на Time
и выберите параметр Inherit FFT length from input dimensions.
Типы данных: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
Log energy usage
— Задайте, как логарифмическую энергию показываютAppend
(значение по умолчанию) | Replace
| Ignore
Задайте, как логарифмическую энергию показывают в содействующем векторе выход, заданный как:
Append
– Блок предварительно ожидает логарифмическую энергию к содействующему вектору. Длина содействующего вектора равняется 1 + NumCoeffs, где NumCoeffs является значением, заданным в параметре Number of coefficients to return.
Replace
– Блок заменяет первый коэффициент на логарифмическую энергию сигнала. Длиной содействующего вектора является NumCoeffs.
Ignore
– Блок не вычисляет или возвращает логарифмическую энергию.
Настраиваемый: нет
Output delta
— Выведите значения дельтыoff
(значение по умолчанию) | on
Когда вы выбираете этот параметр, дополнительный выходной порт, delta, добавляется к блоку. Это выходы порта изменение в коэффициентах по последовательным вызовам алгоритма.
Настраиваемый: нет
Output delta-delta
— Выведите значения дельты дельтыoff
(значение по умолчанию) | on
Когда вы выбираете этот параметр, дополнительный выходной порт, deltaDelta, добавляется к блоку. Это выходы порта изменение в значениях дельты по последовательным вызовам алгоритма.
Настраиваемый: нет
Inherit sample rate from input
— Задайте источник входной частоты дискретизацииoff
(значение по умолчанию) | on
Когда вы выбираете этот параметр, блок наследовал свою частоту дискретизации от входного сигнала. Когда вы очищаете этот параметр, вы задаете частоту дискретизации в параметре Input sample rate (Hz).
Настраиваемый: нет
Input sample rate (Hz)
— Частота дискретизации входа
(значение по умолчанию) | положительная скалярная величинаВведите частоту дискретизации в Гц, заданном как действительная положительная скалярная величина.
Настраиваемый: да
Чтобы включить этот параметр, очистите параметр Inherit sample rate from input.
Simulate using
— Задайте тип симуляции, чтобы запуститьсяCode generation
(значение по умолчанию) | Interpreted execution
Code generation
– Симулируйте модель с помощью сгенерированного кода C. В первый раз, когда вы запускаете симуляцию, Simulink® генерирует код С для блока. Код С снова используется для последующих симуляций, пока модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution
.
Interpreted execution
– Симулируйте модель с помощью интерпретатора MATLAB®. Эта опция сокращает время запуска, но имеет более медленную скорость симуляции, чем Code generation
. В этом режиме можно отладить исходный код блока.
Настраиваемый: нет
Gammatone frequency range (Hz)
— Частотный диапазон gammatone набора фильтров (Гц)
(значение по умолчанию) | двухэлементный вектор-строкаЧастотный диапазон gammatone набора фильтров в Гц, заданном как положительное, монотонно увеличивающийся двухэлементный вектор-строка. Максимальный частотный диапазон может быть любым конечным числом. Центральные частоты набора фильтров равномерно распределены через частотный диапазон по шкале ERB.
Настраиваемый: нет
Чтобы включить этот параметр, установите Filter bank type на Gammatone
.
Band edges of Mel filter bank (Hz)
— Ребра полосы mel набора фильтровРебра полосы набора фильтров в Гц, заданном как неотрицательный монотонно увеличивающийся вектор-строка в области значений [0, ∞). Максимум bandedge частота может быть любым конечным числом. Количество bandedges должно быть в области значений [4, 80].
Ребра полосы по умолчанию расположены с интервалами линейно для первых десяти и затем логарифмически после этого. Ребра полосы по умолчанию установлены, как рекомендуется [1].
Настраиваемый: нет
Чтобы включить этот параметр, установите Filter bank type на Mel
.
Domain for Mel filter bank design
— Набор фильтров Мэла проектирует областьHz
(значение по умолчанию) | Bin
Набор фильтров Мэла проектирует область, заданную как любой Hz
или Bin
. filterbank спроектирован как перекрытые треугольники с ребрами полосы, заданными параметром Band edges of filter bank (Hz).
Ребра полосы заданы в Гц. Когда вы устанавливаете область проекта на:
Настраиваемый: нет
Чтобы включить этот параметр, установите Filter bank type на Mel
.
Filter bank normalization
— Нормируйте набор фильтровBandwidth
(значение по умолчанию) | Area
| None
Метод нормализации раньше нормировал веса набора фильтров, заданного как:
Bandwidth
– Веса каждого полосового фильтра нормированы соответствующей пропускной способностью фильтра.
Area
– Веса каждого полосового фильтра нормированы соответствующей областью полосового фильтра.
None
– Веса фильтра не нормированы.
Настраиваемый: нет
Типы данных |
|
Прямое сквозное соединение |
|
Многомерные сигналы |
|
Сигналы переменного размера |
|
Обнаружение пересечения нулем |
|
Слуховые коэффициенты кепстра являются популярными функциями, извлеченными из речевых сигналов для использования в задачах распознавания. В модели фильтра источника речи, cepstral коэффициенты, как изучают, представляют фильтр (речевой тракт). Частотная характеристика речевого тракта относительно является гладкой, тогда как источник речевой речи может быть смоделирован, когда импульс обучается. В результате речевой тракт может быть оценен спектральным конвертом речевого сегмента.
Идея мотивации cepstral коэффициентов состоит в том, чтобы сжать информацию о речевом тракте (сглаживавший спектр) в небольшое количество коэффициентов на основе понимания улитки уха. Несмотря на то, что нет никакого твердого стандарта для вычисления коэффициентов, основные шаги обрисованы в общих чертах схемой.
Две популярных реализации набора фильтров являются mel набором фильтров и gammatone набором фильтров.
Значение по умолчанию mel набор фильтров линейно располагает первые 10 треугольных фильтров с интервалами и логарифмически располагает остающиеся фильтры с интервалами.
Значение по умолчанию gammatone набор фильтров состоит из фильтров gammatone, расположенных с интервалами линейно по шкале ERB между 50 и 8 000 Гц. Набор фильтров спроектирован gammatoneFilterBank
.
Если вход (x) является сигналом временной области, логарифмическая энергия вычисляется с помощью следующего уравнения:
Если вход (x) является сигналом частотного диапазона, логарифмическая энергия вычисляется с помощью следующего уравнения:
[1] Слуховой Тулбокс. https://engineering.purdue.edu / ~ malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf
[2] ETSI ES 201 108 V1.1.3 (2003-09). https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf
Voice Activity Detector | cepstralFeatureExtractor
| mfcc
| pitch
| voiceActivityDetector
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.