exponenta event banner

Детектор речевой активности

Обнаружение наличия речи в звуковом сигнале

  • Библиотека:
  • Панель звуковых инструментов/измерения

  • Voice Activity Detector block

Описание

Блок детектора речевой активности обнаруживает наличие речи в звуковом сигнале. Можно также использовать блок детектора речевой активности для вывода оценки дисперсии шума на частотный блок.

Порты

Вход

развернуть все

  • Матричный вход - каждый столбец входа рассматривается как независимый канал.

  • 1-D vector input - Вход обрабатывается как один канал.

Этот порт не называется, если не указаны дополнительные входные порты.

Типы данных: single | double

Зависимости

Чтобы включить этот порт, выберите параметр Specify silence-to-speech probety from input port для параметра Вероятностный переход из кадра молчания в речевой кадр.

Типы данных: single | double

Зависимости

Чтобы включить этот порт, выберите параметр Specify speech-to-silence probity from input port для параметра Вероятностный переход из речевого кадра в кадр молчания.

Типы данных: single | double

Продукция

развернуть все

Блок выводит скалярный вектор или вектор строки с тем же количеством столбцов, что и входной сигнал.

Этот порт не называется до тех пор, пока не будет выбран параметр Output noise variance.

Типы данных: single | double

Блок выводит вектор столбца или матрицу с тем же количеством столбцов, что и входной сигнал.

Зависимости

Для активизации этого порта выберите параметр Output noise variance.

Типы данных: single | double

Параметры

развернуть все

Если параметр указан как настраиваемый, его значение можно изменить во время моделирования.

Оконная функция разработана с использованием алгоритмов следующих функций:

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time.

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time и окно для Chebyshev или Kaiser.

Типы данных: single | double

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time.

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time и снимите флажок Наследовать длину БПФ из параметра входных размеров.

Типы данных: single | double

Чтобы задать вероятность перехода из кадра молчания в речевой кадр из входного порта, выберите параметр Specify silence-to-speech progulence from input port.

Настраиваемый: Да

Типы данных: single | double

Чтобы задать вероятность перехода из речевого кадра в кадр молчания из входного порта, выберите параметр Specify speech-to-silence probity from input port.

Настраиваемый: Да

Типы данных: single | double

При выборе этого параметра к блоку добавляется дополнительный выходной порт N.

  • Code generation - моделирование модели с использованием сгенерированного кода C. При первом запуске моделирования Simulink ® генерирует код C для блока. Код C используется повторно для последующего моделирования, если модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующего моделирования сравнима сInterpreted execution.

  • Interpreted execution - Моделирование модели с помощью интерпретатора MATLAB ®. Этот параметр сокращает время запуска, но имеет более низкую скорость моделирования, чемCode generation. В этом режиме можно отладить исходный код блока.

Настраиваемый: Нет

Характеристики блока

Типы данных

double | single

Прямой проход

no

Многомерные сигналы

no

Сигналы переменного размера

no

Обнаружение пересечения нулей

no

Алгоритмы

Детектор речевой активности реализует алгоритм, описанный в [1].

Если домен входа указан как Timeвходной сигнал преобразуется в частотную область в соответствии с окном, затуханием окна (дБ) и параметрами длины БПФ. Если домен входа указан как Frequencyпредполагается, что вход является оконным дискретным временным преобразованием Фурье (DTFT) звукового сигнала. Затем сигнал преобразуется в область питания. Дисперсия шума оценивается согласно [2]. Задняя и предыдущая SNR оцениваются по формуле минимальной среднеквадратической ошибки (MMSE), описанной в [3]. В соответствии с [1] используется логарифмический тест отношения правдоподобия с использованием схемы зависания на основе скрытой модели Маркова (HMM).

Ссылки

[1] Сон, Джонгсео, Нам Су Ким и Вонён Сен. «Обнаружение голосовой активности на основе статистической модели». Обработка сигналов письма IEEE. Том 6, № 1, 1999.

[2] Мартин, Р. «Оценка спектральной плотности мощности шума на основе оптимального сглаживания и минимальной статистики». Транзакции IEEE по обработке речи и звука. Том 9, № 5, 2001, стр. 504-512.

[3] Ефрем, Я. и Д. Мала. «Улучшение речи с использованием устройства оценки минимальной среднеквадратической ошибки с короткими временными спектральными амплитудами». Транзакции IEEE для обработки акустики, речи и сигналов. т. 32, № 6, 1984, с. 1109-1121.

Расширенные возможности

Создание кода C/C + +
Создайте код C и C++ с помощью Simulink ® Coder™

.

См. также

Представлен в R2018a