Voice Activity Detector

Обнаружение наличия речи в аудиосигнале

  • Библиотека:
  • Audio измерения

  • Voice Activity Detector block

Описание

Блок Voice Activity Detector обнаруживает наличие речи в аудиосигнале. Можно также использовать блок Voice Activity Detector, чтобы вывести оценку отклонения шума на интервал частоты.

Порты

Вход

расширить все

  • Матричный вход - Каждый столбец входного сигнала рассматривается как независимый канал.

  • 1-D векторный вход -- Вход рассматривается как один канал.

Этот порт не называется, если вы не задаете дополнительные входные порты.

Типы данных: single | double

Зависимости

Чтобы включить этот порт, выберите Specify silence-to-speech probability from input port для параметра Вероятность перехода от системы координат молчания к системе координат.

Типы данных: single | double

Зависимости

Чтобы включить этот порт, выберите Specify speech-to-silence probability from input port для параметра Вероятность перехода от речевой системы координат к системе координат молчания.

Типы данных: single | double

Выход

расширить все

Блок выводит скаляр или вектор-строку с одинаковым числом столбцов, как и входной сигнал.

Этот порт не называется, пока вы не выберете параметр Output noise variance.

Типы данных: single | double

Блок выводит вектор-столбец или матрицу с одинаковым числом столбцов, как и входной сигнал.

Зависимости

Чтобы включить этот порт, выберите параметр Output noise variance.

Типы данных: single | double

Параметры

расширить все

Если параметр указан как настраиваемый, то можно изменить его значение во время симуляции.

Оконная функция спроектирована с использованием алгоритмов следующих функций:

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time.

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time и Window к Chebyshev или Kaiser.

Типы данных: single | double

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time.

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time и очистите параметр Inherit FFT length from input dimensions.

Типы данных: single | double

Чтобы задать Probability of transition from a silence frame to a speech frame от входа порта, выберите Specify silence-to-speech probability from input port.

Настраиваемый: Да

Типы данных: single | double

Чтобы задать Probability of transition from a speech frame to a silence frame от входа порта, выберите Specify speech-to-silence probability from input port.

Настраиваемый: Да

Типы данных: single | double

Когда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, N.

  • Code generation - Симулируйте модель с помощью сгенерированного кода C. Первый раз, когда вы запускаете симуляцию, Simulink® генерирует код С для блока. Код С повторно используется для последующих симуляций, пока модель не меняется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.

  • Interpreted execution - Симулируйте модель с помощью MATLAB® интерпретатор. Эта опция сокращает время запуска, но имеет более медленную скорость симуляции, чем Code generation. В этом режиме можно отлаживать исходный код блока.

Настраиваемый: Нет

Характеристики блоков

Типы данных

double | single

Прямое сквозное соединение

no

Многомерные сигналы

no

Сигналы переменного размера

no

Обнаружение пересечения нулем

no

Алгоритмы

Этот Voice Activity Detector реализует алгоритм, описанный в [1].

Если Domain of the input задано как Timeвходной сигнал окончается и затем преобразуется в частотный диапазон согласно параметрам Window, Sidelobe attenuation of the window (dB) и FFT length. Если Domain of the input задано как Frequency, вход принят как оконное дискретное время Фурье (DTFT) аудиосигнала. Затем сигнал преобразуется в область степени. Отклонение шума оценивается согласно [2]. Апостериорный и предшествующий ОСШ оцениваются согласно формуле минимальной среднеквадратичной ошибки (MMSE), описанной в [3]. В соответствии с [1] используется тест коэффициента журнала правдоподобия на основе скрытой модели Маркова (HMM).

Ссылки

[1] Сон, Джонсео., Нам Су Ким и Вонён Сон. «Обнаружение голосовой активности на основе статистической модели». Обработка сигналов Букв IEEE. Том 6, № 1, 1999.

[2] Мартин, Р. «Оценка шумовой Степени спектральной плотности на основе оптимального сглаживания и минимальной статистики». Транзакции IEEE по обработке речи и аудио. Том 9, № 5, 2001, стр. 504-512.

[3] Ефрем, Я. и Д. Малах. «Улучшение речи с использованием оценки минимальной среднеквадратичной ошибки короткого времени спектральной амплитуды». Транзакции IEEE по акустике, речи и обработке сигналов. Том 32, № 6, 1984, стр. 1109-1121.

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ Simulink ®

.

См. также

Введенный в R2018a