Voice Activity Detector

Обнаружьте присутствие речи в звуковом сигнале

  • Библиотека:
  • Audio Toolbox / Измерения

  • Voice Activity Detector block

Описание

Блок Voice Activity Detector обнаруживает присутствие речи в звуковом сигнале. Можно также использовать блок Voice Activity Detector, чтобы вывести оценку шумового отклонения на интервал частоты.

Порты

Входной параметр

развернуть все

  • Матричный вход – Каждый столбец входа обработан как независимый канал.

  • 1D векторный вход – вход обработан как один канал.

Этот порт без имени, если вы не задаете дополнительные входные порты.

Типы данных: single | double

Зависимости

Чтобы включить этот порт, выберите Specify silence-to-speech probability from input port для Вероятности перехода от системы координат тишины до речевого параметра системы координат.

Типы данных: single | double

Зависимости

Чтобы включить этот порт, выберите Specify speech-to-silence probability from input port для Вероятности перехода от речевой системы координат до параметра системы координат тишины.

Типы данных: single | double

Вывод

развернуть все

Блок выводит скалярный или вектор-строку с одинаковым числом столбцов как входной сигнал.

Этот порт без имени, пока вы не выбираете параметр Output noise variance.

Типы данных: single | double

Блок выводит вектор-столбец или матрицу с одинаковым числом столбцов как входной сигнал.

Зависимости

Чтобы включить этот порт, выберите параметр Output noise variance.

Типы данных: single | double

Параметры

развернуть все

Если параметр перечислен как настраиваемый, то можно изменить его значение в процессе моделирования.

Функция окна создана с использованием алгоритмы следующих функций:

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time.

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time и Window к Chebyshev или Kaiser.

Типы данных: single | double

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time.

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time и очистите параметр Inherit FFT length from input dimensions.

Типы данных: single | double

Чтобы задать Probability of transition from a silence frame to a speech frame от входного порта, выберите Specify silence-to-speech probability from input port.

Настраиваемый: да

Типы данных: single | double

Чтобы задать Probability of transition from a speech frame to a silence frame от входного порта, выберите Specify speech-to-silence probability from input port.

Настраиваемый: да

Типы данных: single | double

Когда вы выбираете этот параметр, дополнительный выходной порт, N, добавляется к блоку.

  • Code generation – Симулируйте модель с помощью сгенерированного кода C. В первый раз, когда вы запускаете симуляцию, Simulink® генерирует код С для блока. Код С снова используется для последующих симуляций, пока модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.

  • Interpreted execution – Симулируйте модель с помощью интерпретатора MATLAB®. Эта опция уменьшает время запуска, но имеет более медленную скорость симуляции, чем Code generation. В этом режиме можно отладить исходный код блока.

Настраиваемый: нет

Характеристики блока

Типы данных

double | single

Прямое сквозное соединение

no

Многомерные сигналы

no

Сигналы переменного размера

no

Обнаружение пересечения нулем

no

Алгоритмы

Voice Activity Detector реализует алгоритм, описанный в [1].

Если Domain of the input задан как Time, входной сигнал является оконным и затем конвертированным к частотному диапазону согласно Window, Sidelobe attenuation of the window (dB) и параметрам FFT length. Если Domain of the input задан как Frequency, вход принят, чтобы быть оконным преобразованием Фурье дискретного времени (DTFT) звукового сигнала. Сигнал затем преобразован в домен питания. Шумовое отклонение оценивается согласно [2]. Следующий и предшествующий ОСШ оценивается согласно формуле Минимальной среднеквадратичной погрешности (MMSE), описанной в [3]. Логарифмический тест отношения правдоподобия со Скрытой моделью Маркова (HMM) - базирующаяся схема похмелья используется, согласно [1].

Ссылки

[1] Зон, Jongseo., Нэм Су Ким и Вонюн Сун. "Статистическое основанное на модели речевое обнаружение действия". Обработка сигналов обозначает буквами IEEE. Издание 6, № 1, 1999.

[2] Мартин, R. "Шумовая Степень Спектральная Оценка Плотности На основе Оптимального Сглаживания и Минимальной Статистики". Транзакции IEEE о Речи и Обработке аудиоданных. Издание 9, № 5, 2001, стр 504–512.

[3] Эфраим, Y. и Д. Мала. "Речевое Улучшение Используя Минимальное Короткое время Среднеквадратичной погрешности Спектральное Амплитудное Средство оценки". Транзакции IEEE на Акустике, Речи и Обработке сигналов. Издание 32, № 6, 1984, стр 1109–1121.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Введенный в R2018a