Детектор речевой активности

Обнаружение наличия речи в звуковом сигнале

Библиотека:
Панель звуковых инструментов/измерения

Описание

Блок детектора речевой активности обнаруживает наличие речи в звуковом сигнале. Можно также использовать блок детектора речевой активности для вывода оценки дисперсии шума на частотный блок.

Порты

Вход

развернуть все

`x` - Входной сигнал
матрица | вектор 1-D

Матричный вход - каждый столбец входа рассматривается как независимый канал.
1-D vector input - Вход обрабатывается как один канал.

Этот порт не называется, если не указаны дополнительные входные порты.

Типы данных: single | double

`SilenceToSpeech` - Пороговое значение (дБ)
скаляр в диапазоне [0, 1]

Зависимости

Чтобы включить этот порт, выберите параметр Specify silence-to-speech probety from input port для параметра Вероятностный переход из кадра молчания в речевой кадр.

Типы данных: single | double

`SpeechToSilence` - Пороговое значение (дБ)
скаляр в диапазоне [0, 1]

Зависимости

Чтобы включить этот порт, выберите параметр Specify speech-to-silence probity from input port для параметра Вероятностный переход из речевого кадра в кадр молчания.

Типы данных: single | double

Продукция

развернуть все

`P` - Вероятность присутствия речи
скалярный | вектор строки

Блок выводит скалярный вектор или вектор строки с тем же количеством столбцов, что и входной сигнал.

Этот порт не называется до тех пор, пока не будет выбран параметр Output noise variance.

Типы данных: single | double

`N` - Оценка дисперсии шума на частотный блок
вектор столбца | матрица

Блок выводит вектор столбца или матрицу с тем же количеством столбцов, что и входной сигнал.

Зависимости

Для активизации этого порта выберите параметр Output noise variance.

Типы данных: single | double

Параметры

развернуть все

Если параметр указан как настраиваемый, его значение можно изменить во время моделирования.

`Domain of the input` - Область ввода
`Time` (по умолчанию) | `Frequency`

`Window` - Функция оконного режима, примененная перед БПФ
`Hann` (по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

Оконная функция разработана с использованием алгоритмов следующих функций:

Hann –– hann
Chebyshev –– chebwin
Flat Top –– flattopwin
Hamming –– hamming
Kaiser –– kaiser

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time.

`Sidelobe attenuation of the window (dB)` - Затухание боковины окна (дБ)
`60` (по умолчанию) | положительный конечный скаляр

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time и окно для Chebyshev или Kaiser.

Типы данных: single | double

`Inherit FFT length from input dimensions` - Установите длину БПФ в число входных выборок
on (по умолчанию) | off

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time.

`FFT length` - Количество ячеек в частотной области
`1024` (по умолчанию) | положительное целое число

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Домен входа в значение Time и снимите флажок Наследовать длину БПФ из параметра входных размеров.

Типы данных: single | double

`Probability of transition from a silence frame to a speech frame` - Вероятность того, что речевой кадр следует за кадром молчания
`0.2` (по умолчанию) | скаляр в диапазоне [0,1]

Чтобы задать вероятность перехода из кадра молчания в речевой кадр из входного порта, выберите параметр Specify silence-to-speech progulence from input port.

Настраиваемый: Да

Типы данных: single | double

`Probability of transition from a speech frame to a silence frame` - Вероятность того, что кадр молчания следует за речевым кадром
`0.1` (по умолчанию) | скаляр в диапазоне [0,1]

Чтобы задать вероятность перехода из речевого кадра в кадр молчания из входного порта, выберите параметр Specify speech-to-silence probity from input port.

Настраиваемый: Да

Типы данных: single | double

`Output noise variance` - Выходная оценка дисперсии шума на частотный блок
`off` (по умолчанию) | `on`

При выборе этого параметра к блоку добавляется дополнительный выходной порт N.

`Simulate using` - Укажите тип выполняемого моделирования
`Code generation` (по умолчанию) | `Interpreted execution`

Code generation - моделирование модели с использованием сгенерированного кода C. При первом запуске моделирования Simulink ® генерирует код C для блока. Код C используется повторно для последующего моделирования, если модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующего моделирования сравнима сInterpreted execution.
Interpreted execution - Моделирование модели с помощью интерпретатора MATLAB ®. Этот параметр сокращает время запуска, но имеет более низкую скорость моделирования, чемCode generation. В этом режиме можно отладить исходный код блока.

Настраиваемый: Нет

Примеры модели

Обнаружение наличия речи

Эта модель использует блок детектора речевой активности для визуализации вероятности присутствия речи в звуковом сигнале.

Звуковой сигнал затвора с использованием VAD

Эта модель использует маршрутизацию сигнала if-else для замены областей без речи нулями.

Frequency-Domain Voice Activity Detection

Обнаружение голосовой активности в частотной области

Эта модель обнаруживает речевую активность с помощью звукового сигнала частотной области.

Визуализация мощности шума

Эта модель отображает мощность шума, оцененную детектором речевой активности.

Характеристики блока

Типы данных	`double` \| `single`
Прямой проход	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулей	`no`

Алгоритмы

Детектор речевой активности реализует алгоритм, описанный в [1].

Если домен входа указан как Timeвходной сигнал преобразуется в частотную область в соответствии с окном, затуханием окна (дБ) и параметрами длины БПФ. Если домен входа указан как Frequencyпредполагается, что вход является оконным дискретным временным преобразованием Фурье (DTFT) звукового сигнала. Затем сигнал преобразуется в область питания. Дисперсия шума оценивается согласно [2]. Задняя и предыдущая SNR оцениваются по формуле минимальной среднеквадратической ошибки (MMSE), описанной в [3]. В соответствии с [1] используется логарифмический тест отношения правдоподобия с использованием схемы зависания на основе скрытой модели Маркова (HMM).

Ссылки

[1] Сон, Джонгсео, Нам Су Ким и Вонён Сен. «Обнаружение голосовой активности на основе статистической модели». Обработка сигналов письма IEEE. Том 6, № 1, 1999.

[2] Мартин, Р. «Оценка спектральной плотности мощности шума на основе оптимального сглаживания и минимальной статистики». Транзакции IEEE по обработке речи и звука. Том 9, № 5, 2001, стр. 504-512.

[3] Ефрем, Я. и Д. Мала. «Улучшение речи с использованием устройства оценки минимальной среднеквадратической ошибки с короткими временными спектральными амплитудами». Транзакции IEEE для обработки акустики, речи и сигналов. т. 32, № 6, 1984, с. 1109-1121.

Расширенные возможности

Создание кода C/C + +
Создайте код C и C++ с помощью Simulink ® Coder™

См. также

voiceActivityDetector

Представлен в R2018a

Документация

Детектор речевой активности

Описание

Порты

Вход

x - Входной сигнал матрица | вектор 1-D

SilenceToSpeech - Пороговое значение (дБ) скаляр в диапазоне [0, 1]

Зависимости

SpeechToSilence - Пороговое значение (дБ) скаляр в диапазоне [0, 1]

Зависимости

Продукция

P - Вероятность присутствия речи скалярный | вектор строки

N - Оценка дисперсии шума на частотный блок вектор столбца | матрица

Зависимости

Параметры

Domain of the input - Область ввода Time (по умолчанию) | Frequency

Window - Функция оконного режима, примененная перед БПФ Hann (по умолчанию) | Chebyshev | Flat Top | Hamming | Kaiser | Rectangular

Зависимости

Sidelobe attenuation of the window (dB) - Затухание боковины окна (дБ) 60 (по умолчанию) | положительный конечный скаляр

Зависимости

Inherit FFT length from input dimensions - Установите длину БПФ в число входных выборок on (по умолчанию) | off

Зависимости

FFT length - Количество ячеек в частотной области 1024 (по умолчанию) | положительное целое число

Зависимости

Probability of transition from a silence frame to a speech frame - Вероятность того, что речевой кадр следует за кадром молчания 0.2 (по умолчанию) | скаляр в диапазоне [0,1]

Probability of transition from a speech frame to a silence frame - Вероятность того, что кадр молчания следует за речевым кадром 0.1 (по умолчанию) | скаляр в диапазоне [0,1]

Output noise variance - Выходная оценка дисперсии шума на частотный блок off (по умолчанию) | on

Simulate using - Укажите тип выполняемого моделирования Code generation (по умолчанию) | Interpreted execution

Примеры модели

Обнаружение наличия речи

Звуковой сигнал затвора с использованием VAD

Обнаружение голосовой активности в частотной области

Визуализация мощности шума

Характеристики блока

Алгоритмы

Ссылки

Расширенные возможности

Создание кода C/C + + Создайте код C и C++ с помощью Simulink ® Coder™

См. также

Документация по панели инструментов Audio

Поддержка

`x` - Входной сигнал
матрица | вектор 1-D

`SilenceToSpeech` - Пороговое значение (дБ)
скаляр в диапазоне [0, 1]

`SpeechToSilence` - Пороговое значение (дБ)
скаляр в диапазоне [0, 1]

`P` - Вероятность присутствия речи
скалярный | вектор строки

`N` - Оценка дисперсии шума на частотный блок
вектор столбца | матрица

`Domain of the input` - Область ввода
`Time` (по умолчанию) | `Frequency`

`Window` - Функция оконного режима, примененная перед БПФ
`Hann` (по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

`Sidelobe attenuation of the window (dB)` - Затухание боковины окна (дБ)
`60` (по умолчанию) | положительный конечный скаляр

`Inherit FFT length from input dimensions` - Установите длину БПФ в число входных выборок
on (по умолчанию) | off

`FFT length` - Количество ячеек в частотной области
`1024` (по умолчанию) | положительное целое число

`Probability of transition from a silence frame to a speech frame` - Вероятность того, что речевой кадр следует за кадром молчания
`0.2` (по умолчанию) | скаляр в диапазоне [0,1]

`Probability of transition from a speech frame to a silence frame` - Вероятность того, что кадр молчания следует за речевым кадром
`0.1` (по умолчанию) | скаляр в диапазоне [0,1]

`Output noise variance` - Выходная оценка дисперсии шума на частотный блок
`off` (по умолчанию) | `on`

`Simulate using` - Укажите тип выполняемого моделирования
`Code generation` (по умолчанию) | `Interpreted execution`

Создание кода C/C + +
Создайте код C и C++ с помощью Simulink ® Coder™