Voice Activity Detector

Обнаружение наличия речи в аудиосигнале

Библиотека:
Audio измерения

Описание

Блок Voice Activity Detector обнаруживает наличие речи в аудиосигнале. Можно также использовать блок Voice Activity Detector, чтобы вывести оценку отклонения шума на интервал частоты.

Порты

Вход

расширить все

`x` - Входной сигнал
матрица | 1-D вектор

Матричный вход - Каждый столбец входного сигнала рассматривается как независимый канал.
1-D векторный вход -- Вход рассматривается как один канал.

Этот порт не называется, если вы не задаете дополнительные входные порты.

Типы данных: single | double

`SilenceToSpeech` - Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

Чтобы включить этот порт, выберите Specify silence-to-speech probability from input port для параметра Вероятность перехода от системы координат молчания к системе координат.

Типы данных: single | double

`SpeechToSilence` - Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

Чтобы включить этот порт, выберите Specify speech-to-silence probability from input port для параметра Вероятность перехода от речевой системы координат к системе координат молчания.

Типы данных: single | double

Выход

расширить все

`P` - Вероятность того, что речь присутствует
Скаляр | вектор-строка

Блок выводит скаляр или вектор-строку с одинаковым числом столбцов, как и входной сигнал.

Этот порт не называется, пока вы не выберете параметр Output noise variance.

Типы данных: single | double

`N` - Оценка отклонения шума на частотный интервал
Вектор-столбец | матрица

Блок выводит вектор-столбец или матрицу с одинаковым числом столбцов, как и входной сигнал.

Зависимости

Чтобы включить этот порт, выберите параметр Output noise variance.

Типы данных: single | double

Параметры

расширить все

Если параметр указан как настраиваемый, то можно изменить его значение во время симуляции.

`Domain of the input` - Область входов
`Time` (по умолчанию) | `Frequency`

`Window` - Оконная функция, примененная перед БПФ
`Hann` (по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

Оконная функция спроектирована с использованием алгоритмов следующих функций:

Hann –– hann
Chebyshev –– chebwin
Flat Top –– flattopwin
Hamming –– hamming
Kaiser –– kaiser

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time.

`Sidelobe attenuation of the window (dB)` - Ослабление окна (дБ)
`60` (по умолчанию) | положительный конечный скаляр

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time и Window к Chebyshev или Kaiser.

Типы данных: single | double

`Inherit FFT length from input dimensions` - Установите длину БПФ в количество входных выборок
on (по умолчанию) | off

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time.

`FFT length` - Количество интервалов в частотном диапазоне
`1024` (по умолчанию) | положительное целое число

Настраиваемый: Нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input равным Time и очистите параметр Inherit FFT length from input dimensions.

Типы данных: single | double

`Probability of transition from a silence frame to a speech frame` - Вероятность того, что речевая система координат следует за кадром молчания
`0.2` (по умолчанию) | скаляром в области значений [0,1]

Чтобы задать Probability of transition from a silence frame to a speech frame от входа порта, выберите Specify silence-to-speech probability from input port.

Настраиваемый: Да

Типы данных: single | double

`Probability of transition from a speech frame to a silence frame` - Вероятность того, что система координат молчания следует за речевой системой координат
`0.1` (по умолчанию) | скаляром в области значений [0,1]

Чтобы задать Probability of transition from a speech frame to a silence frame от входа порта, выберите Specify speech-to-silence probability from input port.

Настраиваемый: Да

Типы данных: single | double

`Output noise variance` - Выходная оценка отклонения шума на частотный интервал
`off` (по умолчанию) | `on`

Когда вы выбираете этот параметр, к блоку добавляется дополнительный выходной порт, N.

`Simulate using` - Задайте тип выполняемой симуляции
`Code generation` (по умолчанию) | `Interpreted execution`

Code generation - Симулируйте модель с помощью сгенерированного кода C. Первый раз, когда вы запускаете симуляцию, Simulink^® генерирует код С для блока. Код С повторно используется для последующих симуляций, пока модель не меняется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.
Interpreted execution - Симулируйте модель с помощью MATLAB^® интерпретатор. Эта опция сокращает время запуска, но имеет более медленную скорость симуляции, чем Code generation. В этом режиме можно отлаживать исходный код блока.

Настраиваемый: Нет

Примеры моделей

Обнаружение присутствия речи

Эта модель использует блок Voice Activity Detector, чтобы визуализировать вероятность присутствия речи в аудиосигнале.

Аудиосигнал управления ключами с использованием VAD

Эта модель использует маршрутизацию сигнала блока if-else, чтобы заменить области без речи нулями.

Frequency-Domain Voice Activity Detection

Обнаружение голосовой активности частотного диапазона

Эта модель обнаруживает голосовую активность, используя аудиосигнал частотного диапазона.

Визуализация шумовых Степеней

Эта модель строит график степени шума, оцененной детектором голосовой активности.

Характеристики блоков

Типы данных	`double` \| `single`
Прямое сквозное соединение	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулем	`no`

Алгоритмы

Этот Voice Activity Detector реализует алгоритм, описанный в [1].

Если Domain of the input задано как Timeвходной сигнал окончается и затем преобразуется в частотный диапазон согласно параметрам Window, Sidelobe attenuation of the window (dB) и FFT length. Если Domain of the input задано как Frequency, вход принят как оконное дискретное время Фурье (DTFT) аудиосигнала. Затем сигнал преобразуется в область степени. Отклонение шума оценивается согласно [2]. Апостериорный и предшествующий ОСШ оцениваются согласно формуле минимальной среднеквадратичной ошибки (MMSE), описанной в [3]. В соответствии с [1] используется тест коэффициента журнала правдоподобия на основе скрытой модели Маркова (HMM).

Ссылки

[1] Сон, Джонсео., Нам Су Ким и Вонён Сон. «Обнаружение голосовой активности на основе статистической модели». Обработка сигналов Букв IEEE. Том 6, № 1, 1999.

[2] Мартин, Р. «Оценка шумовой Степени спектральной плотности на основе оптимального сглаживания и минимальной статистики». Транзакции IEEE по обработке речи и аудио. Том 9, № 5, 2001, стр. 504-512.

[3] Ефрем, Я. и Д. Малах. «Улучшение речи с использованием оценки минимальной среднеквадратичной ошибки короткого времени спектральной амплитуды». Транзакции IEEE по акустике, речи и обработке сигналов. Том 32, № 6, 1984, стр. 1109-1121.

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ Simulink ®

См. также

voiceActivityDetector

Введенный в R2018a

Документация

Voice Activity Detector

Описание

Порты

Вход

`x` - Входной сигнал
матрица | 1-D вектор

`SilenceToSpeech` - Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

`SpeechToSilence` - Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

Выход

`P` - Вероятность того, что речь присутствует
Скаляр | вектор-строка

`N` - Оценка отклонения шума на частотный интервал
Вектор-столбец | матрица

Зависимости

Параметры

`Domain of the input` - Область входов
`Time` (по умолчанию) | `Frequency`

`Window` - Оконная функция, примененная перед БПФ
`Hann` (по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

Зависимости

`Sidelobe attenuation of the window (dB)` - Ослабление окна (дБ)
`60` (по умолчанию) | положительный конечный скаляр

Зависимости

`Inherit FFT length from input dimensions` - Установите длину БПФ в количество входных выборок
on (по умолчанию) | off

Зависимости

`FFT length` - Количество интервалов в частотном диапазоне
`1024` (по умолчанию) | положительное целое число

Зависимости

`Probability of transition from a silence frame to a speech frame` - Вероятность того, что речевая система координат следует за кадром молчания
`0.2` (по умолчанию) | скаляром в области значений [0,1]

`Output noise variance` - Выходная оценка отклонения шума на частотный интервал
`off` (по умолчанию) | `on`

`Simulate using` - Задайте тип выполняемой симуляции
`Code generation` (по умолчанию) | `Interpreted execution`

Примеры моделей

Обнаружение присутствия речи

Аудиосигнал управления ключами с использованием VAD

Обнаружение голосовой активности частотного диапазона

Визуализация шумовых Степеней

Характеристики блоков

Алгоритмы

Ссылки

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ Simulink ®

См. также

Документация Audio Toolbox

Поддержка

Документация

Voice Activity Detector

Описание

Порты

Вход

x - Входной сигнал матрица | 1-D вектор

SilenceToSpeech - Порог (дБ) скаляр в области значений [0, 1]

Зависимости

SpeechToSilence - Порог (дБ) скаляр в области значений [0, 1]

Зависимости

Выход

P - Вероятность того, что речь присутствует Скаляр | вектор-строка

N - Оценка отклонения шума на частотный интервал Вектор-столбец | матрица

Зависимости

Параметры

Domain of the input - Область входов Time (по умолчанию) | Frequency

Window - Оконная функция, примененная перед БПФ Hann (по умолчанию) | Chebyshev | Flat Top | Hamming | Kaiser | Rectangular

Зависимости

Sidelobe attenuation of the window (dB) - Ослабление окна (дБ) 60 (по умолчанию) | положительный конечный скаляр

Зависимости

Inherit FFT length from input dimensions - Установите длину БПФ в количество входных выборок on (по умолчанию) | off

Зависимости

FFT length - Количество интервалов в частотном диапазоне 1024 (по умолчанию) | положительное целое число

Зависимости

Probability of transition from a silence frame to a speech frame - Вероятность того, что речевая система координат следует за кадром молчания 0.2 (по умолчанию) | скаляром в области значений [0,1]

Output noise variance - Выходная оценка отклонения шума на частотный интервал off (по умолчанию) | on

Simulate using - Задайте тип выполняемой симуляции Code generation (по умолчанию) | Interpreted execution

Примеры моделей

Обнаружение присутствия речи

Аудиосигнал управления ключами с использованием VAD

Обнаружение голосовой активности частотного диапазона

Визуализация шумовых Степеней

Характеристики блоков

Алгоритмы

Ссылки

Расширенные возможности

Генерация кода C/C + + Сгенерируйте код C и C++ с помощью Coder™ Simulink ®

См. также

Документация Audio Toolbox

Поддержка

`x` - Входной сигнал
матрица | 1-D вектор

`SilenceToSpeech` - Порог (дБ)
скаляр в области значений [0, 1]

`SpeechToSilence` - Порог (дБ)
скаляр в области значений [0, 1]

`P` - Вероятность того, что речь присутствует
Скаляр | вектор-строка

`N` - Оценка отклонения шума на частотный интервал
Вектор-столбец | матрица

`Domain of the input` - Область входов
`Time` (по умолчанию) | `Frequency`

`Window` - Оконная функция, примененная перед БПФ
`Hann` (по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

`Sidelobe attenuation of the window (dB)` - Ослабление окна (дБ)
`60` (по умолчанию) | положительный конечный скаляр

`Inherit FFT length from input dimensions` - Установите длину БПФ в количество входных выборок
on (по умолчанию) | off

`FFT length` - Количество интервалов в частотном диапазоне
`1024` (по умолчанию) | положительное целое число

`Probability of transition from a silence frame to a speech frame` - Вероятность того, что речевая система координат следует за кадром молчания
`0.2` (по умолчанию) | скаляром в области значений [0,1]

`Output noise variance` - Выходная оценка отклонения шума на частотный интервал
`off` (по умолчанию) | `on`

`Simulate using` - Задайте тип выполняемой симуляции
`Code generation` (по умолчанию) | `Interpreted execution`

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ Simulink ®