Voice Activity Detector

Обнаружьте присутствие речи в звуковом сигнале

Библиотека:
Audio Toolbox / Измерения

Описание

Блок Voice Activity Detector обнаруживает присутствие речи в звуковом сигнале. Можно также использовать блок Voice Activity Detector, чтобы вывести оценку шумового отклонения на интервал частоты.

Порты

Входной параметр

развернуть все

`x` — Входной сигнал
матрица | 1D вектор

Матричный вход – Каждый столбец входа обработан как независимый канал.
1D векторный вход – вход обработан как один канал.

Этот порт без имени, если вы не задаете дополнительные входные порты.

Типы данных: single | double

`SilenceToSpeech` — Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

Чтобы включить этот порт, выберите Specify silence-to-speech probability from input port для Вероятности перехода от системы координат тишины до речевого параметра системы координат.

Типы данных: single | double

`SpeechToSilence` — Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

Чтобы включить этот порт, выберите Specify speech-to-silence probability from input port для Вероятности перехода от речевой системы координат до параметра системы координат тишины.

Типы данных: single | double

Вывод

развернуть все

`P` — Вероятность, что речь присутствует
скаляр | вектор-строка

Блок выводит скалярный или вектор-строку с одинаковым числом столбцов как входной сигнал.

Этот порт без имени, пока вы не выбираете параметр Output noise variance.

Типы данных: single | double

`N` — Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

Блок выводит вектор-столбец или матрицу с одинаковым числом столбцов как входной сигнал.

Зависимости

Чтобы включить этот порт, выберите параметр Output noise variance.

Типы данных: single | double

Параметры

развернуть все

Если параметр перечислен как настраиваемый, то можно изменить его значение в процессе моделирования.

`Domain of the input` — Область входа
`Time` (значение по умолчанию) | `Frequency`

`Window` — Функция работы с окнами применяется перед БПФ
`Hann` (значение по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

Функция окна создана с использованием алгоритмы следующих функций:

Hann –– hann
Chebyshev –– chebwin
Flat Top –– flattopwin
Hamming –– hamming
Kaiser –– kaiser

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time.

`Sidelobe attenuation of the window (dB)` — Затухание бокового лепестка окна (дБ)
60 (значение по умолчанию) | положительный конечный скаляр

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time и Window к Chebyshev или Kaiser.

Типы данных: single | double

`Inherit FFT length from input dimensions` — Установите длину БПФ на количество входных выборок
на (значении по умолчанию) | прочь

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time.

`FFT length` — Количество интервалов в частотном диапазоне
1024 (значение по умолчанию) | положительное целое число

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time и очистите параметр Inherit FFT length from input dimensions.

Типы данных: single | double

`Probability of transition from a silence frame to a speech frame` — Вероятность, что речевая система координат следует за системой координат тишины
0.2 (значение по умолчанию) | скаляр в области значений [0,1]

Чтобы задать Probability of transition from a silence frame to a speech frame от входного порта, выберите Specify silence-to-speech probability from input port.

Настраиваемый: да

Типы данных: single | double

`Probability of transition from a speech frame to a silence frame` — Вероятность, что система координат тишины следует за речевой системой координат
0.1 (значение по умолчанию) | скаляр в области значений [0,1]

Чтобы задать Probability of transition from a speech frame to a silence frame от входного порта, выберите Specify speech-to-silence probability from input port.

Настраиваемый: да

Типы данных: single | double

`Output noise variance` — Выведите оценку шумового отклонения на интервал частоты
`off` (значение по умолчанию) | `on`

Когда вы выбираете этот параметр, дополнительный выходной порт, N, добавляется к блоку.

`Simulate using` — Задайте тип симуляции, чтобы запуститься
`Code generation` (значение по умолчанию) | `Interpreted execution`

Code generation – Симулируйте модель с помощью сгенерированного кода C. В первый раз вы запускаете симуляцию, Simulink^® генерирует код С для блока. Код С снова используется для последующих симуляций, пока модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.
Interpreted execution – Симулируйте модель с помощью MATLAB^® интерпретатор. Эта опция уменьшает время запуска, но имеет более медленную скорость симуляции, чем Code generation. В этом режиме можно отладить исходный код блока.

Настраиваемый: нет

Примеры модели

Обнаружьте присутствие речи

Эта модель использует блок Voice Activity Detector, чтобы визуализировать вероятность речевого присутствия в звуковом сигнале.

Пропустите звуковой сигнал Используя VAD

Эта модель использует если еще маршрутизация блока-сигнала, чтобы заменить области никакой речи с нулями.

Frequency-Domain Voice Activity Detection

Речевое обнаружение действия частотного диапазона

Эта модель обнаруживает речевое действие с помощью звукового сигнала частотного диапазона.

Визуализируйте шумовую мощность

Эта модель строит шумовую мощность, оцененную Речевым Детектором Действия.

Характеристики блока

Типы данных	`double` \| `single`
Прямое сквозное соединение	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулем	`no`

Алгоритмы

Voice Activity Detector реализует алгоритм, описанный в [1].

Если Domain of the input задан как Time, входной сигнал является оконным и затем конвертированным к частотному диапазону согласно Window, Sidelobe attenuation of the window (dB) и параметрам FFT length. Если Domain of the input задан как Frequency, вход принят, чтобы быть оконным преобразованием Фурье дискретного времени (DTFT) звукового сигнала. Сигнал затем преобразован в домен питания. Шумовое отклонение оценивается согласно [2]. Следующий и предшествующий ОСШ оценивается согласно формуле Минимальной среднеквадратичной погрешности (MMSE), описанной в [3]. Логарифмический тест отношения правдоподобия со Скрытой моделью Маркова (HMM) - базирующаяся схема похмелья используется, согласно [1].

Ссылки

[1] Зон, Jongseo., Нэм Су Ким и Вонюн Сун. "Статистическое основанное на модели речевое обнаружение действия". Обработка сигналов обозначает буквами IEEE. Издание 6, № 1, 1999.

[2] Мартин, R. "Оценка Спектральной плотности мощности шума На основе Оптимального Сглаживания и Минимальной Статистики". Транзакции IEEE о Речи и Обработке аудиоданных. Издание 9, № 5, 2001, стр 504–512.

[3] Эфраим, Y. и Д. Мала. "Речевое Улучшение Используя Минимальное Короткое время Среднеквадратичной погрешности Спектральное Амплитудное Средство оценки". Транзакции IEEE на Акустике, Речи и Обработке сигналов. Издание 32, № 6, 1984, стр 1109–1121.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

voiceActivityDetector

Введенный в R2018a

Документация

Voice Activity Detector

Описание

Порты

Входной параметр

`x` — Входной сигнал
матрица | 1D вектор

`SilenceToSpeech` — Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

`SpeechToSilence` — Порог (дБ)
скаляр в области значений [0, 1]

Зависимости

Вывод

`P` — Вероятность, что речь присутствует
скаляр | вектор-строка

`N` — Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

Зависимости

Параметры

`Domain of the input` — Область входа
`Time` (значение по умолчанию) | `Frequency`

`Window` — Функция работы с окнами применяется перед БПФ
`Hann` (значение по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

Зависимости

`Sidelobe attenuation of the window (dB)` — Затухание бокового лепестка окна (дБ)
60 (значение по умолчанию) | положительный конечный скаляр

Зависимости

`Inherit FFT length from input dimensions` — Установите длину БПФ на количество входных выборок
на (значении по умолчанию) | прочь

Зависимости

`FFT length` — Количество интервалов в частотном диапазоне
1024 (значение по умолчанию) | положительное целое число

Зависимости

`Output noise variance` — Выведите оценку шумового отклонения на интервал частоты
`off` (значение по умолчанию) | `on`

`Simulate using` — Задайте тип симуляции, чтобы запуститься
`Code generation` (значение по умолчанию) | `Interpreted execution`

Примеры модели

Обнаружьте присутствие речи

Пропустите звуковой сигнал Используя VAD

Речевое обнаружение действия частотного диапазона

Визуализируйте шумовую мощность

Характеристики блока

Алгоритмы

Ссылки

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Документация Audio Toolbox

Поддержка

Документация

Voice Activity Detector

Описание

Порты

Входной параметр

x — Входной сигнал матрица | 1D вектор

SilenceToSpeech — Порог (дБ) скаляр в области значений [0, 1]

Зависимости

SpeechToSilence — Порог (дБ) скаляр в области значений [0, 1]

Зависимости

Вывод

P — Вероятность, что речь присутствует скаляр | вектор-строка

N — Оценка шумового отклонения на интервал частоты вектор-столбец | матрица

Зависимости

Параметры

Domain of the input — Область входа Time (значение по умолчанию) | Frequency

Window — Функция работы с окнами применяется перед БПФ Hann (значение по умолчанию) | Chebyshev | Flat Top | Hamming | Kaiser | Rectangular

Зависимости

Sidelobe attenuation of the window (dB) — Затухание бокового лепестка окна (дБ)60 (значение по умолчанию) | положительный конечный скаляр

Зависимости

Inherit FFT length from input dimensions — Установите длину БПФ на количество входных выборок на (значении по умолчанию) | прочь

Зависимости

FFT length — Количество интервалов в частотном диапазоне1024 (значение по умолчанию) | положительное целое число

Зависимости

Output noise variance — Выведите оценку шумового отклонения на интервал частоты off (значение по умолчанию) | on

Simulate using — Задайте тип симуляции, чтобы запуститься Code generation (значение по умолчанию) | Interpreted execution

Примеры модели

Обнаружьте присутствие речи

Пропустите звуковой сигнал Используя VAD

Речевое обнаружение действия частотного диапазона

Визуализируйте шумовую мощность

Характеристики блока

Алгоритмы

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Документация Audio Toolbox

Поддержка

`x` — Входной сигнал
матрица | 1D вектор

`SilenceToSpeech` — Порог (дБ)
скаляр в области значений [0, 1]

`SpeechToSilence` — Порог (дБ)
скаляр в области значений [0, 1]

`P` — Вероятность, что речь присутствует
скаляр | вектор-строка

`N` — Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

`Domain of the input` — Область входа
`Time` (значение по умолчанию) | `Frequency`

`Window` — Функция работы с окнами применяется перед БПФ
`Hann` (значение по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

`Sidelobe attenuation of the window (dB)` — Затухание бокового лепестка окна (дБ)
60 (значение по умолчанию) | положительный конечный скаляр

`Inherit FFT length from input dimensions` — Установите длину БПФ на количество входных выборок
на (значении по умолчанию) | прочь

`FFT length` — Количество интервалов в частотном диапазоне
1024 (значение по умолчанию) | положительное целое число

`Output noise variance` — Выведите оценку шумового отклонения на интервал частоты
`off` (значение по умолчанию) | `on`

`Simulate using` — Задайте тип симуляции, чтобы запуститься
`Code generation` (значение по умолчанию) | `Interpreted execution`

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.