Речевой детектор действия

Обнаружьте присутствие речи в звуковом сигнале

Библиотека:
Audio Toolbox / Измерения

Описание

Блок Voice Activity Detector обнаруживает присутствие речи в звуковом сигнале. Можно также использовать блок Voice Activity Detector, чтобы вывести оценку шумового отклонения на интервал частоты.

Порты

Входной параметр

развернуть все

`Port_1` — Входной сигнал
матрица | 1D вектор

Матричный вход – Каждый столбец входа обработан как независимый канал.
1D векторный вход – вход обработан как один канал.

Типы данных: single | double

Вывод

развернуть все

`P` Вероятность, что речь присутствует
скаляр | вектор - строка

Блок выводит скалярный или вектор - строку с одинаковым числом столбцов как входной сигнал.

Этот порт без имени, пока вы не выбираете параметр Output noise variance.

Типы данных: single | double

`N` Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

Блок выводит вектор-столбец или матрицу с одинаковым числом столбцов как входной сигнал.

Зависимости

Чтобы включить этот порт, выберите параметр Output noise variance.

Типы данных: single | double

Параметры

развернуть все

Если параметр перечислен как настраиваемый, то можно изменить его значение во время симуляции.

`Domain of the input` — Область входа
`Time` (значение по умолчанию) | `Frequency`

Настраиваемый: нет

`Window` — Функция работы с окнами применяется перед БПФ
`Hann` (значение по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

Функция окна разработана с помощью алгоритмов следующих функций:

Hann – hann
Chebyshev – chebwin
Flat Top – flattopwin
Hamming – hamming
Kaiser – kaiser

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time.

`Sidelobe attenuation of the window (dB)` — Затухание бокового лепестка окна (дБ)
`60` (значение по умолчанию) | положительный конечный скаляр

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time и Window к Chebyshev или Kaiser.

Типы данных: single | double

`Inherit FFT length from input dimensions` — Установите длину БПФ на количество входных выборок
на (значении по умолчанию) | прочь

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time.

`FFT length` — Количество интервалов в частотном диапазоне
`1024` (значение по умолчанию) | положительное конечное целое число

Настраиваемый: нет

Зависимости

Чтобы включить этот параметр, установите Domain of the input на Time и очистите параметр Inherit FFT length from input dimensions.

Типы данных: single | double

`Probability of transition from a silence frame to a speech frame` — Вероятность, что речевой кадр следует за кадром тишины
`0.2` (значение по умолчанию) | значение в области значений [0,1]

Настраиваемый: да

Типы данных: single | double

`Probability of transition from a speech frame to a silence frame` — Вероятность, что кадр тишины следует за речевым кадром
`0.1` (значение по умолчанию) | значение в области значений [0,1]

Настраиваемый: да

Типы данных: single | double

`Output noise variance` — Выведите оценку шумового отклонения на интервал частоты
`off` (значение по умолчанию) | `on`

Когда вы выбираете этот параметр, дополнительный выходной порт, N, добавляется к блоку.

Настраиваемый: нет

`Simulate using` — Задайте тип симуляции, чтобы запуститься
`Code generation` (значение по умолчанию) | `Interpreted execution`

Модель Code generation - Simulate с помощью сгенерированного кода C. В первый раз, когда вы запускаете симуляцию, Simulink^® генерирует код С для блока. Код С снова используется для последующих симуляций, пока модель не изменяется. Эта опция требует дополнительного времени запуска, но скорость последующих симуляций сопоставима с Interpreted execution.
Модель Interpreted execution - Simulate с помощью интерпретатора MATLAB^®. Эта опция сокращает время запуска, но имеет более медленную скорость симуляции, чем Code generation. В этом режиме можно отладить исходный код блока.

Настраиваемый: нет

Образцовые примеры

Обнаружьте присутствие речи

Эта модель использует блок Voice Activity Detector, чтобы визуализировать вероятность речевого присутствия в звуковом сигнале.

Открытая модель

Пропустите звуковой сигнал Используя VAD

Эта модель использует если еще маршрутизация блока-сигнала, чтобы заменить области никакой речи с нулями.

Открытая модель

Frequency-Domain Voice Activity Detection

Речевое обнаружение действия частотного диапазона

Эта модель обнаруживает речевое действие с помощью звукового сигнала частотного диапазона.

Открытая модель

Визуализируйте шумовую степень

Эта модель строит шумовую степень, оцененную Речевым Детектором Действия.

Открытая модель

Характеристики блока

Типы данных	`double` \| `single`
Прямое сквозное соединение	`no`
Многомерные сигналы	`no`
Сигналы переменного размера	`no`
Обнаружение пересечения нулем	`no`

Алгоритмы

Речевой Детектор Действия реализует алгоритм, описанный в [1].

Если Domain of the input задан как Time, входной сигнал является оконным и затем конвертированным к частотному диапазону согласно Window, Sidelobe attenuation of the window (dB) и параметрам FFT length. Если Domain of the input задан как Frequency, вход принят, чтобы быть оконным преобразованием Фурье дискретного времени (DTFT) звукового сигнала. Сигнал затем преобразован в домен питания. Шумовое отклонение оценивается согласно [2]. Следующий и предшествующий ОСШ оценивается согласно формуле Минимальной среднеквадратичной погрешности (MMSE), описанной в [3]. Логарифмический тест отношения правдоподобия со Скрытой моделью Маркова (HMM) - базирующаяся схема похмелья используется, согласно [1].

Ссылки

[1] Зон, Jongseo., Нэм Су Ким и Вонюн Сун. "Статистическое основанное на модели речевое обнаружение действия". Обработка сигналов обозначает буквами IEEE. Издание 6, № 1, 1999.

[2] Мартин, R. "Шумовая Степень Спектральная Оценка Плотности На основе Оптимального Сглаживания и Минимальной Статистики". Транзакции IEEE о Речи и Обработке аудиоданных. Издание 9, № 5, 2001, стр 504–512.

[3] Эфраим, Y. и Д. Мала. "Речевое Улучшение Используя Минимальное Короткое время Среднеквадратичной погрешности Спектральное Амплитудное Средство оценки". Транзакции IEEE на Акустике, Речи и Обработке сигналов. Издание 32, № 6, 1984, стр 1109–1121.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

voiceActivityDetector

Введенный в R2018a

Документация Audio Toolbox

Поддержка

Сообщество Экспонента

Документация

Речевой детектор действия

Описание

Порты

Входной параметр

Port_1 — Входной сигнал матрица | 1D вектор

Вывод

P Вероятность, что речь присутствует скаляр | вектор - строка

N Оценка шумового отклонения на интервал частоты вектор-столбец | матрица

Зависимости

Параметры

Domain of the input — Область входа Time (значение по умолчанию) | Frequency

Window — Функция работы с окнами применяется перед БПФ Hann (значение по умолчанию) | Chebyshev | Flat Top | Hamming | Kaiser | Rectangular

Зависимости

Sidelobe attenuation of the window (dB) — Затухание бокового лепестка окна (дБ) 60 (значение по умолчанию) | положительный конечный скаляр

Зависимости

Inherit FFT length from input dimensions — Установите длину БПФ на количество входных выборок на (значении по умолчанию) | прочь

Зависимости

FFT length — Количество интервалов в частотном диапазоне 1024 (значение по умолчанию) | положительное конечное целое число

Зависимости

Probability of transition from a silence frame to a speech frame — Вероятность, что речевой кадр следует за кадром тишины 0.2 (значение по умолчанию) | значение в области значений [0,1]

Probability of transition from a speech frame to a silence frame — Вероятность, что кадр тишины следует за речевым кадром 0.1 (значение по умолчанию) | значение в области значений [0,1]

Output noise variance — Выведите оценку шумового отклонения на интервал частоты off (значение по умолчанию) | on

Simulate using — Задайте тип симуляции, чтобы запуститься Code generation (значение по умолчанию) | Interpreted execution

Образцовые примеры

Обнаружьте присутствие речи

Пропустите звуковой сигнал Используя VAD

Речевое обнаружение действия частотного диапазона

Визуализируйте шумовую степень

Характеристики блока

Алгоритмы

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью Simulink® Coder™.

Смотрите также

Введенный в R2018a

Документация Audio Toolbox

Поддержка

`Port_1` — Входной сигнал
матрица | 1D вектор

`P` Вероятность, что речь присутствует
скаляр | вектор - строка

`N` Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

`Domain of the input` — Область входа
`Time` (значение по умолчанию) | `Frequency`

`Window` — Функция работы с окнами применяется перед БПФ
`Hann` (значение по умолчанию) | `Chebyshev` | `Flat Top` | `Hamming` | `Kaiser` | `Rectangular`

`Sidelobe attenuation of the window (dB)` — Затухание бокового лепестка окна (дБ)
`60` (значение по умолчанию) | положительный конечный скаляр

`Inherit FFT length from input dimensions` — Установите длину БПФ на количество входных выборок
на (значении по умолчанию) | прочь

`FFT length` — Количество интервалов в частотном диапазоне
`1024` (значение по умолчанию) | положительное конечное целое число

`Probability of transition from a silence frame to a speech frame` — Вероятность, что речевой кадр следует за кадром тишины
`0.2` (значение по умолчанию) | значение в области значений [0,1]

`Probability of transition from a speech frame to a silence frame` — Вероятность, что кадр тишины следует за речевым кадром
`0.1` (значение по умолчанию) | значение в области значений [0,1]

`Output noise variance` — Выведите оценку шумового отклонения на интервал частоты
`off` (значение по умолчанию) | `on`

`Simulate using` — Задайте тип симуляции, чтобы запуститься
`Code generation` (значение по умолчанию) | `Interpreted execution`

Генерация кода C/C++
Генерация кода C и C++ с помощью Simulink® Coder™.