Обнаружение наличия речи в аудиосигнале
The voiceActivityDetector Системная object™ определяет наличие речи в аудиосегменте. Можно также использовать voiceActivityDetector Системный объект для вывода оценки отклонения шума на частотный интервал.

Чтобы обнаружить наличие речи:
Создайте voiceActivityDetector Объекту и установите его свойства.
Вызывайте объект с аргументами, как будто это функция.
Дополнительные сведения о работе системных объектов см. в разделе «Что такое системные объекты?».
VAD = voiceActivityDetector создает Системный объект, VAD, который обнаруживает присутствие речи независимо по каждому входному каналу.
VAD = voiceActivityDetector( устанавливает каждое свойство Name,Value)Name к заданной Value. Неопределенные свойства имеют значения по умолчанию.
VAD = voiceActivityDetector('InputDomain','Frequency') создает Системный объект, VAD, который принимает вход частотного диапазона.[ применяет на входе детектор голосовой активности, probability,noiseEstimate]
= VAD(audioIn)audioIn, и возвращает вероятность того, что речь присутствует. Это также возвращает предполагаемое отклонение шума на интервал частоты.
Чтобы использовать функцию объекта, задайте системный объект в качестве первого входного параметра. Например, чтобы освободить системные ресурсы системного объекта с именем obj, используйте следующий синтаксис:
release(obj)
The voiceActivityDetector реализует алгоритм, описанный в [1].

Если InputDomain задается как 'Time'входной сигнал окончается и затем преобразуется в частотный диапазон согласно Window, SidelobeAttenuation, и FFTLength свойства. Если InputDomain задан как частота, вход принят в виде оконного дискретного времени Фурье (DTFT) аудиосигнала. Затем сигнал преобразуется в область степени. Отклонение шума оценивается согласно [2]. Апостериорный и предшествующий ОСШ оцениваются согласно формуле минимальной среднеквадратичной ошибки (MMSE), описанной в [3]. Тест журнала коэффициента правдоподобия и основанная на скрытой модели Маркова (HMM) схема зависания определяют вероятность того, что текущая система координат содержит речь, согласно [1].
[1] Сон, Джонсео., Нам Су Ким и Вонён Сон. «Обнаружение голосовой активности на основе статистической модели». Обработка сигналов Букв IEEE. Том 6, № 1, 1999.
[2] Мартин, Р. «Оценка шумовой Степени спектральной плотности на основе оптимального сглаживания и минимальной статистики». Транзакции IEEE по обработке речи и аудио. Том 9, № 5, 2001, стр. 504-512.
[3] Ефрем, Я. и Д. Малах. «Улучшение речи с использованием оценки минимальной среднеквадратичной ошибки короткого времени спектральной амплитуды». Транзакции IEEE по акустике, речи и обработке сигналов. Том 32, № 6, 1984, стр. 1109-1121.
audioFeatureExtractor | cepstralFeatureExtractor | mfcc | pitch | Voice Activity Detector