Обнаружение границ речи в аудиосигнале
указывает параметры, использующие один или несколько idx = detectSpeech(audioIn,fs,Name,Value)Name,Value аргументы пары.
detectSpeech(audioIn,fs,'Window',hann(512,'periodic'),'OverlapLength',256) обнаруживает речь с помощью 512-точечного периодического окна Ханна с 256-точечным перекрытием.[ также возвращает пороговые значения, используемые для вычисления границ речи.idx,thresholds] = detectSpeech(___)
detectSpeech(___) без выходных аргументов отображает график обнаруженных речевых областей во входном сигнале.
detectSpeech алгоритм основан на [1], хотя и модифицирован таким образом, что статистика к порогу представляет собой кратковременную энергию и спектральный разброс, вместо кратковременной энергии и спектрального центроида. Диаграмма и шаги обеспечивают общий обзор алгоритма. Для получения более подробной информации см. [1].

Аудиосигнал преобразуется в частотно-временное представление с использованием указанного Window и OverlapLength.
Для каждого кадра вычисляют кратковременную энергию и спектральный разброс. Спектральный разброс вычисляется в соответствии с spectralSpread.
Гистограммы создаются как для распределения кратковременной энергии, так и для распределения спектрального разброса.
Для каждой гистограммы порог определяется согласно M2W + 1, где M1 и M2 являются первым и вторым локальными максимумами соответственно. W имеет значение5.
И спектральный разброс, и кратковременная энергия сглаживаются по времени путем прохождения через последовательные пятиэлементные движущиеся медианные фильтры.
Маски создаются путем сравнения кратковременной энергии и спектрального разброса с их соответствующими порогами. Чтобы объявить кадр как содержащий речь, функция должна быть выше порогового значения.
Маски скомбинированы. Чтобы кадр был объявлен как речь, и кратковременная энергия, и спектральный разброс должны быть выше их соответствующих пороговых значений.
Области, объявленные как речевые, объединяются, если расстояние между ними меньше MergeDistance.
[1] Джаннакопулос, Теодорос. «Метод удаления молчания и сегментации речевых сигналов, реализованный в MATLAB» (Университет Афин, Афины, 2009).