voiceActivityDetector

Обнаружьте присутствие речи в звуковом сигнале

Описание

voiceActivityDetector Система object™ обнаруживает присутствие речи в аудио сегменте. Можно также использовать voiceActivityDetector Системный объект, чтобы вывести оценку шумового отклонения на интервал частоты.

Обнаружить присутствие речи:

Создайте voiceActivityDetector объект и набор его свойства.
Вызовите объект с аргументами, как будто это была функция.

Чтобы узнать больше, как Системные объекты работают, смотрите то, Что Системные объекты?

Создание

Синтаксис

VAD = voiceActivityDetector

VAD = voiceActivityDetector(Name,Value)

Описание

VAD = voiceActivityDetector создает Системный объект, VAD, это обнаруживает присутствие речи независимо через каждый входной канал.

VAD = voiceActivityDetector(Name,Value) наборы каждое свойство Name к заданному Value. Незаданные свойства имеют значения по умолчанию.

Пример: VAD = voiceActivityDetector('InputDomain','Frequency') создает Системный объект, VAD, это принимает вход частотного диапазона.

Свойства

развернуть все

Если в противном случае не обозначено, свойства являются ненастраиваемыми, что означает, что вы не можете изменить их значения после вызова объекта. Объекты блокируют, когда вы вызываете их, и release функция разблокировала их.

Если свойство является настраиваемым, можно изменить его значение в любое время.

Для получения дополнительной информации об изменении значений свойств смотрите Разработку системы в MATLAB Используя Системные объекты.

`InputDomain` — Область входного сигнала
`'Time'` (значение по умолчанию) | `'Frequency'`

Область входного сигнала в виде 'Time' или 'Frequency'.

Настраиваемый: нет

Типы данных: char | string

`FFTLength` — Длина БПФ
`[]` (значение по умолчанию) | положительная скалярная величина

Длина БПФ в виде положительной скалярной величины. Значением по умолчанию является [], что означает что FFTLength равно количеству строк входа.

Настраиваемый: нет

Зависимости

Чтобы включить это свойство, установите InputDomain на 'Time'.

Типы данных: single | double

`Window` — Функция окна для БПФ
`'Hann'` (значение по умолчанию) | `'Chebyshev'` | `'Flat Top'` | `'Hamming'` | `'Kaiser'` | `'Rectangular'`

Функция окна временного интервала, примененная прежде, чем вычислить преобразование Фурье дискретного времени (DTFT) в виде 'Hann', 'Rectangular', 'Flat Top', 'Hamming', 'Chebyshev', или 'Kaiser'.

Функция окна создана с использованием алгоритмы следующих функций:

Hann –– hann
Чебышев –– chebwin
Стрижка под ежика –– flattopwin
Хэмминг –– hamming
Кайзер –– kaiser

Настраиваемый: нет

Зависимости

Чтобы включить это свойство, установите InputDomain на 'Time'.

Типы данных: char | string

`SidelobeAttenuation` — Затухание бокового лепестка окна (дБ)
60 (значение по умолчанию) | действительная положительная скалярная величина

Затухание бокового лепестка окна в дБ в виде действительной положительной скалярной величины.

Настраиваемый: нет

Зависимости

Чтобы включить это свойство, установите InputDomain на 'Time' и окно к 'Chebyshev' или 'Kaiser'.

Типы данных: single | double

`SilenceToSpeechProbability` — Вероятность перехода от системы координат тишины к системе координат речи
0.2 (значение по умолчанию) | скаляр в области значений [0,1]

Вероятность перехода от системы координат тишины к системе координат речи в виде скаляра в области значений [0,1].

Настраиваемый: да

Типы данных: single | double

`SpeechToSilenceProbability` — Вероятность перехода от системы координат речи в системе координат тишины
0.1 (значение по умолчанию) | скаляр в области значений [0,1]

Вероятность перехода от системы координат речи в системе координат тишины в виде скаляра в области значений [0,1].

Настраиваемый: да

Типы данных: single | double

Использование

Синтаксис

[probability,noiseEstimate]
= VAD(audioIn)

Описание

пример

[probability,noiseEstimate] = VAD(audioIn) применяет речевой детектор действия на вход, audioIn, и возвращает вероятность, что речь присутствует. Это также возвращает предполагаемую шумовую дисперсию на интервал частоты.

Входные параметры

развернуть все

`audioIn` — Аудиовход, чтобы озвучить детектор действия
скаляр | вектор | матрица

Аудиовход к речевому детектору действия в виде скаляра, вектора или матрицы. Если audioIn матрица, столбцы обработаны как независимые звуковые каналы.

Размер аудиовхода заблокирован после первого вызова voiceActivityDetector объект. Изменить размер audioIn, вызвать release на объекте.

Если InputDomain установлен в 'Time', audioIn должно быть с действительным знаком. Если InputDomain установлен в 'Frequency', audioIn может быть с действительным знаком или с комплексным знаком.

Типы данных: single | double
Поддержка комплексного числа: Да

Выходные аргументы

развернуть все

`probability` — Вероятность, что речь присутствует
скаляр | вектор-строка

Вероятность, что речь присутствует, возвратилась как скалярный или вектор-строка с одинаковым числом столбцов как audioIn.

Типы данных: single | double

`noiseEstimate` — Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

Оценка шумового отклонения на интервал частоты, возвращенный как вектор-столбец или матрица с одинаковым числом столбцов как audioIn.

Типы данных: single | double

Функции объекта

Чтобы использовать объектную функцию, задайте Системный объект как первый входной параметр. Например, чтобы выпустить системные ресурсы Системного объекта под названием obj, используйте этот синтаксис:

release(obj)

развернуть все

Характерный для всех системных объектов

`clone`	Создайте объект дублированной системы
`isLocked`	Определите, используется ли Системный объект
`release`	Высвободите средства и позвольте изменения в значениях свойств Системного объекта и введите характеристики
`reset`	Сбросьте внутренние состояния Системного объекта
`step`	Запустите алгоритм Системного объекта

Примеры

свернуть все

Обнаружьте речевое действие

Открыть скрипт

Используйте voiceActivityDetector по умолчанию Система object™, чтобы обнаружить присутствие речи в сигнале передачи потокового аудио.

Создайте читателя звукового файла, чтобы передать звуковой файл потоком для обработки. Задайте параметры, чтобы разделить звуковой сигнал на блоки в 10 мс, неперекрывающих системы координат.

fileReader = dsp.AudioFileReader('Counting-16-44p1-mono-15secs.wav');
fs = fileReader.SampleRate;
fileReader.SamplesPerFrame = ceil(10e-3*fs);

Создайте voiceActivityDetector по умолчанию Системный объект, чтобы обнаружить присутствие речи в звуковом файле.

VAD = voiceActivityDetector;

Создайте осциллограф, чтобы построить звуковой сигнал и соответствующую вероятность речевого присутствия, как обнаружено речевым детектором действия. Создайте средство записи аудио устройства, чтобы проигрывать аудио через вашу звуковую карту.

scope = timescope( ...
    'NumInputPorts',2, ...
    'SampleRate',fs, ...
    'TimeSpanSource','Property','TimeSpan',3, ...
    'BufferLength',3*fs, ...
    'YLimits',[-1.5 1.5], ...
    'TimeSpanOverrunAction','Scroll', ...
    'ShowLegend',true, ...
    'ChannelNames',{'Audio','Probability of speech presence'});
deviceWriter = audioDeviceWriter('SampleRate',fs);

В цикле аудиопотока:

Читайте из звукового файла.
Вычислите вероятность речевого присутствия.
Визуализируйте звуковой сигнал и речевую вероятность присутствия.
Проигрывайте звуковой сигнал через свою звуковую карту.

while ~isDone(fileReader)
    audioIn = fileReader();
    probability = VAD(audioIn);
    scope(audioIn,probability*ones(fileReader.SamplesPerFrame,1))
    deviceWriter(audioIn);
end

Обнаружьте речевое действие Используя перекрытые системы координат

Открыть скрипт

Используйте речевой детектор действия, чтобы обнаружить присутствие речи в звуковом сигнале. Постройте вероятность речевого присутствия наряду с аудиосэмплами.

Создайте dsp.AudioFileReader Система object™, чтобы считать речевой файл.

afr = dsp.AudioFileReader('Counting-16-44p1-mono-15secs.wav');
fs = afr.SampleRate;

Разделите аудио на блоки в системы координат на 20 мс с 75%-м перекрытием между последовательными системами координат. Преобразуйте время системы координат в секундах к выборкам. Определите размер транзитного участка (шаг новых выборок). В читателе звукового файла, набор выборки на систему координат к размеру транзитного участка. Создайте dsp.AsyncBuffer по умолчанию объект справиться с наложением между аудио системами координат.

frameSize = ceil(20e-3*fs);
overlapSize = ceil(0.75*frameSize);
hopSize = frameSize - overlapSize;
afr.SamplesPerFrame = hopSize;

inputBuffer = dsp.AsyncBuffer('Capacity',frameSize);

Создайте voiceActivityDetector Системный объект. Задайте длину БПФ 1 024.

VAD = voiceActivityDetector('FFTLength',1024);

Создайте осциллограф, чтобы построить звуковой сигнал и соответствующую вероятность речевого присутствия, как обнаружено речевым детектором действия. Создайте audioDeviceWriter Системный объект, чтобы проигрывать аудио через вашу звуковую карту.

scope = timescope('NumInputPorts',2, ...
    'SampleRate',fs, ...
    'TimeSpanSource','Property','TimeSpan',3, ...
    'BufferLength',3*fs, ...
    'YLimits',[-1.5,1.5], ...
    'TimeSpanOverrunAction','Scroll', ...
    'ShowLegend',true, ...
    'ChannelNames',{'Audio','Probability of speech presence'});

player = audioDeviceWriter('SampleRate',fs);

Инициализируйте вектор, чтобы содержать значения вероятности.

pHold = ones(hopSize,1);

В цикле аудиопотока:

Считайте ценность транзитного участка выборок от звукового файла и сохраните выборки в буфер.
Считайте систему координат из буфера с заданным перекрытием от предыдущей системы координат.
Вызовите речевой детектор действия, чтобы получить вероятность речи для системы координат при анализе.
Установите последний элемент вектора вероятности к новому решению вероятности. Визуализируйте аудио и речевую вероятность присутствия с помощью осциллографа времени.
Проигрывайте аудио через свою звуковую карту.
Установите вектор вероятности на новый результат для графического вывода в следующем цикле.

while ~isDone(afr)
    x = afr();
    n = write(inputBuffer,x);

    overlappedInput = read(inputBuffer,frameSize,overlapSize);

    p = VAD(overlappedInput);

    pHold(end) = p;
    scope(x,pHold)

    player(x);

    pHold(:) = p;
end

Выпустите player если аудио закончило вопроизводить.

release(player)

Речевое обнаружение действия частотного диапазона и извлечение признаков Cepstral

Скрипт Open Live Script

Много методов извлечения признаков работают с частотным диапазоном. Преобразование звукового сигнала к частотному диапазону только однажды эффективно. В этом примере вы преобразуете сигнал передачи потокового аудио в частотный диапазон и канал, которые сигнализируют в речевой детектор действия. Если речь присутствует, функции mel-частоты cepstral коэффициентов (MFCC) извлечены из сигнала частотного диапазона использование cepstralFeatureExtractor System object™.

Создайте dsp.AudioFileReader Системный объект, чтобы читать из звукового файла.

fileReader = dsp.AudioFileReader('Counting-16-44p1-mono-15secs.wav');
fs = fileReader.SampleRate;

Обработайте аудио в системах координат на 30 мс с транзитным участком на 10 мс. Создайте dsp.AsyncBuffer по умолчанию объект управлять перекрытием между аудио системами координат.

samplesPerFrame = ceil(0.03*fs);
samplesPerHop = ceil(0.01*fs);
samplesPerOverlap = samplesPerFrame - samplesPerHop;

fileReader.SamplesPerFrame = samplesPerHop;
buffer = dsp.AsyncBuffer;

Создайте voiceActivityDetector Системный объект и cepstralFeatureExtractor Системный объект. Укажите, что они действуют в частотном диапазоне. Создайте dsp.SignalSink регистрировать извлеченные функции cepstral.

VAD = voiceActivityDetector('InputDomain','Frequency');
cepFeatures = cepstralFeatureExtractor('InputDomain','Frequency','SampleRate',fs,'LogEnergy','Replace');
sink = dsp.SignalSink;

В цикле аудиопотока:

Считайте один транзитный участок выборок от звукового файла и сохраните выборки в буфер.
Считайте систему координат из buffer с заданным перекрытием от предыдущей системы координат.
Вызовите речевой детектор действия, чтобы получить вероятность речи для системы координат при анализе.
Если система координат при анализе имеет вероятность речи, больше, чем 0,75, извлечение cepstral функции, и регистрируйте функции с помощью приемника сигнала. Если система координат при анализе имеет вероятность речи меньше чем 0,75, запишите вектор из NaNs к приемнику.

threshold = 0.75;
nanVector = nan(1,13);
while ~isDone(fileReader)
    audioIn = fileReader();
    write(buffer,audioIn);
    
    overlappedAudio = read(buffer,samplesPerFrame,samplesPerOverlap);
    X = fft(overlappedAudio,2048);
    
    probabilityOfSpeech = VAD(X);
    if probabilityOfSpeech > threshold
        xFeatures = cepFeatures(X);
        sink(xFeatures')
    else
        sink(nanVector)
    end
end

Визуализируйте cepstral коэффициенты в зависимости от времени.

timeVector = linspace(0,15,size(sink.Buffer,1));
plot(timeVector,sink.Buffer)
xlabel('Time (s)')
ylabel('MFCC Amplitude')
legend('Log-Energy','c1','c2','c3','c4','c5','c6','c7','c8','c9','c10','c11','c12')

Figure contains an axes object. The axes object contains 13 objects of type line. These objects represent Log-Energy, c1, c2, c3, c4, c5, c6, c7, c8, c9, c10, c11, c12.

Определите контур тангажа передачи потокового аудио

Скрипт Open Live Script

Создайте dsp.AudioFileReader возразите, чтобы читать в покадровом аудио.

fileReader = dsp.AudioFileReader('singing-a-major.ogg');

Создайте voiceActivityDetector объект обнаружить присутствие речи в передаче потокового аудио.

VAD = voiceActivityDetector;

В то время как существуют непрочитанные выборки, читайте из файла и определите вероятность, что система координат содержит речевое действие. Если система координат содержит речевое действие, вызовите pitch оценить основную частоту аудио системы координат. Если система координат не содержит речевое действие, объявите основную частоту как NaN.

f0 = [];
while ~isDone(fileReader)
    x = fileReader();
    
    if VAD(x) > 0.99
        decision = pitch(x,fileReader.SampleRate, ...
            "WindowLength",size(x,1), ...
            "OverlapLength",0, ...
            "Range",[200,340]);
    else
        decision = NaN;
    end
    f0 = [f0;decision];
end

Стройте обнаруженный контур тангажа в зависимости от времени.

t = linspace(0,(length(f0)*fileReader.SamplesPerFrame)/fileReader.SampleRate,length(f0));
plot(t,f0)
ylabel('Fundamental Frequency (Hz)')
xlabel('Time (s)')
grid on

Figure contains an axes object. The axes object contains an object of type line.

Алгоритмы

voiceActivityDetector реализует алгоритм, описанный в [1].

Если InputDomain задан как 'Time', входной сигнал является оконным и затем конвертированным к частотному диапазону согласно Window, SidelobeAttenuation, и FFTLength свойства. Если InputDomain задан как частота, вход принят, чтобы быть оконным преобразованием Фурье дискретного времени (DTFT) звукового сигнала. Сигнал затем преобразован в домен питания. Шумовое отклонение оценивается согласно [2]. Следующий и предшествующий ОСШ оценивается согласно формуле Минимальной среднеквадратичной погрешности (MMSE), описанной в [3]. Логарифмический тест отношения правдоподобия и Скрытая модель Маркова (HMM) - базирующаяся схема похмелья определяет вероятность, что текущая система координат содержит речь, согласно [1].

Ссылки

[1] Зон, Jongseo., Нэм Су Ким и Вонюн Сун. "Статистическое основанное на модели речевое обнаружение действия". Обработка сигналов обозначает буквами IEEE. Издание 6, № 1, 1999.

[2] Мартин, R. "Оценка Спектральной плотности мощности шума На основе Оптимального Сглаживания и Минимальной Статистики". Транзакции IEEE о Речи и Обработке аудиоданных. Издание 9, № 5, 2001, стр 504–512.

[3] Эфраим, Y. и Д. Мала. "Речевое Улучшение Используя Минимальное Короткое время Среднеквадратичной погрешности Спектральное Амплитудное Средство оценки". Транзакции IEEE на Акустике, Речи и Обработке сигналов. Издание 32, № 6, 1984, стр 1109–1121.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Указания и ограничения по применению:

Системные объекты в Генерации кода MATLAB (MATLAB Coder)

Введенный в R2018a

Документация

voiceActivityDetector

Описание

Создание

Синтаксис

Описание

Свойства

`InputDomain` — Область входного сигнала
`'Time'` (значение по умолчанию) | `'Frequency'`

`FFTLength` — Длина БПФ
`[]` (значение по умолчанию) | положительная скалярная величина

Зависимости

`Window` — Функция окна для БПФ
`'Hann'` (значение по умолчанию) | `'Chebyshev'` | `'Flat Top'` | `'Hamming'` | `'Kaiser'` | `'Rectangular'`

Зависимости

`SidelobeAttenuation` — Затухание бокового лепестка окна (дБ)
60 (значение по умолчанию) | действительная положительная скалярная величина

Зависимости

`SilenceToSpeechProbability` — Вероятность перехода от системы координат тишины к системе координат речи
0.2 (значение по умолчанию) | скаляр в области значений [0,1]

`SpeechToSilenceProbability` — Вероятность перехода от системы координат речи в системе координат тишины
0.1 (значение по умолчанию) | скаляр в области значений [0,1]

Использование

Синтаксис

Описание

Входные параметры

`audioIn` — Аудиовход, чтобы озвучить детектор действия
скаляр | вектор | матрица

Выходные аргументы

`probability` — Вероятность, что речь присутствует
скаляр | вектор-строка

`noiseEstimate` — Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

Функции объекта

Характерный для всех системных объектов

Примеры

Обнаружьте речевое действие

Обнаружьте речевое действие Используя перекрытые системы координат

Речевое обнаружение действия частотного диапазона и извлечение признаков Cepstral

Определите контур тангажа передачи потокового аудио

Алгоритмы

Ссылки

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Смотрите также

Документация Audio Toolbox

Поддержка

Документация

voiceActivityDetector

Описание

Создание

Синтаксис

Описание

Свойства

InputDomain — Область входного сигнала 'Time' (значение по умолчанию) | 'Frequency'

FFTLength — Длина БПФ [] (значение по умолчанию) | положительная скалярная величина

Зависимости

Window — Функция окна для БПФ 'Hann' (значение по умолчанию) | 'Chebyshev' | 'Flat Top' | 'Hamming' | 'Kaiser' | 'Rectangular'

Зависимости

SidelobeAttenuation — Затухание бокового лепестка окна (дБ)60 (значение по умолчанию) | действительная положительная скалярная величина

Зависимости

SilenceToSpeechProbability — Вероятность перехода от системы координат тишины к системе координат речи0.2 (значение по умолчанию) | скаляр в области значений [0,1]

SpeechToSilenceProbability — Вероятность перехода от системы координат речи в системе координат тишины0.1 (значение по умолчанию) | скаляр в области значений [0,1]

Использование

Синтаксис

Описание

Входные параметры

audioIn — Аудиовход, чтобы озвучить детектор действия скаляр | вектор | матрица

Выходные аргументы

probability — Вероятность, что речь присутствует скаляр | вектор-строка

noiseEstimate — Оценка шумового отклонения на интервал частоты вектор-столбец | матрица

Функции объекта

Характерный для всех системных объектов

Примеры

Обнаружьте речевое действие

Обнаружьте речевое действие Используя перекрытые системы координат

Речевое обнаружение действия частотного диапазона и извлечение признаков Cepstral

Определите контур тангажа передачи потокового аудио

Алгоритмы

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью MATLAB® Coder™.

Смотрите также

Документация Audio Toolbox

Поддержка

`InputDomain` — Область входного сигнала
`'Time'` (значение по умолчанию) | `'Frequency'`

`FFTLength` — Длина БПФ
`[]` (значение по умолчанию) | положительная скалярная величина

`Window` — Функция окна для БПФ
`'Hann'` (значение по умолчанию) | `'Chebyshev'` | `'Flat Top'` | `'Hamming'` | `'Kaiser'` | `'Rectangular'`

`SidelobeAttenuation` — Затухание бокового лепестка окна (дБ)
60 (значение по умолчанию) | действительная положительная скалярная величина

`SilenceToSpeechProbability` — Вероятность перехода от системы координат тишины к системе координат речи
0.2 (значение по умолчанию) | скаляр в области значений [0,1]

`SpeechToSilenceProbability` — Вероятность перехода от системы координат речи в системе координат тишины
0.1 (значение по умолчанию) | скаляр в области значений [0,1]

`audioIn` — Аудиовход, чтобы озвучить детектор действия
скаляр | вектор | матрица

`probability` — Вероятность, что речь присутствует
скаляр | вектор-строка

`noiseEstimate` — Оценка шумового отклонения на интервал частоты
вектор-столбец | матрица

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.