classifySound

Классификация звуков в аудиосигнале

Свернуть все на странице

Синтаксис

sounds = classifySound(audioIn,fs)

sounds = classifySound(audioIn,fs,Name,Value)

[sounds,timestamps] = classifySound(___)

[sounds,timestamps,resultsTable] = classifySound(___)

classifySound(___)

Описание

пример

sounds = classifySound(audioIn,fs) возвращает классы звука, обнаруженные во времени во входе звука, audioIn, со скоростью дискретизации fs.

пример

sounds = classifySound(audioIn,fs,Name,Value) задает опции с использованием одного или нескольких Name,Value аргументы в виде пар.

Пример: sounds = classifySound(audioIn,fs,'SpecificityLevel','low') классифицирует звуки с использованием низкой специфичности.

пример

[sounds,timestamps] = classifySound(___) также возвращает метки времени, сопоставленные с каждым обнаруженным звуком.

пример

[sounds,timestamps,resultsTable] = classifySound(___) также возвращает таблицу, содержащую подробные данные результатов.

пример

classifySound(___) без выходных аргументов создает облако слов идентифицированных звуков в аудиосигнале.

Эта функция требует как Audio Toolbox™, так и Deep Learning Toolbox™.

Примеры

свернуть все

Загрузка `classifySound`

Попробовать в MATLAB

Загрузите и разархивируйте поддержку Audio Toolbox™ для YAMNet.

Если поддержка Audio Toolbox для YAMNet не установлена, то первый вызов функции предоставляет ссылку на расположение загрузки. Чтобы скачать модель, щелкните ссылку. Разархивируйте файл в местоположении по пути MATLAB.

Также выполните следующие команды, чтобы загрузить и разархивировать модель YAMNet во временную директорию.

downloadFolder = fullfile(tempdir,'YAMNetDownload');
loc = websave(downloadFolder,'https://ssd.mathworks.com/supportfiles/audio/yamnet.zip');
YAMNetLocation = tempdir;
unzip(loc,YAMNetLocation)
addpath(fullfile(YAMNetLocation,'yamnet'))

Идентифицируйте цветной шум

Этот пример использует:

Попробовать в MATLAB

Сгенерируйте 1 секунду розового шума, принимая частоту дискретизации 16 кГц.

fs = 16e3;
x = pinknoise(fs);

Функции classifySound с розовым сигналом шума и частотой дискретизации.

identifiedSound = classifySound(x,fs)

identifiedSound = 
"Pink noise"

Идентифицируйте и определите местоположение звуков во времени

Этот пример использует:

Попробовать в MATLAB

Считывайте аудиосигнал. Функции classifySound для возврата обнаруженных звуков и соответствующих меток времени.

[audioIn,fs] = audioread('multipleSounds-16-16-mono-18secs.wav');
[sounds,timeStamps] = classifySound(audioIn,fs);

Постройте график аудиосигнала и пометьте обнаруженные области звука.

t = (0:numel(audioIn)-1)/fs;
plot(t,audioIn)
xlabel('Time (s)')
axis([t(1),t(end),-1,1])

textHeight = 1.1;
for idx = 1:numel(sounds)
    patch([timeStamps(idx,1),timeStamps(idx,1),timeStamps(idx,2),timeStamps(idx,2)], ...
        [-1,1,1,-1], ...
        [0.3010 0.7450 0.9330], ...
        'FaceAlpha',0.2);
    text(timeStamps(idx,1),textHeight+0.05*(-1)^idx,sounds(idx))
end

Выберите область и прослушивайте только выбранную область.

sampleStamps = floor(timeStamps*fs)+1;
soundEvent = 3;

isolatedSoundEvent = audioIn (sampleStamps (soundEvent, 1): sampleStamps (soundEvent, 2));
звук (isolatedSoundEvent, fs);
отображение ('Detected Sound = ' + звуки (soundEvent))

    "Detected Sound = Snoring"

Идентифицируйте только определенные звуки

Этот пример использует:

Попробовать в MATLAB

Считывайте в аудиосигнале, содержащем несколько различных звуковых событий.

[audioIn,fs] = audioread('multipleSounds-16-16-mono-18secs.wav');

Функции classifySound с аудиосигналом и частотой дискретизации.

[sounds,~,soundTable] = classifySound(audioIn,fs);

The sounds Строковые массивы содержат наиболее вероятное звуковое событие в каждой области.

sounds

sounds = 1×5 string
    "Stream"    "Machine gun"    "Snoring"    "Bark"    "Meow"

The soundTable содержит подробную информацию относительно звуков, обнаруженных в каждой области, включая средство счета и максимумы по анализируемому сигналу.

soundTable

soundTable=5×2 table
       TimeStamps         Results  
    ________________    ___________

         0      3.92    {4×3 table}
    4.0425    6.0025    {3×3 table}
      6.86    9.1875    {2×3 table}
    10.658    12.373    {4×3 table}
    12.985     16.66    {4×3 table}

Просмотр последней обнаруженной области.

soundTable.Results{end}

ans=4×3 table
             Sounds             AverageScores    MaxScores
    ________________________    _____________    _________

    "Animal"                       0.79514        0.99941 
    "Domestic animals, pets"       0.80243        0.99831 
    "Cat"                           0.8048        0.99046 
    "Meow"                          0.6342        0.90177

Функции classifySound снова. На этот раз установите IncludedSounds на Animal так что функция сохраняет только области, в которых Animal обнаружен класс звука.

[sounds,timeStamps,soundTable] = classifySound(audioIn,fs, ...
    'IncludedSounds','Animal');

Массив звуков возвращает только звуки, заданные как включенные звуки. The sounds массив теперь содержит два образцов Animal которые соответствуют областям, объявленной как Bark и Meow ранее.

sounds

sounds = 1×2 string
    "Animal"    "Animal"

Звуковая таблица включает только области, в которых были обнаружены указанные классы звука.

soundTable

soundTable=2×2 table
       TimeStamps         Results  
    ________________    ___________

    10.658    12.373    {4×3 table}
    12.985     16.66    {4×3 table}

Просмотр последней обнаруженной области в soundTable. Таблица результатов по-прежнему включает статистику по всем обнаруженным звукам в области.

soundTable.Results{end}

ans=4×3 table
             Sounds             AverageScores    MaxScores
    ________________________    _____________    _________

    "Animal"                       0.79514        0.99941 
    "Domestic animals, pets"       0.80243        0.99831 
    "Cat"                           0.8048        0.99046 
    "Meow"                          0.6342        0.90177

Чтобы исследовать, какие классы звука поддерживаются classifySound, использовать yamnetGraph.

Исключить определенные звуки

Этот пример использует:

Попробовать в MATLAB

Считывайте аудиосигнал и вызывайте classifySound осматривать наиболее вероятные звуки, расположенные в хронологическом порядке обнаружения.

[audioIn,fs] = audioread("multipleSounds-16-16-mono-18secs.wav");
sounds = classifySound(audioIn,fs)

sounds = 1×5 string
    "Stream"    "Machine gun"    "Snoring"    "Bark"    "Meow"

Функции classifySound снова и установите ExcludedSounds на Meow чтобы исключить звук Meow из результатов. Сегмент, ранее классифицированный как Meow теперь классифицируется как Cat, который является его непосредственным предшественником в онтологии AudioSet.

sounds = classifySound(audioIn,fs,"ExcludedSounds","Meow")

sounds = 1×5 string
    "Stream"    "Machine gun"    "Snoring"    "Bark"    "Cat"

Функции classifySound снова и установите ExcludedSounds на Cat. Когда вы исключаете звук, все преемники также исключены. Это означает, что исключение звука Cat также исключает звук Meow. Сегмент первоначально классифицировался как Meow теперь классифицируется как Domestic animals, pets, который является непосредственным предшественником Cat в онтологии AudioSet.

sounds = classifySound(audioIn,fs,"ExcludedSounds","Cat")

sounds = 1×5 string
    "Stream"    "Machine gun"    "Snoring"    "Bark"    "Domestic animals, pets"

Функции classifySound снова и установите ExcludedSounds на Domestic animals, pets. Класс звука, Domestic animals, pets является предшественником обоих Bark и Meow, таким образом, исключив его, звуки, ранее идентифицированные как Bark и Meow теперь оба идентифицируются как предшественники Domestic animals, pets, что Animal.

sounds = classifySound(audioIn,fs,"ExcludedSounds","Domestic animals, pets")

sounds = 1×5 string
    "Stream"    "Machine gun"    "Snoring"    "Animal"    "Animal"

Функции classifySound снова и установите ExcludedSounds на Animal. Класс звука Animal не имеет предшественников.

sounds = classifySound(audioIn,fs,"ExcludedSounds","Animal")

sounds = 1×3 string
    "Stream"    "Machine gun"    "Snoring"

Если вы хотите избежать обнаружения Meow и его предшественники, но продолжайте обнаруживать преемников под теми же предшественниками, используйте IncludedSounds опция. Функции yamnetGraph чтобы получить список всех поддерживаемых классов. Удаление Meow и его предшественников из массива всех классов, а затем вызывать classifySound снова.

[~,classes] = yamnetGraph;
classesToInclude = setxor(classes,["Meow","Cat","Domestic animals, pets","Animal"]);
sounds = classifySound(audioIn,fs,"IncludedSounds",classesToInclude)

sounds = 1×4 string
    "Stream"    "Machine gun"    "Snoring"    "Bark"

Сгенерируйте облако Word

Этот пример использует:

Попробовать в MATLAB

Считывайте аудиосигнал и слушайте его.

[audioIn,fs] = audioread('multipleSounds-16-16-mono-18secs.wav');
sound(audioIn,fs)

Функции classifySound без выходных аргументов для генерации облака слов обнаруженных звуков.

classifySound(audioIn,fs);

Измените параметры по умолчанию classifySound чтобы исследовать эффект на облако слов.

threshold = 0.1;
minimumSoundSeparation = 0.92;
minimumSoundDuration = 1.02;

classifySound (audioIn,  fs,...
    'Threshold', порог ,...
    'MinimumSoundSeparation', minimumSoundSeparation ,...
    'MinimumSoundDuration', minimumSoundDuration);