yamnetPreprocess

Предварительная обработка аудио для классификации YAMNet

Синтаксис

features = yamnetPreprocess (audioIn, fs)

features = yamnetPreprocess (audioIn, fs, 'Процент изменения', OP)

Описание

features = yamnetPreprocess(audioIn,fs) генерирует спектрограммы из audioIn которые могут подаваться в предварительно подготовленную сеть ЯМНет.

features = yamnetPreprocess(audioIn,fs,'OverlapPercentage',OP) задает процент перекрытия между последовательными аудиокадрами.

Например, features = yamnetPreprocess(audioIn,fs,'OverlapPercentage',75) применяет 75% перекрытие между последовательными кадрами, используемыми для генерации спектрограмм.

Примеры

свернуть все

Скачать YAMNet

В этом примере используются:

Открыть сценарий в реальном времени

Загрузите и распакуйте модель Audio Toolbox™ для YAMNet.

Напечатать yamnet в окне команд. Если модель Audio Toolbox для YAMNet не установлена, то функция предоставляет ссылку на расположение весов сети. Чтобы загрузить модель, щелкните ссылку. Распакуйте файл в папку по пути MATLAB.

Либо выполните следующие команды для загрузки и распаковки модели YAMNet во временную папку.

downloadFolder = fullfile(tempdir,'YAMNetDownload');
loc = websave(downloadFolder,'https://ssd.mathworks.com/supportfiles/audio/yamnet.zip');
YAMNetLocation = tempdir;
unzip(loc,YAMNetLocation)
addpath(fullfile(YAMNetLocation,'yamnet'))

Убедитесь, что установка выполнена успешно, введя yamnet в окне команд. Если сеть установлена, то функция возвращает SeriesNetwork(Панель инструментов глубокого обучения).

yamnet

ans = 
  SeriesNetwork with properties:

         Layers: [86×1 nnet.cnn.layer.Layer]
     InputNames: {'input_1'}
    OutputNames: {'Sound'}

Подготовленная нагрузка ЯМНет

В этом примере используются:

Открыть сценарий в реальном времени

Загрузите предварительно обученную сверточную нейронную сеть YAMNet и изучите слои и классы.

Использовать yamnet для загрузки предварительно обученной сети YAMNet. Выходная сетка представляет собой SeriesNetwork(Панель инструментов глубокого обучения).

net = yamnet

net = 
  SeriesNetwork with properties:

         Layers: [86×1 nnet.cnn.layer.Layer]
     InputNames: {'input_1'}
    OutputNames: {'Sound'}

Просмотр сетевой архитектуры с помощью Layers собственность. Сеть насчитывает 86 уровней. Существует 28 слоев с обучаемыми весами: 27 сверточных слоев и 1 полностью связанный слой.

net.Layers

ans = 
  86x1 Layer array with layers:

     1   'input_1'                    Image Input              96×64×1 images
     2   'conv2d'                     Convolution              32 3×3×1 convolutions with stride [2  2] and padding 'same'
     3   'b'                          Batch Normalization      Batch normalization with 32 channels
     4   'activation'                 ReLU                     ReLU
     5   'depthwise_conv2d'           Grouped Convolution      32 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
     6   'L11'                        Batch Normalization      Batch normalization with 32 channels
     7   'activation_1'               ReLU                     ReLU
     8   'conv2d_1'                   Convolution              64 1×1×32 convolutions with stride [1  1] and padding 'same'
     9   'L12'                        Batch Normalization      Batch normalization with 64 channels
    10   'activation_2'               ReLU                     ReLU
    11   'depthwise_conv2d_1'         Grouped Convolution      64 groups of 1 3×3×1 convolutions with stride [2  2] and padding 'same'
    12   'L21'                        Batch Normalization      Batch normalization with 64 channels
    13   'activation_3'               ReLU                     ReLU
    14   'conv2d_2'                   Convolution              128 1×1×64 convolutions with stride [1  1] and padding 'same'
    15   'L22'                        Batch Normalization      Batch normalization with 128 channels
    16   'activation_4'               ReLU                     ReLU
    17   'depthwise_conv2d_2'         Grouped Convolution      128 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    18   'L31'                        Batch Normalization      Batch normalization with 128 channels
    19   'activation_5'               ReLU                     ReLU
    20   'conv2d_3'                   Convolution              128 1×1×128 convolutions with stride [1  1] and padding 'same'
    21   'L32'                        Batch Normalization      Batch normalization with 128 channels
    22   'activation_6'               ReLU                     ReLU
    23   'depthwise_conv2d_3'         Grouped Convolution      128 groups of 1 3×3×1 convolutions with stride [2  2] and padding 'same'
    24   'L41'                        Batch Normalization      Batch normalization with 128 channels
    25   'activation_7'               ReLU                     ReLU
    26   'conv2d_4'                   Convolution              256 1×1×128 convolutions with stride [1  1] and padding 'same'
    27   'L42'                        Batch Normalization      Batch normalization with 256 channels
    28   'activation_8'               ReLU                     ReLU
    29   'depthwise_conv2d_4'         Grouped Convolution      256 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    30   'L51'                        Batch Normalization      Batch normalization with 256 channels
    31   'activation_9'               ReLU                     ReLU
    32   'conv2d_5'                   Convolution              256 1×1×256 convolutions with stride [1  1] and padding 'same'
    33   'L52'                        Batch Normalization      Batch normalization with 256 channels
    34   'activation_10'              ReLU                     ReLU
    35   'depthwise_conv2d_5'         Grouped Convolution      256 groups of 1 3×3×1 convolutions with stride [2  2] and padding 'same'
    36   'L61'                        Batch Normalization      Batch normalization with 256 channels
    37   'activation_11'              ReLU                     ReLU
    38   'conv2d_6'                   Convolution              512 1×1×256 convolutions with stride [1  1] and padding 'same'
    39   'L62'                        Batch Normalization      Batch normalization with 512 channels
    40   'activation_12'              ReLU                     ReLU
    41   'depthwise_conv2d_6'         Grouped Convolution      512 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    42   'L71'                        Batch Normalization      Batch normalization with 512 channels
    43   'activation_13'              ReLU                     ReLU
    44   'conv2d_7'                   Convolution              512 1×1×512 convolutions with stride [1  1] and padding 'same'
    45   'L72'                        Batch Normalization      Batch normalization with 512 channels
    46   'activation_14'              ReLU                     ReLU
    47   'depthwise_conv2d_7'         Grouped Convolution      512 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    48   'L81'                        Batch Normalization      Batch normalization with 512 channels
    49   'activation_15'              ReLU                     ReLU
    50   'conv2d_8'                   Convolution              512 1×1×512 convolutions with stride [1  1] and padding 'same'
    51   'L82'                        Batch Normalization      Batch normalization with 512 channels
    52   'activation_16'              ReLU                     ReLU
    53   'depthwise_conv2d_8'         Grouped Convolution      512 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    54   'L91'                        Batch Normalization      Batch normalization with 512 channels
    55   'activation_17'              ReLU                     ReLU
    56   'conv2d_9'                   Convolution              512 1×1×512 convolutions with stride [1  1] and padding 'same'
    57   'L92'                        Batch Normalization      Batch normalization with 512 channels
    58   'activation_18'              ReLU                     ReLU
    59   'depthwise_conv2d_9'         Grouped Convolution      512 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    60   'L101'                       Batch Normalization      Batch normalization with 512 channels
    61   'activation_19'              ReLU                     ReLU
    62   'conv2d_10'                  Convolution              512 1×1×512 convolutions with stride [1  1] and padding 'same'
    63   'L102'                       Batch Normalization      Batch normalization with 512 channels
    64   'activation_20'              ReLU                     ReLU
    65   'depthwise_conv2d_10'        Grouped Convolution      512 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    66   'L111'                       Batch Normalization      Batch normalization with 512 channels
    67   'activation_21'              ReLU                     ReLU
    68   'conv2d_11'                  Convolution              512 1×1×512 convolutions with stride [1  1] and padding 'same'
    69   'L112'                       Batch Normalization      Batch normalization with 512 channels
    70   'activation_22'              ReLU                     ReLU
    71   'depthwise_conv2d_11'        Grouped Convolution      512 groups of 1 3×3×1 convolutions with stride [2  2] and padding 'same'
    72   'L121'                       Batch Normalization      Batch normalization with 512 channels
    73   'activation_23'              ReLU                     ReLU
    74   'conv2d_12'                  Convolution              1024 1×1×512 convolutions with stride [1  1] and padding 'same'
    75   'L122'                       Batch Normalization      Batch normalization with 1024 channels
    76   'activation_24'              ReLU                     ReLU
    77   'depthwise_conv2d_12'        Grouped Convolution      1024 groups of 1 3×3×1 convolutions with stride [1  1] and padding 'same'
    78   'L131'                       Batch Normalization      Batch normalization with 1024 channels
    79   'activation_25'              ReLU                     ReLU
    80   'conv2d_13'                  Convolution              1024 1×1×1024 convolutions with stride [1  1] and padding 'same'
    81   'L132'                       Batch Normalization      Batch normalization with 1024 channels
    82   'activation_26'              ReLU                     ReLU
    83   'global_average_pooling2d'   Global Average Pooling   Global average pooling
    84   'dense'                      Fully Connected          521 fully connected layer
    85   'softmax'                    Softmax                  softmax
    86   'Sound'                      Classification Output    crossentropyex with 'Speech' and 520 other classes

Для просмотра имен классов, полученных сетью, можно просмотреть Classes свойство выходного уровня классификации (конечный уровень). Просмотрите первые 10 классов, указав первые 10 элементов.

net.Layers(end).Classes(1:10)

ans = 10×1 categorical
     Speech 
     Child speech, kid speaking 
     Conversation 
     Narration, monologue 
     Babbling 
     Speech synthesizer 
     Shout 
     Bellow 
     Whoop 
     Yell

Использовать analyzeNetwork (Deep Learning Toolbox) для визуального изучения сети.

analyzeNetwork(net)

YAMNet был выпущен с соответствующей онтологией звукового класса, которую можно исследовать с помощью yamnetGraph объект.

ygraph = yamnetGraph;
p = plot(ygraph);
layout(p,'layered')

Граф онтологии строит график всех 521 возможных классов звука. Постройте подграф звуков, связанных с дыхательными звуками.

allRespiratorySounds = dfsearch(ygraph,"Respiratory sounds");
ygraphSpeech = subgraph(ygraph,allRespiratorySounds);
plot(ygraphSpeech)

Предварительная обработка звука и классификация звуков с помощью YAMNet

В этом примере используются:

Открыть сценарий в реальном времени

Считывание звукового сигнала.

[audioIn,fs] = audioread('SpeechDFT-16-8-mono-5secs.wav');

Постройте график и прослушайте звуковой сигнал.

T = 1/fs;
t = 0:T:(length(audioIn)*T) - T;
plot(t,audioIn);
grid on
xlabel('Time (t)')
ylabel('Ampltiude')

soundsc(audioIn,fs)

Использовать yamnetPreprocess извлекают спектрограммы из звукового сигнала. Визуализация произвольной спектрограммы из массива.

melSpectYam = yamnetPreprocess(audioIn,fs);

arbSpect = melSpectYam(:,:,1,randi(size(melSpectYam,4)));
surf(arbSpect,'EdgeColor','none')
view([90,-90])
axis([1 size(arbSpect,1) 1 size(arbSpect,2)])
xlabel('Mel Band')
ylabel('Frame')
title('Mel Spectrogram for YAMNet')
axis tight

Создание нейронной сети YAMNet (для этого требуется инструментарий глубокого обучения). Звонить classify с сетью YAMNet и предварительно обработанными спектрограммами.

net = yamnet;
classes = classify(net,melSpectYam);

Классифицируйте звуковой сигнал как наиболее часто встречающийся звук.

mySound = mode(classes)

mySound = categorical
     Speech

Входные аргументы

свернуть все

`audioIn` - Входной сигнал
вектор столбца | матрица

Входной сигнал, заданный как вектор столбца или матрица. Если указать матрицу, yamnetPreprocess обрабатывает столбцы матрицы как отдельные аудиоканалы.

Типы данных: single | double

`fs` - Частота дискретизации (Гц)
положительный скаляр

Частота дискретизации входного сигнала в Гц, заданная как положительный скаляр.

Типы данных: single | double

`OP` - Процент перекрытия между последовательными спектрограммами
`50` (по умолчанию) | скаляр в диапазоне [0,100)

Процентное перекрытие между последовательными спектрограммами mel, определяемое как пара, разделенная запятыми, состоящая из 'OverlapPercentage' и скаляр в диапазоне [0,100).

Типы данных: single | double

Выходные аргументы

свернуть все

`features` - спектрограммы Mel, которые могут подаваться в предварительно подготовленную сеть YAMNet;
`96`около-`64`около-`1`Массив -by-K

Спектрограммы Mel, полученные из audioIn, возвращено как 96около-64около-1массив -by-K, где:

96 - Представляет количество кадров 10 мс в каждой спектрограмме mel
64 - Число полос mel, охватывающих от 125 Гц до 7,5 кГц
K - число спектрограмм и зависит от длины audioIn, количество каналов в audioInА также OverlapPercentage
Примечание
Каждый 96около-64около-1 пластырь представляет одно изображение спектрограммы mel. Для многоканальных входов спектрограммы mel укладываются вдоль четвертого размера.

Типы данных: single

Ссылки

[1] Gemmeke, Джорт Ф., и др. 2017 IEEE Международная конференция по акустике, обработке речи и сигналов (ICASSP), IEEE, 2017, стр. 776-80. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952261.

[2] Херши, Шон и др. Международная конференция IEEE 2017 по акустике, обработке речи и сигналов (ICASSP), IEEE, 2017, стр. 131-35. DOI.org (Crossref), doi:10.1109/ICASSP.2017.7952132.

Расширенные возможности

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™

См. также

classifySound | vggish | vggishPreprocess | yamnet | yamnetGraph

Представлен в R2021a

Документация

yamnetPreprocess

Синтаксис

Описание

Примеры

Скачать YAMNet

Подготовленная нагрузка ЯМНет

Предварительная обработка звука и классификация звуков с помощью YAMNet

Входные аргументы

`audioIn` - Входной сигнал
вектор столбца | матрица

`fs` - Частота дискретизации (Гц)
положительный скаляр

`OP` - Процент перекрытия между последовательными спектрограммами
`50` (по умолчанию) | скаляр в диапазоне [0,100)

Выходные аргументы

`features` - спектрограммы Mel, которые могут подаваться в предварительно подготовленную сеть YAMNet;
`96`около-`64`около-`1`Массив -by-K

Ссылки

Расширенные возможности

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™

См. также

Документация по панели инструментов Audio

Поддержка

Документация

yamnetPreprocess

Синтаксис

Описание

Примеры

Скачать YAMNet

Подготовленная нагрузка ЯМНет

Предварительная обработка звука и классификация звуков с помощью YAMNet

Входные аргументы

audioIn - Входной сигнал вектор столбца | матрица

fs - Частота дискретизации (Гц) положительный скаляр

OP - Процент перекрытия между последовательными спектрограммами 50 (по умолчанию) | скаляр в диапазоне [0,100)

Выходные аргументы

features - спектрограммы Mel, которые могут подаваться в предварительно подготовленную сеть YAMNet; 96около-64около-1Массив -by-K

Ссылки

Расширенные возможности

Создание кода C/C + + Создайте код C и C++ с помощью MATLAB ® Coder™

См. также

Документация по панели инструментов Audio

Поддержка

`audioIn` - Входной сигнал
вектор столбца | матрица

`fs` - Частота дискретизации (Гц)
положительный скаляр

`OP` - Процент перекрытия между последовательными спектрограммами
`50` (по умолчанию) | скаляр в диапазоне [0,100)

`features` - спектрограммы Mel, которые могут подаваться в предварительно подготовленную сеть YAMNet;
`96`около-`64`около-`1`Массив -by-K

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™