Классифицировать звук с помощью глубокого обучения

В этом примере используются:

В этом примере показано, как классифицировать звук с помощью процессов глубокого обучения.

Создание набора данных

Создание 1000 сигналов белого шума, 1000 сигналов коричневого шума и 1000 сигналов розового шума. Каждый сигнал представляет длительность 0,5 секунды, предполагая частоту дискретизации 44,1 кГц.

fs = 44.1e3;
duration = 0.5;
N = duration*fs;

wNoise = 2*rand([N,1000]) - 1;
wLabels = repelem(categorical("white"),1000,1);

bNoise = filter(1,[1,-0.999],wNoise);
bNoise = bNoise./max(abs(bNoise),[],'all');
bLabels = repelem(categorical("brown"),1000,1);

pNoise = pinknoise([N,1000]);
pLabels = repelem(categorical("pink"),1000,1);

Обзор набора данных

Прослушать сигнал белого шума и визуализировать его с помощью melSpectrogram function.

sound(wNoise(:,1),fs)
melSpectrogram(wNoise(:,1),fs)
title('White Noise')

Проверьте сигнал коричневого шума.

sound(bNoise(:,1),fs)
melSpectrogram(bNoise(:,1),fs)
title('Brown Noise')

Проверьте сигнал розового шума.

sound(pNoise(:,1),fs)
melSpectrogram(pNoise(:,1),fs)
title('Pink Noise')

Разделение набора данных на группы и наборы проверки

Создайте обучающий набор, который состоит из 800 сигналов белого шума, 800 сигналов коричневого шума и 800 сигналов розового шума.

audioTrain = [wNoise(:,1:800),bNoise(:,1:800),pNoise(:,1:800)];
labelsTrain = [wLabels(1:800);bLabels(1:800);pLabels(1:800)];

Создайте набор проверки с использованием оставшихся 200 сигналов белого шума, 200 сигналов коричневого шума и 200 сигналов розового шума.

audioValidation = [wNoise(:,801:end),bNoise(:,801:end),pNoise(:,801:end)];
labelsValidation = [wLabels(801:end);bLabels(801:end);pLabels(801:end)];

Извлечь элементы

Аудиоданные имеют высокую размерность и обычно содержат избыточную информацию. Можно уменьшить размерность, сначала извлекая элементы, а затем обучая модель, используя извлеченные элементы. Создание audioFeatureExtractor изобретение позволяет выделить центроид и наклон спектра металла с течением времени.

aFE = audioFeatureExtractor("SampleRate",fs, ...
    "SpectralDescriptorInput","melSpectrum", ...
    "spectralCentroid",true, ...
    "spectralSlope",true);

Вызовите extract для извлечения функций из обучающих аудиоданных.

featuresTrain = extract(aFE,audioTrain);
[numHopsPerSequence,numFeatures,numSignals] = size(featuresTrain)

numHopsPerSequence = 42

numFeatures = 2

numSignals = 2400

На следующем шаге извлеченные элементы будут рассматриваться как последовательности и использовать sequenceInputLayer как первый уровень вашей модели глубокого обучения. При использовании sequenceInputLayer как первый уровень в сети, trainNetwork ожидает, что данные обучения и проверки будут отформатированы в массивах ячеек последовательностей, где каждая последовательность состоит из векторов признаков с течением времени. sequenceInputLayer требуется, чтобы измерение времени находилось вдоль второго измерения.

featuresTrain = permute(featuresTrain,[2,1,3]);
featuresTrain = squeeze(num2cell(featuresTrain,[1,2]));

numSignals = numel(featuresTrain)

numSignals = 2400

[numFeatures,numHopsPerSequence] = size(featuresTrain{1})

numFeatures = 2

numHopsPerSequence = 42

Извлеките элементы проверки.

featuresValidation = extract(aFE,audioValidation);
featuresValidation = permute(featuresValidation,[2,1,3]);
featuresValidation = squeeze(num2cell(featuresValidation,[1,2]));

Определение и обучение сети

Определите архитектуру сети. Дополнительные сведения см. в разделе Список слоев глубокого обучения (панель инструментов глубокого обучения).

layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(50,"OutputMode","last")
    fullyConnectedLayer(numel(unique(labelsTrain)))
    softmaxLayer
    classificationLayer];

Для определения вариантов обучения используйте trainingOptions (инструментарий глубокого обучения).

options = trainingOptions("adam", ...
    "Shuffle","every-epoch", ...
    "ValidationData",{featuresValidation,labelsValidation}, ...
    "Plots","training-progress", ...
    "Verbose",false);

Для обучения сети используйте trainNetwork (инструментарий глубокого обучения).

net = trainNetwork(featuresTrain,labelsTrain,layers,options);

Тестирование сети

Используйте обученную сеть для классификации новых сигналов белого, коричневого и розового шума.

wNoiseTest = 2*rand([N,1]) - 1;
classify(net,extract(aFE,wNoiseTest)')

ans = categorical
     white

bNoiseTest = filter(1,[1,-0.999],wNoiseTest);
bNoiseTest= bNoiseTest./max(abs(bNoiseTest),[],'all');
classify(net,extract(aFE,bNoiseTest)')

ans = categorical
     brown

pNoiseTest = pinknoise(N);
classify(net,extract(aFE,pNoiseTest)')

ans = categorical
     pink

См. также

Аудиомаркировщик | audioDataAugmenter | audioDatastore | audioFeatureExtractor

Документация