Разрешить изменение значений свойств и входных характеристик
Загрузите и распакуйте набор данных классификации звука среды. Этот набор данных состоит из записей, помеченных как один из 10 различных классов звука (ESC-10).
url = 'http://ssd.mathworks.com/supportfiles/audio/ESC-10.zip'; downloadFolder = tempdir; datasetFolder = fullfile(downloadFolder,'ESC-10'); if ~exist(datasetFolder,'dir') disp('Downloading ESC-10 ...') unzip(url,downloadFolder) end
Создание audioDatastore объект для управления данными и их разделения на наборы обучения и проверки. Звонить countEachLabel для отображения распределения классов звука и количества уникальных меток.
ads = audioDatastore(datasetFolder,'IncludeSubfolders',true,'LabelSource','foldernames'); countEachLabel(ads)
ans=10×2 table
Label Count
______________ _____
chainsaw 40
clock_tick 40
crackling_fire 40
crying_baby 40
dog 40
helicopter 40
rain 40
rooster 38
sea_waves 40
sneezing 40
Прослушайте один из файлов.
[audioIn,audioInfo] = read(ads); fs = audioInfo.SampleRate; sound(audioIn,fs) audioInfo.Label
ans = categorical
chainsaw
Разбейте хранилище данных на обучающие и тестовые наборы.
[adsTrain,adsTest] = splitEachLabel(ads,0.8);
Создание audioFeatureExtractor для извлечения всех возможных функций из звука.
afe = audioFeatureExtractor('SampleRate',fs, ... 'Window',hamming(round(0.03*fs),'periodic'), ... 'OverlapLength',round(0.02*fs)); params = info(afe,'all'); params = structfun(@(x)true,params,'UniformOutput',false); set(afe,params); afe
afe =
audioFeatureExtractor with properties:
Properties
Window: [1323×1 double]
OverlapLength: 882
SampleRate: 44100
FFTLength: []
SpectralDescriptorInput: 'linearSpectrum'
Enabled Features
linearSpectrum, melSpectrum, barkSpectrum, erbSpectrum, mfcc, mfccDelta
mfccDeltaDelta, gtcc, gtccDelta, gtccDeltaDelta, spectralCentroid, spectralCrest
spectralDecrease, spectralEntropy, spectralFlatness, spectralFlux, spectralKurtosis, spectralRolloffPoint
spectralSkewness, spectralSlope, spectralSpread, pitch, harmonicRatio
Disabled Features
none
To extract a feature, set the corresponding property to true.
For example, obj.mfcc = true, adds mfcc to the list of enabled features.
Создайте два каталога в текущей папке: train и test. Извлеките элементы из наборов данных обучения и тестирования и запишите их в соответствующие каталоги в виде файлов MAT. Предварительное извлечение функций позволяет сэкономить время при необходимости оценки различных комбинаций функций или конфигураций обучения.
mkdir('train') mkdir('test') outputType = ".mat"; writeall(adsTrain,'train','WriteFcn',@(x,y,z)writeFeatures(x,y,z,afe)) writeall(adsTest,'test','WriteFcn',@(x,y,z)writeFeatures(x,y,z,afe))
Создайте хранилища данных сигналов, чтобы указать на звуковые функции.
sdsTrain = signalDatastore('train','IncludeSubfolders',true); sdsTest = signalDatastore('train','IncludeSubfolders',true);
Создание массивов меток в том же порядке, что и signalDatastore файлы.
labelsTrain = categorical(extractBetween(sdsTrain.Files,'ESC-10\','\')); labelsTest = categorical(extractBetween(sdsTest.Files,'ESC-10\','\'));
Создайте хранилище данных преобразования из хранилищ данных сигнала, чтобы изолировать и использовать только нужные функции. Можно использовать выходные данные из info на audioFeatureExtractor для сопоставления выбранных элементов с индексом в матрице элементов. Можно поэкспериментировать с примером, выбрав различные элементы.
featureIndices = info(afe)
featureIndices = struct with fields:
linearSpectrum: [1×662 double]
melSpectrum: [663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694]
barkSpectrum: [695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726]
erbSpectrum: [727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769]
mfcc: [770 771 772 773 774 775 776 777 778 779 780 781 782]
mfccDelta: [783 784 785 786 787 788 789 790 791 792 793 794 795]
mfccDeltaDelta: [796 797 798 799 800 801 802 803 804 805 806 807 808]
gtcc: [809 810 811 812 813 814 815 816 817 818 819 820 821]
gtccDelta: [822 823 824 825 826 827 828 829 830 831 832 833 834]
gtccDeltaDelta: [835 836 837 838 839 840 841 842 843 844 845 846 847]
spectralCentroid: 848
spectralCrest: 849
spectralDecrease: 850
spectralEntropy: 851
spectralFlatness: 852
spectralFlux: 853
spectralKurtosis: 854
spectralRolloffPoint: 855
spectralSkewness: 856
spectralSlope: 857
spectralSpread: 858
pitch: 859
harmonicRatio: 860
idxToUse = [featureIndices.harmonicRatio, ... featureIndices.spectralRolloffPoint, ... featureIndices.spectralFlux, ... featureIndices.spectralSlope]; tdsTrain = transform(sdsTrain,@(x)x(:,idxToUse)); tdsTest = transform(sdsTest,@(x)x(:,idxToUse));
Создайте i-векторную систему, которая принимает входные данные элемента.
soundClassifier = ivectorSystem("InputType",'features');
Обучите экстрактор и классификатор с помощью обучающего комплекта.
trainExtractor(soundClassifier,tdsTrain,'UBMNumComponents',200,'TVSRank',150);
Calculating standardization factors ....done. Training universal background model .....done. Training total variability space ...done. i-vector extractor training complete.
trainClassifier(soundClassifier,tdsTrain,labelsTrain,'NumEigenvectors',50,'PLDANumDimensions',50)
Extracting i-vectors ...done. Training projection matrix .....done. Training PLDA model ........done. i-vector classifier training complete.
Зарегистрируйте метки из обучающего набора, чтобы создать шаблоны i-векторов для каждого из звуков окружающей среды.
enroll(soundClassifier,tdsTrain,labelsTrain)
Extracting i-vectors ...done. Enrolling i-vectors .............done. Enrollment complete.
Используйте identify функция на тестовом аппарате для возврата выводимой метки системы.
reset(tdsTest) inferredLabels = labelsTest; inferredLabels(:) = inferredLabels(1); scorer ="css"; for ii = 1:numel(labelsTest) features = read(tdsTest); tableOut = identify(soundClassifier,features,scorer,'NumCandidates',1); inferredLabels(ii) = tableOut.Label(1); end
Создайте матрицу путаницы для визуализации производительности тестового набора.
uniqueLabels = unique(labelsTest); cm = zeros(numel(uniqueLabels)); for ii = 1:numel(uniqueLabels) for jj = 1:numel(uniqueLabels) cm(ii,jj) = sum((labelsTest==uniqueLabels(ii)) & (inferredLabels==uniqueLabels(jj))); end end labelStrings = replace(string(uniqueLabels),"_"," "); heatmap(labelStrings,labelStrings,cm) colorbar off ylabel('True Labels') xlabel('Predicted Labels') accuracy = mean(inferredLabels==labelsTest); title(sprintf("Accuracy = %0.2f %%",accuracy*100))

Отпустите i-векторную систему.
release(soundClassifier)
Вспомогательные функции
function writeFeatures(audioIn,info,~,afe) % Extract features features = extract(afe,audioIn); % Replace the file extension of the suggested output name with MAT. filename = strrep(info.SuggestedOutputName,".wav",'.mat'); % Save the MFCC coefficients to the MAT file. save(filename,"features") end
ivs - i-векторная системаivectorSystem объектi-векторная система, указанная как объект типа ivectorSystem.
detectionErrorTradeoff | enroll | identify | info | ivector | ivectorSystem | trainClassifier | trainExtractor | unenroll | verify
Имеется измененная версия этого примера. Открыть этот пример с помощью изменений?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.