ivector

Извлечение i-вектора

Синтаксис

w = ivector(ivs,data)

w = ivector(___,'ApplyProjectionMatrix',TF)

Описание

w = ivector(ivs,data) извлекает i-векторы из входа data.

w = ivector(___,'ApplyProjectionMatrix',TF) задает, применять ли матрицу проекции, определенную с помощью trainClassifier.

Примеры

свернуть все

Обучите систему распознавания слов

Этот пример использует:

Открыть Live Script

Система i-векторов состоит из обучаемого переднего плана, который учится извлекать i-векторы на основе немеченых данных, и обучаемого бэкенда, который учится классифицировать i-векторы на основе маркированных данных. В этом примере вы применяете i-векторную систему к задаче распознавания слов. Сначала оцените точность i-векторной системы с помощью классификаторов, входящих в традиционную i-векторную систему: вероятностного линейного дискриминантного анализа (PLDA) и оценки косинусоидальности (CSS). Затем оцените точность системы, если вы заменяете классификатор на двунаправленную сеть долгой краткосрочной памяти (BiLSTM) или классификатор ближайших К соседей.

Создайте наборы обучения и валидации

Загрузите Free Spoken Digit Dataset (FSDD) [1]. FSDD состоит из коротких аудио файлов с разговорными цифрами (0-9).

url = "https://ssd.mathworks.com/supportfiles/audio/FSDD.zip";
downloadFolder = tempdir;
datasetFolder = fullfile(downloadFolder,'FSDD');

if ~exist(datasetFolder,'dir')
    fprintf('Downloading Free Spoken Digit Dataset ...\n')
    unzip(url,datasetFolder)
end

Создайте audioDatastore указать на записи. Получите частоту дискретизации набора данных.

ads = audioDatastore(datasetFolder,'IncludeSubfolders',true);
[~,adsInfo] = read(ads);
fs = adsInfo.SampleRate;

Первый элемент имен файлов является цифрой, произнесенной в файле. Получите первый элемент имен файлов, преобразуйте их в категориальные, а затем установите Labels свойство audioDatastore.

[~,filenames] = cellfun(@(x)fileparts(x),ads.Files,'UniformOutput',false);
ads.Labels = categorical(string(cellfun(@(x)x(1),filenames)));

Чтобы разделить datastore на набор разработки и набор валидации, используйте splitEachLabel. Выделите 80% данных для разработки и оставшиеся 20% для валидации.

[adsTrain,adsValidation] = splitEachLabel(ads,0.8);

Оценка традиционной эффективности бэкенда i-векторов

Создайте i-векторную систему, которая ожидает аудио входа со скоростью дискретизации 8 кГц и не выполняет обнаружение речи.

wordRecognizer = ivectorSystem('DetectSpeech',false,"SampleRate",fs)

wordRecognizer = 
  ivectorSystem with properties:

         InputType: 'audio'
        SampleRate: 8000
      DetectSpeech: 0
    EnrolledLabels: [0×2 table]

Обучите экстрактор i-вектора, используя данные в набор обучающих данных.

trainExtractor(wordRecognizer,adsTrain, ...
    "UBMNumComponents",512, ...
    "UBMNumIterations",5, ...
    ...
    "TVSRank",128, ...
    "TVSNumIterations",3);

Calculating standardization factors ....done.
Training universal background model ........done.
Training total variability space ...done.
i-vector extractor training complete.

Обучите классификатор i-векторов, используя данные в наборе обучающих данных и соответствующие метки.

trainClassifier(wordRecognizer,adsTrain,adsTrain.Labels, ...
    "NumEigenvectors",16, ...
    ...
    "PLDANumDimensions",16, ...
    "PLDANumIterations",3);

Extracting i-vectors ...done.
Training projection matrix .....done.
Training PLDA model ......done.
i-vector classifier training complete.

Регистрируйте метки в системе, используя весь набор обучающих данных.

enroll(wordRecognizer,adsTrain,adsTrain.Labels)

Extracting i-vectors ...done.
Enrolling i-vectors .............done.
Enrollment complete.

В цикле считайте аудио из datastore валидации, идентифицируйте наиболее вероятное слово, присутствующее в соответствии с заданным оценщиком, и сохраните предсказание для анализа.

trueLabels = adsValidation.Labels;
predictedLabels = trueLabels;

reset(adsValidation)

scorer = "plda";
for ii = 1: numel (trueLabels)
    
    audioIn = read (adsValidation);
    
    to = identification (wordRecognizer, audioIn, scorer);
    
    predictedLabels (ii) = to. Метка (1);
    
end

Отобразите график неточностей эффективности i-векторной системы на наборе валидации.

figure('Units','normalized','Position',[0.2 0.2 0.5 0.5])
confusionchart(trueLabels,predictedLabels, ...
    'ColumnSummary','column-normalized', ...
    'RowSummary','row-normalized', ...
    'Title',sprintf('Accuracy = %0.2f (%%)',100*mean(predictedLabels==trueLabels)))

Оцените эффективность бэкенда глубокого обучения

Затем обучите полносвязную сеть, используя i-векторы в качестве входов.

ivectorsTrain = (ivector(wordRecognizer,adsTrain))';
ivectorsValidation = (ivector(wordRecognizer,adsValidation))';

Определите полносвязную сеть.

layers = [ ...
    featureInputLayer(size(ivectorsTrain,2),'Normalization',"none")
    fullyConnectedLayer(128)
    dropoutLayer(0.4)
    fullyConnectedLayer(256)
    dropoutLayer(0.4)
    fullyConnectedLayer(256)
    dropoutLayer(0.4)
    fullyConnectedLayer(128)
    dropoutLayer(0.4)
    fullyConnectedLayer(numel(unique(adsTrain.Labels)))
    softmaxLayer
    classificationLayer];

Задайте параметры обучения.

miniBatchSize = 256;
validationFrequency = floor(numel(adsTrain.Labels)/miniBatchSize);
options = trainingOptions("adam", ...
    "MaxEpochs",10, ...
    "MiniBatchSize",miniBatchSize, ...
    "Plots","training-progress", ...
    "Verbose",false, ...
    "Shuffle","every-epoch", ...
    "ValidationData",{ivectorsValidation,adsValidation.Labels}, ...
    "ValidationFrequency",validationFrequency);

Обучите сеть.

net = trainNetwork(ivectorsTrain,adsTrain.Labels,layers,options);

Оцените эффективность бэкенда глубокого обучения с помощью графика неточностей.

predictedLabels = classify(net,ivectorsValidation);
trueLabels = adsValidation.Labels;

figure('Units','normalized','Position',[0.2 0.2 0.5 0.5])
confusionchart(trueLabels,predictedLabels, ...
    'ColumnSummary','column-normalized', ...
    'RowSummary','row-normalized', ...
    'Title',sprintf('Accuracy = %0.2f (%%)',100*mean(predictedLabels==trueLabels)))

Оценка эффективности KNN Backend

Обучите и оцените i-векторы с k-ближайших соседей (KNN) бэкэндом.

Использование fitcknn для обучения модели KNN.

classificationKNN = fitcknn(...
    ivectorsTrain, ...
    adsTrain.Labels, ...
    'Distance','Euclidean', ...
    'Exponent',[], ...
    'NumNeighbors',10, ...
    'DistanceWeight','SquaredInverse', ...
    'Standardize',true, ...
    'ClassNames',unique(adsTrain.Labels));

Оцените бэкэнд KNN.

predictedLabels = predict(classificationKNN,ivectorsValidation);
trueLabels = adsValidation.Labels;

figure('Units','normalized','Position',[0.2 0.2 0.5 0.5])
confusionchart(trueLabels,predictedLabels, ...
    'ColumnSummary','column-normalized', ...
    'RowSummary','row-normalized', ...
    'Title',sprintf('Accuracy = %0.2f (%%)',100*mean(predictedLabels==trueLabels)))

Ссылки

[1] Якобовски. Jakobovski/Free-Spoken-Digit-Dataset (неопр.) (недоступная ссылка). GitHub, 30 мая 2019 года. https://github.com/Jakobovski/free-spoken-digit-dataset.

Входные параметры

свернуть все

`ivs` - i-векторная система
`ivectorSystem` объект

i-векторная система, заданная как объект типа ivectorSystem.

`data` - Данные для преобразования
Вектора-столбца | ячеек | `audioDatastore` | `signalDatastore` | `TransformedDatastore`

Данные для преобразования, заданные как массив ячеек или как audioDatastore, signalDatastore, или TransformedDatastore объект.

Если InputType установлен в 'audio' когда i-векторная система будет создана, задайте data как одно из следующего:
- Вектор-столбец с базовым типом single или double.
- Массив ячеек из одноканальных аудиосигналов, каждый из которых задан как вектор-столбец с базовым типом single или double.
- Система координат audioDatastore объект или signalDatastore объект, который указывает на набор данных моно аудиосигналов.
- A TransformedDatastore с базовым audioDatastore или signalDatastore который указывает на набор данных моно аудиосигналов. Значение выхода из вызовов в read от преобразования datastore должны быть моно-аудиосигналы с базовым типом данных single или double.
Если InputType установлен в 'features' когда i-векторная система будет создана, задайте data как одно из следующего:
- Матрица с базовым типом single или double. Матрица должна состоять из аудио функций, где количество функций (столбцов) блокируется с первого раза trainExtractor вызывается, и количество переходов (строк) изменяется. Количество признаков, вводимых в любые последующие вызовы любой из функций объекта, должно быть равно количеству функций, используемых при вызове trainExtractor.
- Массив ячеек из матриц с базовым типом single или double. Матрицы должны состоять из аудио функций, где количество функций (столбцов) блокируется с первого раза trainExtractor вызывается, и количество переходов (строк) изменяется. Количество признаков, вводимых в любые последующие вызовы любой из функций объекта, должно быть равно количеству функций, используемых при вызове trainExtractor.
- A TransformedDatastore объект с базовым audioDatastore или signalDatastore чей read функция имеет вывод, как описано в предыдущей пуле.
- A signalDatastore объект, чей read функция имеет вывод, как описано в первой пуле.

Типы данных: cell | audioDatastore | signalDatastore

`TF` - Применить проекционную матрицу
`true` | `false`

Указывает, определена ли матрица проекции линейного дискриминантного анализа (LDA) и ковариационной нормализации внутри класса (WCCN) с использованием trainClassifier применяется.

Если проекционная матрица была обучена, то ApplyProjectionMatrix по умолчанию является true.
Если проекционная матрица не была обучена, то ApplyProjectionMatrix по умолчанию является false и не может быть задано как true.

Типы данных: logical

Выходные аргументы

свернуть все

`w` - i-векторы
Вектор-столбец | матрица

Извлеченные i-векторы, возвращенные как вектор-столбец или матрица. Количество столбцов w равно количеству входных сигналов. Количество строк w - размерность i-вектора.

См. также

Введенный в R2021a

Документация

ivector

Синтаксис

Описание

Примеры

Обучите систему распознавания слов

Входные параметры

`ivs` - i-векторная система
`ivectorSystem` объект

`data` - Данные для преобразования
Вектора-столбца | ячеек | `audioDatastore` | `signalDatastore` | `TransformedDatastore`

`TF` - Применить проекционную матрицу
`true` | `false`

Выходные аргументы

`w` - i-векторы
Вектор-столбец | матрица

См. также

Документация Audio Toolbox

Поддержка

Документация

ivector

Синтаксис

Описание

Примеры

Обучите систему распознавания слов

Входные параметры

ivs - i-векторная система ivectorSystem объект

data - Данные для преобразования Вектора-столбца | ячеек | audioDatastore | signalDatastore | TransformedDatastore

TF - Применить проекционную матрицу true | false

Выходные аргументы

w - i-векторы Вектор-столбец | матрица

См. также

Документация Audio Toolbox

Поддержка

`ivs` - i-векторная система
`ivectorSystem` объект

`data` - Данные для преобразования
Вектора-столбца | ячеек | `audioDatastore` | `signalDatastore` | `TransformedDatastore`

`TF` - Применить проекционную матрицу
`true` | `false`

`w` - i-векторы
Вектор-столбец | матрица