ivector

Извлеките i-вектор

Синтаксис

w = ivector(ivs,data)

w = ivector(ivs,data,Name,Value)

Описание

w = ivector(ivs,data) i-векторы извлечений от входа data.

w = ivector(ivs,data,Name,Value) задает дополнительные опции с помощью аргументов name-value. Можно выбрать аппаратный ресурс для извлечения i-векторов и применить ли матрицу проекции от trainClassifier.

Примеры

свернуть все

Обучите систему распознавания слов

Этот пример использует:

Скрипт Open Live Script

Система i-вектора состоит из обучаемого фронтэнда, который изучает, как извлечь i-векторы на основе непомеченных данных и обучаемый бэкэнд, который изучает, как классифицировать i-векторы на основе маркированных данных. В этом примере вы применяете систему i-вектора к задаче распознавания слов. Во-первых, оцените точность системы i-вектора с помощью классификаторов, включенных в традиционную систему i-вектора: вероятностный линейный дискриминантный анализ (PLDA) и выигрыш подобия косинуса (CSS). Затем оцените точность системы, если вы заменяете классификатор на двунаправленную длинную краткосрочную сеть (BiLSTM) памяти или классификатор K - ближайших соседей.

Создайте наборы обучения и валидации

Загрузите Свободный разговорный набор данных цифры (FSDD) [1]. FSDD состоит из коротких звуковых файлов с разговорными цифрами (0-9).

loc = matlab.internal.examples.downloadSupportFile('audio','FSDD.zip');
unzip(loc,pwd)

Создайте audioDatastore указать на записи. Получите частоту дискретизации набора данных.

ads = audioDatastore(pwd,'IncludeSubfolders',true);
[~,adsInfo] = read(ads);
fs = adsInfo.SampleRate;

Первым элементом имен файлов является цифра, на которой говорят в файле. Получите первый элемент имен файлов, преобразуйте их в категориальный, и затем установите Labels свойство audioDatastore.

[~,filenames] = cellfun(@(x)fileparts(x),ads.Files,'UniformOutput',false);
ads.Labels = categorical(string(cellfun(@(x)x(1),filenames)));

Чтобы разделить datastore в набор разработки и набор валидации, используйте splitEachLabel. Выделите 80% данных для разработки и остающиеся 20% для валидации.

[adsTrain,adsValidation] = splitEachLabel(ads,0.8);

Оцените Традиционную Эффективность Бэкэнда i-вектора

Создайте систему i-вектора, которая ожидает аудиовход на уровне частоты дискретизации 8 кГц и не выполняет речевое обнаружение.

wordRecognizer = ivectorSystem('DetectSpeech',false,"SampleRate",fs)

wordRecognizer = 
  ivectorSystem with properties:

         InputType: 'audio'
        SampleRate: 8000
      DetectSpeech: 0
    EnrolledLabels: [0×2 table]

Обучите экстрактор i-вектора с помощью данных в наборе обучающих данных.

trainExtractor(wordRecognizer,adsTrain, ...
    "UBMNumComponents",64, ...
    "UBMNumIterations",5, ...
    ...
    "TVSRank",32, ...
    "TVSNumIterations",5);

Calculating standardization factors ....done.
Training universal background model ........done.
Training total variability space ........done.
i-vector extractor training complete.

Обучите классификатор i-вектора с помощью данных в обучающем наборе данных и соответствующих метках.

trainClassifier(wordRecognizer,adsTrain,adsTrain.Labels, ...
    "NumEigenvectors",12, ...
    ...
    "PLDANumDimensions",10, ...
    "PLDANumIterations",5);

Extracting i-vectors ...done.
Training projection matrix .....done.
Training PLDA model ........done.
i-vector classifier training complete.

Зарегистрируйте метки в систему с помощью целого набора обучающих данных.

enroll(wordRecognizer,adsTrain,adsTrain.Labels)

Extracting i-vectors ...done.
Enrolling i-vectors .............done.
Enrollment complete.

В цикле считайте аудио из datastore валидации, идентифицируйте наиболее вероятный подарок слова согласно заданному маркеру и сохраните предсказание для анализа.

trueLabels = adsValidation.Labels;
predictedLabels = trueLabels;

reset(adsValidation)

scorer = "plda";
for ii = 1:numel (trueLabels)
    
    audioIn = читают (adsValidation);
    
    к = идентифицируют (wordRecognizer, audioIn, маркер);
    
    predictedLabels (ii) = to.Label (1);
    
end

Отобразите график беспорядка эффективности системы i-вектора на наборе валидации.

figure('Units','normalized','Position',[0.2 0.2 0.5 0.5])
confusionchart(trueLabels,predictedLabels, ...
    'ColumnSummary','column-normalized', ...
    'RowSummary','row-normalized', ...
    'Title',sprintf('Accuracy = %0.2f (%%)',100*mean(predictedLabels==trueLabels)))

Оцените эффективность бэкэнда глубокого обучения

Затем обучите полностью соединенную сеть с помощью i-векторов в качестве входа.

ivectorsTrain = (ivector(wordRecognizer,adsTrain))';
ivectorsValidation = (ivector(wordRecognizer,adsValidation))';

Задайте полностью соединенную сеть.

layers = [ ...
    featureInputLayer(size(ivectorsTrain,2),'Normalization',"none")
    fullyConnectedLayer(128)
    dropoutLayer(0.4)
    fullyConnectedLayer(256)
    dropoutLayer(0.4)
    fullyConnectedLayer(256)
    dropoutLayer(0.4)
    fullyConnectedLayer(128)
    dropoutLayer(0.4)
    fullyConnectedLayer(numel(unique(adsTrain.Labels)))
    softmaxLayer
    classificationLayer];

Задайте параметры обучения.

miniBatchSize = 256;
validationFrequency = floor(numel(adsTrain.Labels)/miniBatchSize);
options = trainingOptions("adam", ...
    "MaxEpochs",10, ...
    "MiniBatchSize",miniBatchSize, ...
    "Plots","training-progress", ...
    "Verbose",false, ...
    "Shuffle","every-epoch", ...
    "ValidationData",{ivectorsValidation,adsValidation.Labels}, ...
    "ValidationFrequency",validationFrequency);

Обучите сеть.

net = trainNetwork(ivectorsTrain,adsTrain.Labels,layers,options);

Оцените эффективность бэкэнда глубокого обучения с помощью графика беспорядка.

predictedLabels = classify(net,ivectorsValidation);
trueLabels = adsValidation.Labels;

figure('Units','normalized','Position',[0.2 0.2 0.5 0.5])
confusionchart(trueLabels,predictedLabels, ...
    'ColumnSummary','column-normalized', ...
    'RowSummary','row-normalized', ...
    'Title',sprintf('Accuracy = %0.2f (%%)',100*mean(predictedLabels==trueLabels)))

Оцените эффективность бэкэнда KNN

Обучите и оцените i-векторы с бэкэндом k - ближайших соседей (KNN).

Используйте fitcknn обучать модель KNN.

classificationKNN = fitcknn(...
    ivectorsTrain, ...
    adsTrain.Labels, ...
    'Distance','Euclidean', ...
    'Exponent',[], ...
    'NumNeighbors',10, ...
    'DistanceWeight','SquaredInverse', ...
    'Standardize',true, ...
    'ClassNames',unique(adsTrain.Labels));

Оцените бэкэнд KNN.

predictedLabels = predict(classificationKNN,ivectorsValidation);
trueLabels = adsValidation.Labels;

figure('Units','normalized','Position',[0.2 0.2 0.5 0.5])
confusionchart(trueLabels,predictedLabels, ...
    'ColumnSummary','column-normalized', ...
    'RowSummary','row-normalized', ...
    'Title',sprintf('Accuracy = %0.2f (%%)',100*mean(predictedLabels==trueLabels)))

Ссылки

[1] Якобовский. "Jakobovski/Free-Spoken-Digit-Dataset". GitHub, 30 мая 2019. https://github.com/Jakobovski/free-spoken-digit-dataset.

Входные параметры

свернуть все

`ivs` — система i-вектора
`ivectorSystem` объект

система i-вектора в виде объекта типа ivectorSystem.

`data` — Данные, чтобы преобразовать
вектор-столбец | массив ячеек | `audioDatastore` | `signalDatastore` | `TransformedDatastore`

Данные, чтобы преобразовать в виде массива ячеек или как audioDatastore, signalDatastore, или TransformedDatastore объект.

Если InputType установлен в 'audio' когда система i-вектора будет создана, задайте data как один из них:
- Вектор-столбец с базовым типом single или double.
- Массив ячеек одноканальных звуковых сигналов, каждый заданный как вектор-столбец с базовым типом single или double.
- audioDatastore возразите или signalDatastore возразите что точки против набора данных моно звуковых сигналов.
- TransformedDatastore с базовым audioDatastore или signalDatastore это указывает на набор данных моно звуковых сигналов. Выход от вызовов до read от преобразования datastore должен быть моно звуковыми сигналами с базовым типом данных single или double.
Если InputType установлен в 'features' когда система i-вектора будет создана, задайте data как один из них:
- Матрица A с базовым типом single или double. Матрица должна состоять из функций аудио, где количество функций (столбцы) заблокировано в первый раз trainExtractor называется и количество транзитных участков (строки) переменного размера. Количество входа функций в любых последующих вызовах любой из объектных функций должно быть равно количеству функций, использованных при вызове trainExtractor.
- Массив ячеек матриц с базовым типом single или double. Матрицы должны состоять из функций аудио, где количество функций (столбцы) заблокировано в первый раз trainExtractor называется и количество транзитных участков (строки) переменного размера. Количество входа функций в любых последующих вызовах любой из объектных функций должно быть равно количеству функций, использованных при вызове trainExtractor.
- TransformedDatastore объект с базовым audioDatastore или signalDatastore чей read функция вывела как описано в предыдущем маркере.
- signalDatastore объект, чей read функция вывела как описано в первом маркере.

Типы данных: cell | audioDatastore | signalDatastore

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: ivector(ivs,data,'ApplyProjectionMatrix',false,'ExecutionEnvironment','parallel')

`ApplyProjectionMatrix` — Опция, чтобы применить матрицу проекции
`true` | `false`

Опция, чтобы применить матрицу проекции в виде логического значения. Этот аргумент задает, применить ли линейный дискриминантный анализ (LDA), и матрица проекции нормализации ковариации в классе (WCCN) определила использование trainClassifier.

Если матрица проекции была обучена, то ApplyProjectionMatrix значения по умолчанию к true.
Если матрица проекции не была обучена, то ApplyProjectionMatrix значения по умолчанию к false и не может быть установлен в true.

Типы данных: логический

`ExecutionEnvironment` — Аппаратный ресурс для выполнения
`"auto"` (значение по умолчанию) | `"cpu"` | `"gpu"` | `"multi-gpu"` | `"parallel"`

Аппаратный ресурс для выполнения в виде одного из них:

"auto" — Используйте графический процессор, если это доступно. В противном случае используйте центральный процессор.
"cpu" — Используйте центральный процессор.
"gpu" — Используйте графический процессор. Эта опция требует Parallel Computing Toolbox™.
"multi-gpu" — Используйте несколько графических процессоров на одной машине, с помощью локального параллельного пула на основе кластерного профиля по умолчанию. Если нет никакого текущего параллельного пула, программное обеспечение начинает параллельный пул с размера пула, равного количеству доступных графических процессоров. Эта опция требует Parallel Computing Toolbox.
"parallel" — Используйте локальный или удаленный параллельный пул на основе своего кластерного профиля по умолчанию. Если нет никакого текущего параллельного пула, программное обеспечение запускает тот с помощью кластерного профиля по умолчанию. Если пул имеет доступ к графическим процессорам, то только рабочие с помощью уникального графического процессора выполняют учебный расчет. Если пул не имеет графических процессоров, то обучение происходит на всех доступных рабочих центрального процессора. Эта опция требует Parallel Computing Toolbox.

Типы данных: char | string

`DispatchInBackground` — Опция, чтобы использовать постановку в очередь упреждающей выборки
`false` (значение по умолчанию) | `true`

Опция, чтобы использовать постановку в очередь упреждающей выборки при чтении из datastore в виде логического значения. Этот аргумент требует Parallel Computing Toolbox.

Типы данных: логический

Выходные аргументы

свернуть все

`w` — i-векторы
вектор-столбец | матрица

Извлеченные i-векторы, возвращенные как вектор-столбец или матрица. Количество столбцов w равно количеству входных сигналов. Количество строк w размерность i-вектора.

Введенный в R2021a

Документация

ivector

Синтаксис

Описание

Примеры

Обучите систему распознавания слов

Входные параметры

`ivs` — система i-вектора
`ivectorSystem` объект

`data` — Данные, чтобы преобразовать
вектор-столбец | массив ячеек | `audioDatastore` | `signalDatastore` | `TransformedDatastore`

Аргументы name-value

`ApplyProjectionMatrix` — Опция, чтобы применить матрицу проекции
`true` | `false`

`ExecutionEnvironment` — Аппаратный ресурс для выполнения
`"auto"` (значение по умолчанию) | `"cpu"` | `"gpu"` | `"multi-gpu"` | `"parallel"`

`DispatchInBackground` — Опция, чтобы использовать постановку в очередь упреждающей выборки
`false` (значение по умолчанию) | `true`

Выходные аргументы

`w` — i-векторы
вектор-столбец | матрица

Смотрите также

Документация Audio Toolbox

Поддержка

Документация

ivector

Синтаксис

Описание

Примеры

Обучите систему распознавания слов

Входные параметры

ivs — система i-вектора ivectorSystem объект

data — Данные, чтобы преобразовать вектор-столбец | массив ячеек | audioDatastore | signalDatastore | TransformedDatastore

Аргументы name-value

ApplyProjectionMatrix — Опция, чтобы применить матрицу проекции true | false

ExecutionEnvironment — Аппаратный ресурс для выполнения "auto" (значение по умолчанию) | "cpu" | "gpu" | "multi-gpu" | "parallel"

DispatchInBackground — Опция, чтобы использовать постановку в очередь упреждающей выборки false (значение по умолчанию) | true

Выходные аргументы

w — i-векторы вектор-столбец | матрица

Смотрите также

Документация Audio Toolbox

Поддержка

`ivs` — система i-вектора
`ivectorSystem` объект

`data` — Данные, чтобы преобразовать
вектор-столбец | массив ячеек | `audioDatastore` | `signalDatastore` | `TransformedDatastore`

`ApplyProjectionMatrix` — Опция, чтобы применить матрицу проекции
`true` | `false`

`ExecutionEnvironment` — Аппаратный ресурс для выполнения
`"auto"` (значение по умолчанию) | `"cpu"` | `"gpu"` | `"multi-gpu"` | `"parallel"`

`DispatchInBackground` — Опция, чтобы использовать постановку в очередь упреждающей выборки
`false` (значение по умолчанию) | `true`

`w` — i-векторы
вектор-столбец | матрица