Верификация типа «динамик» или аутентификация - это задача подтверждения того, что тождества динамика являются тем, кем они считаются. Верификация спикера была активной исследовательской областью на протяжении многих лет. Ранним прорывом в эффективности было использование смешанной гауссовской модели и универсальной фоновой модели (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для получения примера смотрите Динамик Верификации Использование Смешанных гауссовских моделей. Одна из основных трудностей систем GMM-UBM заключается в межсессионной изменчивости. Совместный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость, отдельно моделируя переменность между динамиками и переменность канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить пространства канала и динамика в общее пространство переменности. Затем интерсессионную изменчивость компенсировали с помощью процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как счет подобия косинуса. [5] предложил заменить оценку подобия косинуса вероятностной моделью LDA (PLDA). [11] и [12] предложили способ Гауссианизации i-векторов и, следовательно, сделать Гауссовы предположения в PLDA, называемые G-PLDA или упрощенной PLDA. В то время как i-векторы были первоначально предложены для верификации диктора, они были применены ко многим проблемам, таким как распознавание языка, диаризация диктора, распознавание эмоций, оценка возраста и анти-спуфинг [10]. Недавно были предложены методы глубокого обучения, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].