Машинное обучение и глубокое обучение для аудио

Управление набором данных, маркировка и увеличение; сегментация и редукция данных для аудио, речи и акустических приложений

Audio Toolbox™ предоставляет функциональные возможности для разработки машинного и глубокого обучения решений для аудио-, речевых и акустических приложений, включая идентификацию динамика, распознавание речевых команд, акустическое распознавание сцен и многое другое.

Использование audioDatastore для приема больших наборов аудио данных и параллельной обработки файлов.
Используйте Audio Labeler для создания наборов аудио данных путем аннотирования аудиозаписей вручную и автоматически.
Использование audioDataAugmenter создание рандомизированных трубопроводов встроенных или пользовательских способов обработки сигналов для увеличения и синтеза наборов аудио данных.
Использование audioFeatureExtractor извлечение комбинаций различных функций при совместном использовании промежуточных расчетов.

Audio Toolbox также предоставляет доступ к сторонним API для преобразования текста в речь и речи в текст, и включает предварительно обученные модели VGGish и YAMNet, чтобы можно было выполнять передачу обучения, классифицировать звуки и извлекать функцию встраивания. Использование предварительно обученных сетей требует Toolbox™ Deep Learning.

Управление и маркировка набора данных
Синтаксис, создание и маркировка больших наборов данных
Редукция данных
Спектрограмма Меля, MFCC, тангаж, спектральные дескрипторы
Увеличение количества данных
Увеличивающие трубопроводы, тангаж и время сдвига, время растяжения, объем управления и шум
Сегментация
Обнаружение и изоляция речи и других звуков
Предварительно обученные сети
Передайте обучение, классификацию звука, встроения функций
Речевая транскрипция и синтез
Используйте сторонние API для преобразования текста в речь и речи в текст
Генерация кода и поддержка графический процессор
Сгенерируйте портативные функции C/C + +/MEX и используйте графические процессоры для развертывания или ускорения обработки

Рекомендуемые примеры

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите модель глубокого обучения, которая обнаруживает наличие речевых команд в аудио. Пример использует набор данных речевых команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Speech Command Recognition Code Generation with Intel MKL-DNN

Генерация кода распознавания речевых команд с Intel MKL-DNN

Развертывание редукции данных и сверточной нейронной сети (CNN) для распознавания речевых команд на процессорах Intel ®. Чтобы сгенерировать редукцию данных и сетевой код, вы используете MATLAB Coder и библиотеку Intel Math Kernel Library для глубоких нейронных сетей (MKL-DNN). В этом примере сгенерированный код является исполняемой функцией MATLAB (MEX), которая вызывается скриптом MATLAB, который отображает предсказанную речевую команду вместе с сигналом временного интервала и слуховой спектрограммой. Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Открыть Live Script

Speech Command Recognition Code Generation on Raspberry Pi

Генерация кода распознавания команд речи на Raspberry Pi

Развертывание редукции данных и сверточной нейронной сети (CNN) для распознавания речевых команд в Raspberry Pi™. Чтобы сгенерировать редукцию данных и сетевой код, вы используете MATLAB Coder, MATLAB Support Package for Raspberry Pi Hardware и ARM ® Compute Library. В этом примере сгенерированный код является исполняемым файлом на вашем Raspberry Pi, который вызывается скриптом MATLAB, который отображает предсказанную речевую команду вместе с сигналом и слуховой спектрограммой. Взаимодействие между скриптом MATLAB и исполняемым файлом на вашем Raspberry Pi обрабатывается с помощью протокола пользовательской дейтаграммы (UDP). Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Открыть Live Script

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевого слова в шуме с использованием сетей MFCC и LSTM

Идентифицируйте ключевое слово в шумной речи с помощью нейронной сети для глубокого обучения. В частности, в примере используются двунаправленная сеть долгой краткосрочной памяти (BiLSTM) и мел-частотные кепстральные коэффициенты (MFCC).

Открыть Live Script

Denoise Speech Using Deep Learning Networks

Денуазируйте речь, используя Нейронные сети для глубокого обучения

Денуазируйте речевые сигналы, используя нейронные сети для глубокого обучения. В примере сравниваются два типа сетей, применяемых к одной и той же задаче: полносвязные и сверточные.

Открыть Live Script

Cocktail Party Source Separation Using Deep Learning Networks

Разделение источников коктейлей с использованием Нейронных сетей для глубокого обучения

Изолируйте речевой сигнал с помощью нейронной сети для глубокого обучения.

Открыть Live Script

Train Generative Adversarial Network (GAN) for Sound Synthesis

Обучите генеративную состязательную сеть (GAN) для синтеза звука

Обучите и используйте генеративную состязательную сеть (GAN), чтобы генерировать звуки.

Открыть скрипт

Speaker Identification Using Pitch and MFCC

Идентификация динамика с использованием тангажа и MFCC

Демонстрирует подход машинного обучения для идентификации людей на основе функций, извлеченных из записанной речи. Функциями, используемыми для обучения классификатора, являются тангаж озвученных сегментов речи и коэффициенты mel frequency cepstrum (MFCC). Это идентификация динамика с закрытой установкой: аудио тестируемого динамика сравнивается со всеми доступными моделями динамика (конечный набор) и возвращается ближайшее соответствие.

Открыть Live Script

Верификация динамика с использованием i-векторов

Верификация типа «динамик» или аутентификация - это задача подтверждения того, что тождества динамика являются тем, кем они считаются. Верификация спикера была активной исследовательской областью на протяжении многих лет. Ранним прорывом в эффективности было использование смешанной гауссовской модели и универсальной фоновой модели (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для получения примера смотрите Динамик Верификации Использование Смешанных гауссовских моделей. Одна из основных трудностей систем GMM-UBM заключается в межсессионной изменчивости. Совместный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость, отдельно моделируя переменность между динамиками и переменность канала или сеанса [2] [3]. Однако [4] обнаружил, что канальные факторы в JFA также содержат информацию о динамиках, и предложил объединить пространства канала и динамика в общее пространство переменности. Затем интерсессионную изменчивость компенсировали с помощью процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и ковариационная нормализация внутри класса (WCCN), с последующей оценкой, такой как счет подобия косинуса. [5] предложил заменить оценку подобия косинуса вероятностной моделью LDA (PLDA). [11] и [12] предложили способ Гауссианизации i-векторов и, следовательно, сделать Гауссовы предположения в PLDA, называемые G-PLDA или упрощенной PLDA. В то время как i-векторы были первоначально предложены для верификации диктора, они были применены ко многим проблемам, таким как распознавание языка, диаризация диктора, распознавание эмоций, оценка возраста и анти-спуфинг [10]. Недавно были предложены методы глубокого обучения, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].

Открыть Live Script

Документация Audio Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.