Машинное обучение и глубокое обучение для аудио

Управление набором данных, маркировка и увеличение; сегментация и извлечение признаков для аудио, речи и акустических приложений

Audio Toolbox™ обеспечивает функциональность, чтобы разработать решения для машинного и глубокого обучения для аудио, речи и акустических приложений включая идентификацию динамика, речевое распознавание команды, акустическое распознавание сцены, и многое другое.

Используйте audioDatastore поглощать большие наборы аудиоданных и файлы процесса параллельно.
Используйте Audio Labeler, чтобы создать наборы аудиоданных путем аннотирования аудиозаписей вручную и автоматически.
Используйте audioDataAugmenter создать рандомизированные трубопроводы встроенных или пользовательских методов обработки сигналов для увеличения и синтезирования наборов аудиоданных.
Используйте audioFeatureExtractor извлекать комбинации различных функций при совместном использовании промежуточных расчетов.

Audio Toolbox также обеспечивает доступ к сторонним API для текста к речи и речи в тексте, и это включает предварительно обученные модели VGGish и YAMNet так, чтобы можно было использовать обучение с переносом, классифицировать звуки и извлечь вложения функции. Используя предварительно обученные сети требует Deep Learning Toolbox™.

Управление набором данных и маркировка
Поглотите, создайте и пометьте большие наборы данных
Извлечение признаков
Спектрограмма Мэла, MFCC, тангаж, спектральные дескрипторы
Увеличение данных
Трубопроводы увеличения, тангаж сдвига и время, расширяют время, объем управления и шум
Сегментация
Обнаружьте и изолируйте речь и другие звуки
Предварительно обученные сети
Передача обучения, звуковая классификация, показывает вложения
Речевая запись и синтез
Используйте сторонние API для текста к речи и речи в тексте
Генерация кода и поддержка графического процессора
Сгенерируйте портативный C/C++ / MEX-ФУНКЦИИ и используйте графические процессоры, чтобы развернуть или ускорить обработку

Рекомендуемые примеры

Speech Command Recognition Using Deep Learning

Распознание речевых команд с использованием глубокого обучения

Обучите модель глубокого обучения, которая обнаруживает присутствие речевых команд в аудио. Пример использует Речевой Набор данных Команд [1], чтобы обучить сверточную нейронную сеть распознавать данный набор команд.

Открыть скрипт

Speech Command Recognition Code Generation with Intel MKL-DNN

Речевая генерация кода распознавания команды с Intel MKL-DNN

Разверните извлечение признаков и сверточную нейронную сеть (CNN) для речевого распознавания команды на процессорах Intel®. Чтобы сгенерировать извлечение признаков и сетевой код, вы используете MATLAB Coder и Math Kernel Library Intel для Глубоких нейронных сетей (MKL-DNN). В этом примере сгенерированный код является исполняемым файлом MATLAB (MEX) функция, которая вызвана скриптом MATLAB, который отображает предсказанную речевую команду наряду с сигналом области времени и слуховой спектрограммой. Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Скрипт Open Live Script

Speech Command Recognition Code Generation on Raspberry Pi

Речевая генерация кода распознавания команды на Raspberry Pi

Разверните извлечение признаков и сверточную нейронную сеть (CNN) для речевого распознавания команды к Raspberry Pi™. Чтобы сгенерировать извлечение признаков и сетевой код, вы используете MATLAB Coder, Пакет поддержки MATLAB для Оборудования Raspberry Pi и Библиотеку ARM® Compute. В этом примере сгенерированный код является исполняемым файлом на вашем Raspberry Pi, который вызван скриптом MATLAB, который отображает предсказанную речевую команду наряду с и слуховой спектрограммой сигнала. Взаимодействие между скриптом MATLAB и исполняемым файлом на вашем Raspberry Pi обработано с помощью пользовательского дейтаграммного протокола (UDP). Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Скрипт Open Live Script

Keyword Spotting in Noise Using MFCC and LSTM Networks

Определение ключевого слова в шуме Используя MFCC и сети LSTM

Идентифицируйте ключевое слово в шумной речи с помощью нейронной сети для глубокого обучения. В частности, пример использует сеть Bidirectional Long Short-Term Memory (BiLSTM) и частоту mel cepstral коэффициенты (MFCC).

Скрипт Open Live Script

Denoise Speech Using Deep Learning Networks

Речь Denoise Используя нейронные сети для глубокого обучения

Речевые сигналы Denoise с помощью нейронных сетей для глубокого обучения. Пример выдерживает сравнение, два типа сетей применились к той же задаче: полностью соединенный и сверточный.

Скрипт Open Live Script

Cocktail Party Source Separation Using Deep Learning Networks

Исходное разделение приема Используя нейронные сети для глубокого обучения

Изолируйте речевой сигнал использование нейронной сети для глубокого обучения.

Скрипт Open Live Script

Train Generative Adversarial Network (GAN) for Sound Synthesis

Обучите Порождающую соперничающую сеть (GAN) синтезу звука

Обучите и используйте порождающую соперничающую сеть (GAN), чтобы сгенерировать звуки.

Открыть скрипт

Speaker Identification Using Pitch and MFCC

Идентификация динамика Используя тангаж и MFCC

Демонстрирует подход машинного обучения, чтобы идентифицировать людей на основе функций, извлеченных из записанной речи. Функциями, использованными, чтобы обучить классификатор, является тангаж речевых сегментов речи и коэффициентов кепстра частоты mel (MFCC). Это - идентификация динамика замкнутого множества: аудио динамика под тестом сравнено со всеми доступными моделями динамика (конечное множество), и самое близкое соответствие возвращено.

Скрипт Open Live Script

Верификация динамика Используя i-векторы

Верификация динамика или аутентификация, является задачей подтверждения, что идентичность динамика состоит в том, кем они подразумевают быть. Верификация динамика много лет была активной областью исследования. Ранний прорыв эффективности должен был использовать смешанную гауссовскую модель и универсальную фоновую модель (GMM-UBM) [1] на акустических функциях (обычно mfcc). Для примера смотрите, что Верификация Динамика Использует смешанные гауссовские модели. Одна из основных трудностей систем GMM-UBM включает изменчивость межсеанса. Объединенный факторный анализ (JFA) был предложен, чтобы компенсировать эту изменчивость путем отдельного моделирования изменчивости междинамика и канала или изменчивости сеанса [2] [3]. Однако [4] обнаружил, что канал включает JFA, также содержал информацию о динамиках и предложил комбинировать канал и пробелы динамика в общий пробел изменчивости. Изменчивость межсеанса была затем компенсирована при помощи процедур бэкэнда, таких как линейный дискриминантный анализ (LDA) и нормализация ковариации в классе (WCCN), сопровождаемая выигрышем, таких как счет подобия косинуса. [5] предложил заменить подобие косинуса, выигрывающее на вероятностную модель LDA (PLDA). [11] и [12] предложил метод Gaussianize i-векторы, и поэтому сделайте Гауссовы предположения в PLDA, называемом G-PLDA или упрощенным PLDA. В то время как i-векторы были первоначально предложены для верификации динамика, они были применены ко многим проблемам, как распознавание языка, динамик diarization, распознавание эмоции, оценка возраста и антиспуфинг [10]. Недавно, методы глубокого обучения были предложены, чтобы заменить i-векторы на d-векторы или x-векторы [8] [6].

Скрипт Open Live Script

От начала до конца глубокое речевое разделение

Используйте сквозную нейронную сеть для глубокого обучения для не зависящего от диктора речевого разделения.

Скрипт Open Live Script

Документация Audio Toolbox

Поддержка

Сообщество Экспонента

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.