Обработка аудиоданных с использованием глубокого обучения

Расширьте рабочие процессы глубокого обучения с речевыми приложениями обработки и аудио

Примените глубокое обучение к аудио и речевым приложениям обработки при помощи Deep Learning Toolbox™ вместе с Audio Toolbox™. Для приложений обработки сигналов смотрите Обработку сигналов с использованием глубокого обучения. Для приложений в радиосвязях смотрите, что Радиосвязи Используют Глубокое обучение.

Приложения

Audio LabelerЗадайте и визуализируйте метки основной истины

Функции

ivectorSystemСоздайте систему i-вектора
crepeНейронная сеть CREPE
crepePreprocessПредварительно обработайте аудио для нейронной сети для глубокого обучения CREPE
crepePostprocessПостобработайте выход нейронной сети для глубокого обучения CREPE
pitchnnОцените тангаж с глубокой нейронной сетью
openl3Нейронная сеть OpenL3
openl3PreprocessПредварительно обработайте аудио для извлечения признаков OpenL3
openl3FeaturesИзвлеките функции OpenL3
audioDatastoreDatastore для набора звуковых файлов
audioDataAugmenterУвеличьте аудиоданные
audioFeatureExtractorОптимальная экстракция функции аудио
vggishPreprocessПредварительно обработайте аудио для извлечения признаков VGGish
vggishFeaturesИзвлеките функции VGGish
vggishНейронная сеть VGGish
yamnetНейронная сеть YAMNet
yamnetPreprocessПредварительно обработайте аудио для классификации YAMNet
yamnetGraphГрафик онтологии YAMNet AudioSet
classifySoundКлассифицируйте звуки на звуковой сигнал

Темы

Введение в глубокое обучение для аудиоприложений (Audio Toolbox)

Изучите общие инструменты и рабочие процессы, чтобы применить глубокое обучение к аудиоприложениям.

Классифицируйте звук Используя глубокое обучение (Audio Toolbox)

Обучите, подтвердите и протестируйте простую долгую краткосрочную память (LSTM), чтобы классифицировать звуки.

Передача обучения с предварительно обученными аудио сетями (Audio Toolbox)

Используйте передачу обучения, чтобы переобучить YAMNet, предварительно обученную сверточную нейронную сеть (CNN), чтобы классифицировать новый набор звуковых сигналов.

Идентификация динамика Используя пользовательский слой SincNet и глубокое обучение (Audio Toolbox)

Выполните распознавание речи с помощью пользовательского слоя глубокого обучения, который реализует набор фильтров mel-шкалы.

Речь Dereverberate Используя нейронные сети для глубокого обучения (Audio Toolbox)

Обучите модель глубокого обучения, которая удаляет реверберацию из речи.

Речевое распознавание команды в Simulink (Audio Toolbox)

Обнаружьте присутствие речевых команд в аудио с помощью модели Simulink®.

Рекомендуемые примеры

Speaker Recognition Using x-vectors

Распознавание динамика Используя x-векторы

Распознавание динамика отвечает на вопрос, "Кто говорит?". Распознавание динамика обычно делится на две задачи: идентификация динамика и верификация динамика. В идентификации динамика динамик распознан путем сравнения их речи в замкнутом множестве шаблонов. В верификации динамика динамик распознан путем сравнения вероятности, что речь принадлежит конкретному динамику против предопределенного порога. Традиционные методы машинного обучения выполняют хорошо в этих задачах в идеальных условиях. Для примеров идентификации динамика с помощью традиционных методов машинного обучения смотрите, что Идентификация Динамика Использует Тангаж и MFCC и Верификацию Динамика Используя i-векторы. Audio Toolbox™ обеспечивает ivectorSystem, который инкапсулирует способность обучить систему i-вектора, зарегистрировать докладчиков или другие аудио метки, оценить систему для порога решения, и идентифицировать или проверить динамики или другие аудио метки.

Keyword Spotting in Noise Code Generation on Raspberry Pi

Определение ключевого слова в шумовой генерации кода на Raspberry Pi

Демонстрирует генерацию кода для определения ключевого слова с помощью сети Bidirectional Long Short-Term Memory (BiLSTM) и извлечения признаков частоты mel cepstral коэффициента (MFCC) на Raspberry Pi™. MATLAB® Coder™ с Поддержкой Глубокого обучения включает генерацию независимого исполняемого файла (.elf) файл на Raspberry Pi. Связь между MATLAB® (.mlx) файл и сгенерированным исполняемым файлом происходит по асинхронному Пользовательскому дейтаграммному протоколу (UDP). Входящий речевой сигнал отображен с помощью timescope. Маска показывается синим прямоугольником, окружающим определенные экземпляры ключевого слова, YES. Для получения дополнительной информации об извлечении признаков MFCC и обучении нейронной сети для глубокого обучения, посетите Определение Ключевого слова в Шуме Используя MFCC и Сети LSTM.

Speech Command Recognition Code Generation on Raspberry Pi

Речевая генерация кода распознавания команды на Raspberry Pi

Разверните извлечение признаков и сверточную нейронную сеть (CNN) для речевого распознавания команды к Raspberry Pi™. Чтобы сгенерировать извлечение признаков и сетевой код, вы используете MATLAB Coder, Пакет Поддержки MATLAB для Оборудования Raspberry Pi и Библиотеку ARM® Compute. В этом примере сгенерированный код является исполняемым файлом на вашем Raspberry Pi, который вызван скриптом MATLAB, который отображает предсказанную речевую команду наряду с и слуховой спектрограммой сигнала. Взаимодействие между скриптом MATLAB и исполняемым файлом на вашем Raspberry Pi обработано с помощью пользовательского дейтаграммного протокола (UDP). Для получения дополнительной информации о предварительной обработке аудио и сетевом обучении, смотрите Распознание речевых команд с использованием глубокого обучения.

Для просмотра документации необходимо авторизоваться на сайте