Audio Toolbox™ предоставляет функциональные возможности для разработки машинного и глубокого обучения решений для аудио-, речевых и акустических приложений, включая идентификацию динамика, распознавание речевых команд, акустическое распознавание сцен и многое другое.
Использование audioDatastore
для приема больших наборов аудио данных и параллельной обработки файлов.
Используйте Audio Labeler для создания наборов аудио данных путем аннотирования аудиозаписей вручную и автоматически.
Использование audioDataAugmenter
создание рандомизированных трубопроводов встроенных или пользовательских способов обработки сигналов для увеличения и синтеза наборов аудио данных.
Использование audioFeatureExtractor
извлечение комбинаций различных функций при совместном использовании промежуточных расчетов.
Audio Toolbox также предоставляет доступ к сторонним API для преобразования текста в речь и речи в текст, и включает предварительно обученные модели VGGish и YAMNet, чтобы можно было выполнять передачу обучения, классифицировать звуки и извлекать функцию встраивания. Использование предварительно обученных сетей требует Toolbox™ Deep Learning.