Audio Labeler

Определите и визуализируйте метки основной истины

Описание

Приложение Audio Labeler позволяет вам пометить достоверные данные как на уровне области, так и на уровне файла.

Используя приложение, вы можете:

  • Создайте определения меток для последовательной и быстрой маркировки.

  • Визуализируйте сигнал временной области во время воспроизведения.

  • В интерактивном режиме задайте метки на уровне файла и области. Можно задать области путем рисования непосредственно на форме волны временной области.

  • Запись нового аудио для добавления к набору данных.

  • Применить автоматическую маркировку обнаруженных речевых областей.

  • Применить автоматическую маркировку слов с помощью сторонних сервисов речевой и текстовой транскрипции. Для получения дополнительной информации см. раздел «Транскрипция речи в текст».

Приложение экспортирует данные как labeledSignalSet объект. Можно использовать labeledSignalSet для обучения сети, классификатора или анализа данных и отчетности статистики.

Audio Labeler app

Откройте приложение Audio Labeler

  • MATLAB® панель инструментов: На вкладке Apps, в разделе Signal Processing and Communications, щелкните значок приложения.

  • Командная строка MATLAB: Ввод audioLabeler.

Примеры

расширить все

В этом примере вы создаете логическую маску для аудиосигнала, где таковые соответствуют высказыванию «да», а нули соответствуют отсутствию высказывания «да». Чтобы создать маску, вы используете IBM™ API «речь-текст» через приложение Audio Labeler.

Этот пример требует установки функции «Транскрипция речи в текст».

Прослушайте аудио файла, которые вы хотите пометить, и затем визуализируйте его в временной интервал.

[audioIn,fs] = audioread("KeywordSpeech-16-16-mono-34secs.flac");

sound(audioIn,fs)

t = (0:numel(audioIn)-1)/fs;
plot(t,audioIn)
xlabel('Time (s)')
ylabel('Amplitude')

Откройте приложение Audio Labeler и загрузите KeywordSpeech-16-16-mono-34secs.flac файл в браузере данных.

В разделе Автоматизация (Automation) щелкните Речь в текст (Speech to Text). На вкладке «Речь в текст» выберите предпочитаемый API «речь-текст». В этом примере используется интерфейс IBM speech-to-text API. Выберите Segment Words, чтобы текстовые метки были разделены на отдельные слова вместо предложений. Нажмите запуск, чтобы взаимодействовать с речевым API и создать новую видимую область (ROI) метки. Метка информация только для чтения содержит слова, обнаруженные и маркированные API IBM для преобразования речи в текст.

Закройте вкладку «Речь в текст» и затем экспортируйте маркированный набор сигналов в рабочую область.

Метки экспортируются в рабочую область как labeledSignalSet объект с меткой времени. Установите переменную labeledSet в штампованную по времени labeledSignalSet объект.

labeledSet = myLabeledSet;

Осмотрите SpeechContent метка.

speechContent = labeledSet.Labels.SpeechContent{1}
speechContent=52×2 table
     ROILimits        Value  
    ____________    _________

    0.87    1.31    "first"  
    1.31    1.41    "you"    
    1.41    1.63    "said"   
    1.63    2.22    "yes"    
    2.25    2.52    "then"   
    2.52    3.03    "no"     
    3.09    3.22    "and"    
    3.22    3.32    "you"    
    3.32    3.52    "said"   
    3.52    3.94    "yes"    
    3.94    4.16    "then"   
    4.16    4.66    "no"     
    4.83    5.39    "yes"    
    5.42    5.57    "the"    
    5.57    6.07    "no"     
    6.15    6.56    "driving"
      ⋮

Речевой API возвращает пределы меток информация только для чтения в секундах. Используйте SpeechContent таблица для создания логического вектора.

keywordLabels = speechContent(speechContent.Value == "yes",:);
keywordROILimitsInSamples = round(keywordLabels.ROILimits*fs);

mask = zeros(size(audioIn),"logical");
for i = 1:size(keywordROILimitsInSamples)
    mask(keywordROILimitsInSamples(i,1):keywordROILimitsInSamples(i,2)) = true;
end

Постройте график речевого сигнала и маски выделения ключевых слов.

plot(t,audioIn, ...
     t,mask)
xlabel('Time (s)')
ylabel('Amplitude')
legend('Audio','Keyword Spotting Mask','Location','southeast')

Похожие примеры

Программное использование

расширить все

audioLabeler открывает приложение, позволяющее пометить достоверные данные о аудио.

Введенный в R2018b