exponenta event banner

Аудиомаркировщик

Определение и визуализация меток «земля-истина»

Описание

Приложение Audio Labeler позволяет маркировать основные данные как на уровне региона, так и на уровне файла.

С помощью приложения можно:

  • Создание определений меток для последовательной и быстрой маркировки.

  • Визуализация формы сигнала во временной области во время воспроизведения.

  • В интерактивном режиме укажите метки на уровне файла и области. Можно указать области путем рисования непосредственно на форме сигнала временной области.

  • Запись нового звука для добавления в набор данных.

  • Применение автоматической маркировки обнаруженных речевых областей.

  • Применение автоматической маркировки слов с помощью сторонних служб транскрипции речи в текст. Дополнительные сведения см. в разделе Транскрипция речи в текст.

Приложение экспортирует данные как labeledSignalSet объект. Вы можете использовать labeledSignalSet обучение сети, классификатору или анализу данных и отчетности по статистике.

Audio Labeler app

Откройте приложение Audio Labeler

  • Панель инструментов MATLAB ®: на вкладке «Приложения» в разделе «Обработка сигналов и связь» щелкните значок приложения.

  • командная строка MATLAB: Enter audioLabeler.

Примеры

развернуть все

В этом примере создается логическая маска для аудиосигнала, где единицы соответствуют произнесению «да», а нули соответствуют отсутствию высказывания «да». Чтобы создать маску, используйте API IBM™ speech-to-text через приложение Audio Labeler.

В этом примере необходимо установить функцию транскрипции речи в текст.

Прослушайте аудиофайл, который требуется пометить, а затем визуализируйте его во временной области.

[audioIn,fs] = audioread("KeywordSpeech-16-16-mono-34secs.flac");

sound(audioIn,fs)

t = (0:numel(audioIn)-1)/fs;
plot(t,audioIn)
xlabel('Time (s)')
ylabel('Amplitude')

Откройте приложение Audio Labeler и загрузите KeywordSpeech-16-16-mono-34secs.flac в браузере данных.

В разделе Автоматизация (Automation) щелкните Текст речи (Speech to Text). На вкладке «Речь в текст» выберите предпочитаемый API-интерфейс «речь в текст». В этом примере используется интерфейс IBM speech-to-text API. Выберите «Слова сегмента», чтобы текстовые метки были разделены на отдельные слова, а не предложения. Нажмите кнопку Выполнить, чтобы подключиться к API-интерфейсу «речь-текст» и создать новую метку области интересов (ROI). Метка ROI содержит слова, обнаруженные и помеченные API-интерфейсом «речь-текст» IBM.

Закройте вкладку «Речь в текст» и экспортируйте набор маркированных сигналов в рабочую область.

Метки экспортируются в рабочую область как labeledSignalSet с меткой времени. Установка переменной labeledSet на штамп времени labeledSignalSet объект.

labeledSet = myLabeledSet;

Осмотрите SpeechContent этикетка.

speechContent = labeledSet.Labels.SpeechContent{1}
speechContent=52×2 table
     ROILimits        Value  
    ____________    _________

    0.87    1.31    "first"  
    1.31    1.41    "you"    
    1.41    1.63    "said"   
    1.63    2.22    "yes"    
    2.25    2.52    "then"   
    2.52    3.03    "no"     
    3.09    3.22    "and"    
    3.22    3.32    "you"    
    3.32    3.52    "said"   
    3.52    3.94    "yes"    
    3.94    4.16    "then"   
    4.16    4.66    "no"     
    4.83    5.39    "yes"    
    5.42    5.57    "the"    
    5.57    6.07    "no"     
    6.15    6.56    "driving"
      ⋮

API-интерфейс «речь-текст» возвращает пределы меток окупаемости инвестиций в секундах. Используйте SpeechContent для создания логического вектора.

keywordLabels = speechContent(speechContent.Value == "yes",:);
keywordROILimitsInSamples = round(keywordLabels.ROILimits*fs);

mask = zeros(size(audioIn),"logical");
for i = 1:size(keywordROILimitsInSamples)
    mask(keywordROILimitsInSamples(i,1):keywordROILimitsInSamples(i,2)) = true;
end

Постройте график речевого сигнала и ключевого слова spotting mask.

plot(t,audioIn, ...
     t,mask)
xlabel('Time (s)')
ylabel('Amplitude')
legend('Audio','Keyword Spotting Mask','Location','southeast')

Связанные примеры

Программное использование

развернуть все

audioLabeler открывает приложение, позволяющее пометить данные о звуке как достоверные.

Представлен в R2018b