Audio Labeler

Задайте и визуализируйте метки основной истины

Описание

Приложение Audio Labeler позволяет вам пометить достоверные данные и на уровне области и на уровне файла.

Используя приложение, вы можете:

  • Создайте определения метки для сопоставимой и быстрой маркировки.

  • Визуализируйте форму волны временного интервала во время воспроизведения.

  • В интерактивном режиме задайте метки на уровне файла и уровне области. Можно задать области путем рисования непосредственно на форме волны временного интервала.

  • Запишите новое аудио, чтобы добавить к вашему набору данных.

  • Примените автоматическую маркировку обнаруженных речевых областей.

  • Примените автоматическую маркировку слова с помощью сторонних сервисов записи речи в тексте. Смотрите Запись Речи в тексте для получения дополнительной информации.

Приложение экспортирует данные как labeledSignalSet объект. Можно использовать labeledSignalSet обучать сеть, классификатор, или анализировать статистика отчета и данные.

Audio Labeler app

Откройте приложение Audio Labeler

  • MATLAB® панель инструментов: На вкладке Apps, под Signal Processing and Communications, кликают по значку приложения.

  • Командная строка MATLAB: Войти audioLabeler.

Примеры

развернуть все

В этом примере вы создаете логическую маску для звукового сигнала, где единицы соответствуют произнесению "да", и нули соответствуют отсутствию произнесения "да". Чтобы создать маску, вы используете API речи в тексте IBM™ через приложение Audio Labeler.

Этот пример требует, чтобы вы установили функциональность Записи Речи в тексте.

Слушайте звуковой файл, что вы хотите пометить и затем визуализировать его во временном интервале.

[audioIn,fs] = audioread("KeywordSpeech-16-16-mono-34secs.flac");

sound(audioIn,fs)

t = (0:numel(audioIn)-1)/fs;
plot(t,audioIn)
xlabel('Time (s)')
ylabel('Amplitude')

Откройте приложение Audio Labeler и загрузите KeywordSpeech-16-16-mono-34secs.flac файл в Браузер Данных.

При Автоматизации нажмите Speech to Text. На вкладке Speech to Text выберите свой предпочтительный API речи в тексте. Этот пример использует API речи в тексте IBM. Выберите Segment Words так, чтобы текстовые метки были разделены на отдельные слова вместо предложений. Нажмите Run, чтобы взаимодействовать через интерфейс с API речи в тексте и создать новую метку видимой области (ROI). Метка ROI содержит слова, обнаруженные и помеченные API речи в тексте IBM.

Закройте вкладку Speech to Text и затем экспортируйте помеченный набор сигнала в рабочую область.

Метки экспортируются в рабочую область как labeledSignalSet объект с меткой времени. Установите переменную labeledSet к labeledSignalSet с меткой времени объект.

labeledSet = myLabeledSet;

Смотрите SpeechContent метка.

speechContent = labeledSet.Labels.SpeechContent{1}
speechContent=52×2 table
     ROILimits        Value  
    ____________    _________

    0.87    1.31    "first"  
    1.31    1.41    "you"    
    1.41    1.63    "said"   
    1.63    2.22    "yes"    
    2.25    2.52    "then"   
    2.52    3.03    "no"     
    3.09    3.22    "and"    
    3.22    3.32    "you"    
    3.32    3.52    "said"   
    3.52    3.94    "yes"    
    3.94    4.16    "then"   
    4.16    4.66    "no"     
    4.83    5.39    "yes"    
    5.42    5.57    "the"    
    5.57    6.07    "no"     
    6.15    6.56    "driving"
      ⋮

API речи в тексте возвращает пределы меток ROI в секундах. Используйте SpeechContent таблица, чтобы создать логический вектор.

keywordLabels = speechContent(speechContent.Value == "yes",:);
keywordROILimitsInSamples = round(keywordLabels.ROILimits*fs);

mask = zeros(size(audioIn),"logical");
for i = 1:size(keywordROILimitsInSamples)
    mask(keywordROILimitsInSamples(i,1):keywordROILimitsInSamples(i,2)) = true;
end

Постройте речевой сигнал и маску определения ключевого слова.

plot(t,audioIn, ...
     t,mask)
xlabel('Time (s)')
ylabel('Amplitude')
legend('Audio','Keyword Spotting Mask','Location','southeast')

Связанные примеры

Программируемое использование

развернуть все

audioLabeler открывает приложение, позволяя вам пометить достоверные данные об аудио.

Введенный в R2018b