addLemmaDetails

Добавьте лемма-формы лексем к документам

Описание

Использовать addLemmaDetails для добавления форм леммы к документам.

Функция поддерживает английский, японский и корейский текст.

пример

updatedDocuments = addLemmaDetails(documents) добавляет детали леммы в documents и обновляет детали лексемы. Чтобы получить детали леммы от updatedDocuments, использование tokenDetails.

пример

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true) отбрасывает ранее вычисленные детали и пересчитывает их.

Совет

Использовать addLemmaDetails перед использованием lower, upper, и normalizeWords функционирует как addLemmaDetails использует информацию, которая удаляется этими функциями.

Примеры

свернуть все

Создайте токенизированный массив документов.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

Добавьте детали леммы в документы с помощью addLemmaDetails. Эта функция лемматизирует текст и добавляет форму леммы каждой лексемы в таблицу, возвращаемую tokenDetails. Просмотрите обновленные сведения о токене первых нескольких лексем.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×6 table
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив.

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Чтобы получить сведения о лексеме от updatedDocuments, использование tokenDetails.

Введенный в R2018b