addLemmaDetails

Добавьте формы леммы лексем к документам

Используйте addLemmaDetails, чтобы добавить формы леммы в документы.

Функция поддерживает английский и японский текст.

Синтаксис

updatedDocuments = addLemmaDetails(documents)

Описание

пример

updatedDocuments = addLemmaDetails(documents) добавляет, что лемма назначает в documents и обновляет маркерные детали. Чтобы получить детали леммы от updatedDocuments, используйте tokenDetails.

Совет

Используйте addLemmaDetails перед использованием lower, upper, и функции normalizeWords как addLemmaDetails используют информацию, которая удалена этими функциями.

Примеры

свернуть все

Создайте маркируемый массив документа.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

Добавьте, что лемма назначает в документы с помощью addLemmaDetails. Эта функция lemmatizes текст и добавляет форму леммы каждой лексемы к таблице, возвращенной tokenDetails. Посмотрите обновленные маркерные детали первых нескольких лексем.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×6 table
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как массив tokenizedDocument. Чтобы получить маркерные детали от updatedDocuments, используйте tokenDetails.

Введенный в R2018b