addLemmaDetails

Добавьте формы леммы лексем к документам

Описание

Используйте addLemmaDetails добавить лемму формируется к документам.

Функция поддерживает английский, японский язык и корейский текст.

пример

updatedDocuments = addLemmaDetails(documents) добавляет, что лемма назначает в documents и обновляет маркерные детали. Получить детали леммы от updatedDocuments, используйте tokenDetails.

пример

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true) отбрасывания ранее вычислили детали и повторно вычисляют их.

Совет

Используйте addLemmaDetails перед использованием lowerверхний, и normalizeWords функции как addLemmaDetails информация об использовании, которая удалена этими функциями.

Примеры

свернуть все

Создайте маркируемый массив документа.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

Добавьте, что лемма назначает в документы с помощью addLemmaDetails. Эта функция lemmatizes текст и добавляет форму леммы каждой лексемы к таблице, возвращенной tokenDetails. Посмотрите обновленные маркерные детали первых нескольких лексем.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×6 table
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

Входные параметры

свернуть все

Введите документы в виде tokenizedDocument массив.

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Получить маркерные детали от updatedDocuments, используйте tokenDetails.

Введенный в R2018b