addLemmaDetails

Добавьте формы леммы лексем к документам

Описание

Используйте addLemmaDetails добавить лемму формируется к документам.

Функция поддерживает английский, японский язык и корейский текст.

пример

updatedDocuments = addLemmaDetails(documents) добавляет, что лемма назначает в documents и обновляет маркерные детали. Получить детали леммы от updatedDocuments, используйте tokenDetails.

пример

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true) отбрасывания ранее вычислили детали и повторно вычисляют их.

Совет

Используйте addLemmaDetails перед использованием lowerверхний, и normalizeWords функции как addLemmaDetails информация об использовании, которая удалена этими функциями.

Примеры

свернуть все

Создайте маркируемый массив документа.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

Добавьте, что лемма назначает в документы с помощью addLemmaDetails. Эта функция lemmatizes текст и добавляет форму леммы каждой лексемы к таблице, возвращенной tokenDetails. Посмотрите обновленные маркерные детали первых нескольких лексем.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×6 table
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

Входные параметры

свернуть все

Введите документы, заданные как tokenizedDocument массив.

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Получить маркерные детали от updatedDocuments, используйте tokenDetails.

Введенный в R2018b

Для просмотра документации необходимо авторизоваться на сайте