exponenta event banner

addLemmaDetails

Добавление форм леммы токенов в документы

Описание

Использовать addLemmaDetails для добавления форм леммы в документы.

Функция поддерживает английский, японский и корейский тексты.

пример

updatedDocuments = addLemmaDetails(documents) добавляет сведения о лемме в documents и обновляет сведения о маркере. Чтобы получить сведения о лемме от updatedDocuments, использовать tokenDetails.

пример

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true) отбрасывает ранее вычисленные сведения и пересчитывает их.

Совет

Использовать addLemmaDetails перед использованием lower, upper, и normalizeWords функции как addLemmaDetails использует информацию, удаляемую этими функциями.

Примеры

свернуть все

Создание маркированного массива документов.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

Добавление сведений о лемме в документы с помощью addLemmaDetails. Эта функция лемматизирует текст и добавляет форму леммы каждого маркера в таблицу, возвращаемую tokenDetails. Просмотр обновленных сведений о маркерах первых нескольких маркеров.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×6 table
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Получение сведений о токене из updatedDocuments, использовать tokenDetails.

Представлен в R2018b