addLemmaDetails

Добавьте лемма-формы лексем к документам

Свернуть все на странице

Синтаксис

updatedDocuments = addLemmaDetails(documents)

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true)

Описание

Использовать addLemmaDetails для добавления форм леммы к документам.

Функция поддерживает английский, японский и корейский текст.

пример

updatedDocuments = addLemmaDetails(documents) добавляет детали леммы в documents и обновляет детали лексемы. Чтобы получить детали леммы от updatedDocuments, использование tokenDetails.

пример

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true) отбрасывает ранее вычисленные детали и пересчитывает их.

Совет

Использовать addLemmaDetails перед использованием lower, upper, и normalizeWords функционирует как addLemmaDetails использует информацию, которая удаляется этими функциями.

Примеры

свернуть все

Добавление подробных данных Lemma к документам

Открыть Live Script

Создайте токенизированный массив документов.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

Добавьте детали леммы в документы с помощью addLemmaDetails. Эта функция лемматизирует текст и добавляет форму леммы каждой лексемы в таблицу, возвращаемую tokenDetails. Просмотрите обновленные сведения о токене первых нескольких лексем.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)

ans=8×6 table
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"

Входные параметры

свернуть все

`documents` - Входные документы
`tokenizedDocument` массив

Входные документы, заданные как tokenizedDocument массив.

Выходные аргументы

свернуть все

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив

Обновленные документы, возвращенные как tokenizedDocument массив. Чтобы получить сведения о лексеме от updatedDocuments, использование tokenDetails.

См. также

Темы

Введенный в R2018b

Документация

addLemmaDetails

Синтаксис

Описание

Примеры

Добавление подробных данных Lemma к документам

Входные параметры

`documents` - Входные документы
`tokenizedDocument` массив

Выходные аргументы

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

addLemmaDetails

Синтаксис

Описание

Примеры

Добавление подробных данных Lemma к документам

Входные параметры

documents - Входные документы tokenizedDocument массив

Выходные аргументы

updatedDocuments - Обновленные документы tokenizedDocument массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

`documents` - Входные документы
`tokenizedDocument` массив

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив