addTypeDetails

Добавьте, что тип маркера назначает в документы

Синтаксис

updatedDocuments = addTypeDetails(documents)
updatedDocuments = addTypeDetails(documents,'TopLevelDomains',domains)

Описание

пример

updatedDocuments = addTypeDetails(documents) обнаруживает типы маркера в documents и обновляет маркерные детали. Функция добавляет, что тип назначает в лексемы с неизвестным типом только. Чтобы получить типы маркера от updatedDocuments, используйте tokenDetails.

пример

updatedDocuments = addTypeDetails(documents,'TopLevelDomains',domains) также задает области верхнего уровня, чтобы использовать для обнаружения веб-адреса.

Совет

Используйте addTypeDetails перед использованием lower, upper, и функции erasePunctuation как addTypeDetails используют информацию, которая удалена этими функциями.

Примеры

свернуть все

Преобразуйте вручную маркируемый текст в объект tokenizedDocument, установив опцию 'TokenizeMethod' на 'none'.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')
documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

Посмотрите маркерные детали с помощью функции tokenDetails.

tdetails = tokenDetails(documents)
tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1       

Если вы устанавливаете 'TokenizeMethod' на 'none' в вызове функции tokenizedDocument, то это не обнаруживает типы лексем. Чтобы добавить детали типа маркера, используйте функцию addTypeDetails.

documents = addTypeDetails(documents);

Посмотрите обновленные маркерные детали.

tdetails = tokenDetails(documents)
tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

Области верхнего уровня, чтобы использовать для обнаружения веб-адреса, заданного как вектор символов, массив строк или массив ячеек из символьных векторов.

Если вы не задаете domains, то функция использует вывод topLevelDomains.

Пример: ["com" "net" "org"]

Типы данных: char | string | cell

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как массив tokenizedDocument. Чтобы получить маркерные детали от updatedDocuments, используйте tokenDetails.

Введенный в R2018b