addTypeDetails

Добавьте, что тип маркера назначает в документы

Описание

пример

updatedDocuments = addTypeDetails(documents) обнаруживает типы маркера в documents и обновляет маркерные детали. Функция добавляет, что тип назначает в лексемы с неизвестным типом только. Получить типы маркера от updatedDocuments, используйте tokenDetails.

пример

updatedDocuments = addTypeDetails(documents,Name,Value) задает дополнительные опции с помощью одной или нескольких пар "имя-значение".

Совет

Используйте addTypeDetails перед использованием lowerверхний, и erasePunctuation функции как addTypeDetails информация об использовании, которая удалена этими функциями.

Примеры

свернуть все

Преобразуйте вручную маркируемый текст в tokenizedDocument объект, устанавливая 'TokenizeMethod' опция к 'none'.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')
documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

Посмотрите маркерные детали с помощью tokenDetails функция.

tdetails = tokenDetails(documents)
tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1       

Если вы устанавливаете 'TokenizeMethod' к 'none' в вызове tokenizedDocument функция, затем это не обнаруживает типы лексем. Чтобы добавить детали типа маркера, используйте addTypeDetails функция.

documents = addTypeDetails(documents);

Посмотрите обновленные маркерные детали.

tdetails = tokenDetails(documents)
tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

Входные параметры

свернуть все

Введите документы в виде tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'TopLevelDomains',["com" "net" "org"] задает области верхнего уровня "com", "сетевой", и "org" для обнаружения веб-адреса.

Области верхнего уровня, чтобы использовать в обнаружении веб-адреса в виде вектора символов, массива строк или массива ячеек из символьных векторов.

Если вы не задаете TopLevelDomains, затем функция использует выход topLevelDomains функция.

Пример: ["com" "net" "org"]

Типы данных: char | string | cell

Опция, чтобы отбросить ранее вычисленные детали и повторно вычислить их в виде true или false.

Типы данных: логический

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Получить маркерные детали от updatedDocuments, используйте tokenDetails.

Введенный в R2018b