addTypeDetails

Добавьте, что тип маркера назначает в документы

Синтаксис

updatedDocuments = addTypeDetails(documents)

updatedDocuments = addTypeDetails(documents,Name,Value)

Описание

updatedDocuments = addTypeDetails(documents) обнаруживает типы маркера в documents и обновляет маркерные детали. Функция добавляет, что тип назначает в лексемы с неизвестным типом только. Получить типы маркера от updatedDocuments, используйте tokenDetails.

пример

updatedDocuments = addTypeDetails(documents,Name,Value) задает дополнительные опции с помощью одной или нескольких пар "имя-значение".

Совет

Используйте addTypeDetails перед использованием lowerверхний, и erasePunctuation функции как addTypeDetails информация об использовании, которая удалена этими функциями.

Примеры

свернуть все

Добавьте, что тип маркера назначает в документы

Скрипт Open Live Script

Преобразуйте вручную маркируемый текст в tokenizedDocument объект, устанавливая 'TokenizeMethod' опция к 'none'.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')

documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

Посмотрите маркерные детали с помощью tokenDetails функция.

tdetails = tokenDetails(documents)

tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1

Если вы устанавливаете 'TokenizeMethod' к 'none' в вызове tokenizedDocument функция, затем это не обнаруживает типы лексем. Чтобы добавить детали типа маркера, используйте addTypeDetails функция.

documents = addTypeDetails(documents);

Посмотрите обновленные маркерные детали.

tdetails = tokenDetails(documents)

tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

Входные параметры

свернуть все

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы в виде tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'TopLevelDomains',["com" "net" "org"] задает области верхнего уровня "com", "сетевой", и "org" для обнаружения веб-адреса.

`'TopLevelDomains'` — Области верхнего уровня
вектор символов | массив строк | массив ячеек из символьных векторов

Области верхнего уровня, чтобы использовать в обнаружении веб-адреса в виде вектора символов, массива строк или массива ячеек из символьных векторов.

Если вы не задаете TopLevelDomains, затем функция использует выход topLevelDomains функция.

Пример: ["com" "net" "org"]

Типы данных: char | string | cell

`'DiscardKnownValues'` — Опция, чтобы отбросить ранее вычисленные детали
`false` (значение по умолчанию) | `true`

Опция, чтобы отбросить ранее вычисленные детали и повторно вычислить их в виде true или false.

Типы данных: логический

Выходные аргументы

свернуть все

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив

Обновленные документы, возвращенные как tokenizedDocument массив. Получить маркерные детали от updatedDocuments, используйте tokenDetails.

Документация

addTypeDetails

Синтаксис

Описание

Совет

Примеры

Добавьте, что тип маркера назначает в документы

Входные параметры

`documents` — Введите документы
`tokenizedDocument` массив

Аргументы в виде пар имя-значение

`'TopLevelDomains'` — Области верхнего уровня
вектор символов | массив строк | массив ячеек из символьных векторов

`'DiscardKnownValues'` — Опция, чтобы отбросить ранее вычисленные детали
`false` (значение по умолчанию) | `true`

Выходные аргументы

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив

Смотрите также

Темы

Введенный в R2018b

Документация Text Analytics Toolbox

Поддержка

Документация

addTypeDetails

Синтаксис

Описание

Совет

Примеры

Добавьте, что тип маркера назначает в документы

Входные параметры

documents — Введите документы tokenizedDocument массив

Аргументы в виде пар имя-значение

'TopLevelDomains' — Области верхнего уровня вектор символов | массив строк | массив ячеек из символьных векторов

'DiscardKnownValues' — Опция, чтобы отбросить ранее вычисленные детали false (значение по умолчанию) | true

Выходные аргументы

updatedDocuments — Обновленные документы tokenizedDocument массив

Смотрите также

Темы

Введенный в R2018b

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
`tokenizedDocument` массив

`'TopLevelDomains'` — Области верхнего уровня
вектор символов | массив строк | массив ячеек из символьных векторов

`'DiscardKnownValues'` — Опция, чтобы отбросить ранее вычисленные детали
`false` (значение по умолчанию) | `true`

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив