addTypeDetails

Добавление сведений о типах лексем в документы

Синтаксис

updatedDocuments = addTypeDetails(documents)

updatedDocuments = addTypeDetails(documents,Name,Value)

Описание

updatedDocuments = addTypeDetails(documents) обнаруживает типы лексем в documents и обновляет детали лексемы. Функция добавляет подробные данные типа только к лексемам с неизвестным типом. Чтобы получить типы лексем от updatedDocuments, использование tokenDetails.

пример

updatedDocuments = addTypeDetails(documents,Name,Value) задает дополнительные опции, используя одну или несколько пары "имя-значение".

Совет

Использовать addTypeDetails перед использованием lower, upper, и erasePunctuation функционирует как addTypeDetails использует информацию, которая удаляется этими функциями.

Примеры

свернуть все

Добавление сведений о типе лексемы к документам

Открыть Live Script

Преобразуйте текст с маркировкой вручную в tokenizedDocument объект, установка 'TokenizeMethod' опция для 'none'.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')

documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

Просмотрите сведения о лексеме с помощью tokenDetails функция.

tdetails = tokenDetails(documents)

tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1

Если вы задаете 'TokenizeMethod' на 'none' в вызове tokenizedDocument function, тогда она не обнаруживает типы лексем. Чтобы добавить сведения о типе маркера, используйте addTypeDetails функция.

documents = addTypeDetails(documents);

Просмотр обновленных сведений о лексеме.

tdetails = tokenDetails(documents)

tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

Входные параметры

свернуть все

`documents` - Входные документы
`tokenizedDocument` массив

Входные документы, заданные как tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'TopLevelDomains',["com" "net" "org"] задает области верхнего уровня «com», «net» и «org» для обнаружения веб-адресов.

`'TopLevelDomains'` - области верхнего уровня
вектор символов | строковые массивы | ячеек векторов символов

Области верхнего уровня для обнаружения веб-адресов, заданные как вектор символов, строковые массивы или массив ячеек из векторов символов.

Если вы не задаете TopLevelDomains, тогда функция использует выход topLevelDomains функция.

Пример: ["com" "net" "org"]

Типы данных: char | string | cell

`'DiscardKnownValues'` - Опция отбросить ранее рассчитанные детали
`false` (по умолчанию) | `true`

Опция отменить ранее вычисленные детали и пересчитать их, заданная как true или false.

Типы данных: logical

Выходные аргументы

свернуть все

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив

Обновленные документы, возвращенные как tokenizedDocument массив. Чтобы получить сведения о лексеме от updatedDocuments, использование tokenDetails.

См. также

Темы

Введенный в R2018b

Документация

addTypeDetails

Синтаксис

Описание

Примеры

Добавление сведений о типе лексемы к документам

Входные параметры

`documents` - Входные документы
`tokenizedDocument` массив

Аргументы в виде пар имя-значение

`'TopLevelDomains'` - области верхнего уровня
вектор символов | строковые массивы | ячеек векторов символов

`'DiscardKnownValues'` - Опция отбросить ранее рассчитанные детали
`false` (по умолчанию) | `true`

Выходные аргументы

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

addTypeDetails

Синтаксис

Описание

Примеры

Добавление сведений о типе лексемы к документам

Входные параметры

documents - Входные документы tokenizedDocument массив

Аргументы в виде пар имя-значение

'TopLevelDomains' - области верхнего уровня вектор символов | строковые массивы | ячеек векторов символов

'DiscardKnownValues' - Опция отбросить ранее рассчитанные детали false (по умолчанию) | true

Выходные аргументы

updatedDocuments - Обновленные документы tokenizedDocument массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

`documents` - Входные документы
`tokenizedDocument` массив

`'TopLevelDomains'` - области верхнего уровня
вектор символов | строковые массивы | ячеек векторов символов

`'DiscardKnownValues'` - Опция отбросить ранее рассчитанные детали
`false` (по умолчанию) | `true`

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив