addTypeDetails

Добавление сведений о типах лексем в документы

Описание

пример

updatedDocuments = addTypeDetails(documents) обнаруживает типы лексем в documents и обновляет детали лексемы. Функция добавляет подробные данные типа только к лексемам с неизвестным типом. Чтобы получить типы лексем от updatedDocuments, использование tokenDetails.

пример

updatedDocuments = addTypeDetails(documents,Name,Value) задает дополнительные опции, используя одну или несколько пары "имя-значение".

Совет

Использовать addTypeDetails перед использованием lower, upper, и erasePunctuation функционирует как addTypeDetails использует информацию, которая удаляется этими функциями.

Примеры

свернуть все

Преобразуйте текст с маркировкой вручную в tokenizedDocument объект, установка 'TokenizeMethod' опция для 'none'.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')
documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

Просмотрите сведения о лексеме с помощью tokenDetails функция.

tdetails = tokenDetails(documents)
tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1       

Если вы задаете 'TokenizeMethod' на 'none' в вызове tokenizedDocument function, тогда она не обнаруживает типы лексем. Чтобы добавить сведения о типе маркера, используйте addTypeDetails функция.

documents = addTypeDetails(documents);

Просмотр обновленных сведений о лексеме.

tdetails = tokenDetails(documents)
tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'TopLevelDomains',["com" "net" "org"] задает области верхнего уровня «com», «net» и «org» для обнаружения веб-адресов.

Области верхнего уровня для обнаружения веб-адресов, заданные как вектор символов, строковые массивы или массив ячеек из векторов символов.

Если вы не задаете TopLevelDomains, тогда функция использует выход topLevelDomains функция.

Пример: ["com" "net" "org"]

Типы данных: char | string | cell

Опция отменить ранее вычисленные детали и пересчитать их, заданная как true или false.

Типы данных: logical

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Чтобы получить сведения о лексеме от updatedDocuments, использование tokenDetails.

Введенный в R2018b