exponenta event banner

addTypeDetails

Добавить сведения о типе маркера в документы

Описание

пример

updatedDocuments = addTypeDetails(documents) обнаруживает типы маркеров в documents и обновляет сведения о маркере. Функция добавляет сведения о типе к маркерам только с неизвестным типом. Получение типов токенов из updatedDocuments, использовать tokenDetails.

пример

updatedDocuments = addTypeDetails(documents,Name,Value) задает дополнительные параметры, использующие одну или несколько пар имя-значение.

Совет

Использовать addTypeDetails перед использованием lower, upper, и erasePunctuation функции как addTypeDetails использует информацию, удаляемую этими функциями.

Примеры

свернуть все

Преобразование помеченного вручную текста в tokenizedDocument объект, установка 'TokenizeMethod' опция для 'none'.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')
documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

Просмотр сведений о маркере с помощью tokenDetails функция.

tdetails = tokenDetails(documents)
tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1       

Если установить 'TokenizeMethod' кому 'none' в вызове tokenizedDocument функция не обнаруживает типы маркеров. Чтобы добавить сведения о типе токена, используйте addTypeDetails функция.

documents = addTypeDetails(documents);

Просмотр обновленных сведений о маркере.

tdetails = tokenDetails(documents)
tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'TopLevelDomains',["com" "net" "org"] указывает домены верхнего уровня «com», «net» и «org» для обнаружения веб-адресов.

Домены верхнего уровня, используемые для обнаружения веб-адресов, указанные как символьный вектор, строковый массив или массив ячеек символьных векторов.

Если не указать TopLevelDomains, то функция использует выходные данные topLevelDomains функция.

Пример: ["com" "net" "org"]

Типы данных: char | string | cell

Параметр для отбрасывания ранее вычисленных сведений и их повторного вычисления, указанный как true или false.

Типы данных: logical

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Получение сведений о токене из updatedDocuments, использовать tokenDetails.

Представлен в R2018b