tokenDetails

Сведения о маркерах в маркированном массиве документов

Синтаксис

подробные сведения = tokenDetails (документы)

Описание

tdetails = tokenDetails(documents) возвращает таблицу сведений о маркерах для маркеров в tokenizedDocument множество documents.

Примеры

свернуть все

Просмотр сведений о маркерах документов

Открыть сценарий в реальном времени

Создание маркированного массива документов.

str = [ ...
    "This is an example document. It has two sentences."
    "This document has one sentence and an emoticon. :)"
    "Here is another example document. :D"];
documents = tokenizedDocument(str);

Просмотр сведений о маркерах первых нескольких маркеров.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×5 table
      Token       DocumentNumber    LineNumber       Type        Language
    __________    ______________    __________    ___________    ________

    "This"              1               1         letters           en   
    "is"                1               1         letters           en   
    "an"                1               1         letters           en   
    "example"           1               1         letters           en   
    "document"          1               1         letters           en   
    "."                 1               1         punctuation       en   
    "It"                1               1         letters           en   
    "has"               1               1         letters           en

type содержит тип каждого маркера. Просмотр смайликов в документах.

idx = tdetails.Type == "emoticon";
tdetails(idx,:)

ans=2×5 table
    Token    DocumentNumber    LineNumber      Type      Language
    _____    ______________    __________    ________    ________

    ":)"           2               1         emoticon       en   
    ":D"           3               1         emoticon       en

Добавить сведения о предложении в документы

Открыть сценарий в реальном времени

Создание маркированного массива документов.

str = [ ...
    "This is an example document. It has two sentences."
    "This document has one sentence."
    "Here is another example document. It also has two sentences."];
documents = tokenizedDocument(str);

Добавление сведений о предложении в документы с помощью addSentenceDetails. Эта функция добавляет номера предложений в таблицу, возвращаемую tokenDetails. Просмотр обновленных сведений о маркерах первых нескольких маркеров.

documents = addSentenceDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)

ans=8×6 table
      Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language
    __________    ______________    ______________    __________    ___________    ________

    "This"              1                 1               1         letters           en   
    "is"                1                 1               1         letters           en   
    "an"                1                 1               1         letters           en   
    "example"           1                 1               1         letters           en   
    "document"          1                 1               1         letters           en   
    "."                 1                 1               1         punctuation       en   
    "It"                1                 2               1         letters           en   
    "has"               1                 2               1         letters           en

Просмотрите сведения о маркере второго предложения третьего документа.

idx = tdetails.DocumentNumber == 3 & ...
    tdetails.SentenceNumber == 2;
tdetails(idx,:)

ans=6×6 table
       Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language
    ___________    ______________    ______________    __________    ___________    ________

    "It"                 3                 2               1         letters           en   
    "also"               3                 2               1         letters           en   
    "has"                3                 2               1         letters           en   
    "two"                3                 2               1         letters           en   
    "sentences"          3                 2               1         letters           en   
    "."                  3                 2               1         punctuation       en

Добавление сведений о части речи в документы

Открыть сценарий в реальном времени

Загрузите данные примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит один сонет на строку со словами, разделенными пробелом. Извлечь текст из sonnetsPreprocessed.txtразделите текст на документы с новыми символами, а затем пометьте документы.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Просмотр сведений о маркерах первых нескольких маркеров.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×5 table
       Token       DocumentNumber    LineNumber     Type      Language
    ___________    ______________    __________    _______    ________

    "fairest"            1               1         letters       en   
    "creatures"          1               1         letters       en   
    "desire"             1               1         letters       en   
    "increase"           1               1         letters       en   
    "thereby"            1               1         letters       en   
    "beautys"            1               1         letters       en   
    "rose"               1               1         letters       en   
    "might"              1               1         letters       en

Добавление деталей речи в документы с помощью addPartOfSpeechDetails функция. Эта функция сначала добавляет информацию о предложении в документы, а затем добавляет теги части речи в таблицу, возвращаемую tokenDetails. Просмотр обновленных сведений о маркерах первых нескольких маркеров.

documents = addPartOfSpeechDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)

ans=8×7 table
       Token       DocumentNumber    SentenceNumber    LineNumber     Type      Language     PartOfSpeech 
    ___________    ______________    ______________    __________    _______    ________    ______________

    "fairest"            1                 1               1         letters       en       adjective     
    "creatures"          1                 1               1         letters       en       noun          
    "desire"             1                 1               1         letters       en       noun          
    "increase"           1                 1               1         letters       en       noun          
    "thereby"            1                 1               1         letters       en       adverb        
    "beautys"            1                 1               1         letters       en       noun          
    "rose"               1                 1               1         letters       en       noun          
    "might"              1                 1               1         letters       en       auxiliary-verb

Входные аргументы

свернуть все

`documents` - Исходные документы
`tokenizedDocument` множество

Исходные документы, указанные как tokenizedDocument массив.

Выходные аргументы

свернуть все

`tdetails` - Таблица сведений о маркерах
стол

Таблица сведений о маркере. tdetails имеет следующие переменные:

Имя	Описание
`Token`	Текст маркера, возвращаемый как строковый скаляр.
`DocumentNumber`	Индекс документа, которому принадлежит маркер, возвращенный как положительное целое число.
`SentenceNumber`	Число предложений маркера в документе, возвращаемое как положительное целое число. Если эти сведения отсутствуют, сначала добавьте сведения о предложении в `documents` с использованием `addSentenceDetails` функция.
`LineNumber`	Номер строки маркера в документе, возвращаемый как положительное целое число.
`Type`	Тип маркера, возвращаемый как один из следующих: `'letters'` - строка только буквенных символов `'digits'` - только строка цифр `'punctuation'` - строка только знаков препинания и символов `'email-address'` - обнаруженный адрес электронной почты `'web-address'` - обнаруженный веб-адрес `'hashtag'` - обнаруженный хэштег (начинается с `"#"` символ, за которым следует буква) `'at-mention'` - обнаружено при упоминании (начинается с `"@"` символ) `'emoticon'` - обнаруженный смайлик `'emoji'` - обнаруженные эмодзи `'other'` - не относится к предыдущим типам и не является пользовательским типом Если эти сведения отсутствуют, сначала добавьте сведения о типе в `documents` с использованием `addTypeDetails` функция.
`Language`	Язык маркера, возвращаемый как один из следующих: `'en'` - английский `'ja'` - японский язык `'de'` - немецкий язык `'ko'` - корейский Эти сведения о языке определяют поведение `removeStopWords`, `addPartOfSpeechDetails`, `normalizeWords`, `addSentenceDetails`, и `addEntityDetails` функции на маркерах. Если эти сведения отсутствуют, сначала добавьте сведения о языке в `documents` с использованием `addLanguageDetails` функция. Дополнительные сведения о языковой поддержке в Toolbox™ Text Analytics см. в разделе Языковые рекомендации.
`PartOfSpeech`	Часть речевого тега, указанная как категориальное из одного из следующих имен классов: `"adjective"` - Прилагательное `"adposition"` - Адпозиция `"adverb"` - Наречие `"auxiliary-verb"` - Вспомогательный глагол `"coord-conjunction"` - Координация взаимодействия `"determiner"` - Определитель `"interjection"` - Междометие `"noun"` - Существительное `"numeral"` - Цифра `"particle"` - Частица `"pronoun"` - Местоимение `"proper-noun"` - Собственное существительное `"punctuation"` - Пунктуация `"subord-conjunction"` - Подчиняющее сопряжение `"symbol"` - Символ `"verb"` - Глагол `"other"` Другое Если эти сведения отсутствуют, сначала добавьте сведения о части речи в `documents` с использованием `addPartOfSpeechDetails` функция.
`Entity`	Тег объекта, указанный как одно из следующих значений: `'location'` - обнаруженное местоположение `'organization'` - обнаруженная организация `'person'` - обнаруженный человек `'other'` - обнаруженный объект, не относящийся к вышеуказанным категориям `'non-entity'` - сущность не обнаружена Если эти сведения отсутствуют, сначала добавьте сведения об объекте в `documents` с использованием `addEntityDetails` функция.
`Lemma`	Форма леммы. Если эти данные отсутствуют, сначала введите данные леммы для `documents` с использованием `addLemmaDetails` функция.

Вопросы совместимости

развернуть все

`tokenDetails` возвращает тип маркера `emoji` для символов эмодзи

В R2018b изменилось поведение

Начиная с R2018b, tokenizedDocument обнаруживает символы эмодзи и tokenDetails функция сообщает эти маркеры с типом "emoji". Это упрощает анализ текста, содержащего символы эмодзи.

В R2018a, tokenDetails сообщает символы эмодзи с типом "other". Поиск индексов маркеров с типом "emoji" или "other", используйте индексы idx = tdetails.Type == "emoji" | tdetails.Type == "other", где tdetails - таблица сведений о маркерах.

См. также

Темы

Представлен в R2018a

Документация

tokenDetails

Синтаксис

Описание

Примеры

Просмотр сведений о маркерах документов

Добавить сведения о предложении в документы

Добавление сведений о части речи в документы

Входные аргументы

`documents` - Исходные документы
`tokenizedDocument` множество

Выходные аргументы

`tdetails` - Таблица сведений о маркерах
стол

Вопросы совместимости

`tokenDetails` возвращает тип маркера `emoji` для символов эмодзи

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

tokenDetails

Синтаксис

Описание

Примеры

Просмотр сведений о маркерах документов

Добавить сведения о предложении в документы

Добавление сведений о части речи в документы

Входные аргументы

documents - Исходные документы tokenizedDocument множество

Выходные аргументы

tdetails - Таблица сведений о маркерах стол

Вопросы совместимости

tokenDetails возвращает тип маркера emoji для символов эмодзи

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`documents` - Исходные документы
`tokenizedDocument` множество

`tdetails` - Таблица сведений о маркерах
стол

`tokenDetails` возвращает тип маркера `emoji` для символов эмодзи