exponenta event banner

tokenDetails

Сведения о маркерах в маркированном массиве документов

Описание

пример

tdetails = tokenDetails(documents) возвращает таблицу сведений о маркерах для маркеров в tokenizedDocument множество documents.

Примеры

свернуть все

Создание маркированного массива документов.

str = [ ...
    "This is an example document. It has two sentences."
    "This document has one sentence and an emoticon. :)"
    "Here is another example document. :D"];
documents = tokenizedDocument(str);

Просмотр сведений о маркерах первых нескольких маркеров.

tdetails = tokenDetails(documents);
head(tdetails)
ans=8×5 table
      Token       DocumentNumber    LineNumber       Type        Language
    __________    ______________    __________    ___________    ________

    "This"              1               1         letters           en   
    "is"                1               1         letters           en   
    "an"                1               1         letters           en   
    "example"           1               1         letters           en   
    "document"          1               1         letters           en   
    "."                 1               1         punctuation       en   
    "It"                1               1         letters           en   
    "has"               1               1         letters           en   

type содержит тип каждого маркера. Просмотр смайликов в документах.

idx = tdetails.Type == "emoticon";
tdetails(idx,:)
ans=2×5 table
    Token    DocumentNumber    LineNumber      Type      Language
    _____    ______________    __________    ________    ________

    ":)"           2               1         emoticon       en   
    ":D"           3               1         emoticon       en   

Создание маркированного массива документов.

str = [ ...
    "This is an example document. It has two sentences."
    "This document has one sentence."
    "Here is another example document. It also has two sentences."];
documents = tokenizedDocument(str);

Добавление сведений о предложении в документы с помощью addSentenceDetails. Эта функция добавляет номера предложений в таблицу, возвращаемую tokenDetails. Просмотр обновленных сведений о маркерах первых нескольких маркеров.

documents = addSentenceDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×6 table
      Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language
    __________    ______________    ______________    __________    ___________    ________

    "This"              1                 1               1         letters           en   
    "is"                1                 1               1         letters           en   
    "an"                1                 1               1         letters           en   
    "example"           1                 1               1         letters           en   
    "document"          1                 1               1         letters           en   
    "."                 1                 1               1         punctuation       en   
    "It"                1                 2               1         letters           en   
    "has"               1                 2               1         letters           en   

Просмотрите сведения о маркере второго предложения третьего документа.

idx = tdetails.DocumentNumber == 3 & ...
    tdetails.SentenceNumber == 2;
tdetails(idx,:)
ans=6×6 table
       Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language
    ___________    ______________    ______________    __________    ___________    ________

    "It"                 3                 2               1         letters           en   
    "also"               3                 2               1         letters           en   
    "has"                3                 2               1         letters           en   
    "two"                3                 2               1         letters           en   
    "sentences"          3                 2               1         letters           en   
    "."                  3                 2               1         punctuation       en   

Загрузите данные примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит один сонет на строку со словами, разделенными пробелом. Извлечь текст из sonnetsPreprocessed.txtразделите текст на документы с новыми символами, а затем пометьте документы.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Просмотр сведений о маркерах первых нескольких маркеров.

tdetails = tokenDetails(documents);
head(tdetails)
ans=8×5 table
       Token       DocumentNumber    LineNumber     Type      Language
    ___________    ______________    __________    _______    ________

    "fairest"            1               1         letters       en   
    "creatures"          1               1         letters       en   
    "desire"             1               1         letters       en   
    "increase"           1               1         letters       en   
    "thereby"            1               1         letters       en   
    "beautys"            1               1         letters       en   
    "rose"               1               1         letters       en   
    "might"              1               1         letters       en   

Добавление деталей речи в документы с помощью addPartOfSpeechDetails функция. Эта функция сначала добавляет информацию о предложении в документы, а затем добавляет теги части речи в таблицу, возвращаемую tokenDetails. Просмотр обновленных сведений о маркерах первых нескольких маркеров.

documents = addPartOfSpeechDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×7 table
       Token       DocumentNumber    SentenceNumber    LineNumber     Type      Language     PartOfSpeech 
    ___________    ______________    ______________    __________    _______    ________    ______________

    "fairest"            1                 1               1         letters       en       adjective     
    "creatures"          1                 1               1         letters       en       noun          
    "desire"             1                 1               1         letters       en       noun          
    "increase"           1                 1               1         letters       en       noun          
    "thereby"            1                 1               1         letters       en       adverb        
    "beautys"            1                 1               1         letters       en       noun          
    "rose"               1                 1               1         letters       en       noun          
    "might"              1                 1               1         letters       en       auxiliary-verb

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

Выходные аргументы

свернуть все

Таблица сведений о маркере. tdetails имеет следующие переменные:

ИмяОписание
TokenТекст маркера, возвращаемый как строковый скаляр.
DocumentNumberИндекс документа, которому принадлежит маркер, возвращенный как положительное целое число.
SentenceNumberЧисло предложений маркера в документе, возвращаемое как положительное целое число. Если эти сведения отсутствуют, сначала добавьте сведения о предложении в documents с использованием addSentenceDetails функция.
LineNumberНомер строки маркера в документе, возвращаемый как положительное целое число.
Type

Тип маркера, возвращаемый как один из следующих:

  • 'letters' - строка только буквенных символов

  • 'digits' - только строка цифр

  • 'punctuation' - строка только знаков препинания и символов

  • 'email-address' - обнаруженный адрес электронной почты

  • 'web-address' - обнаруженный веб-адрес

  • 'hashtag' - обнаруженный хэштег (начинается с "#" символ, за которым следует буква)

  • 'at-mention' - обнаружено при упоминании (начинается с "@" символ)

  • 'emoticon' - обнаруженный смайлик

  • 'emoji' - обнаруженные эмодзи

  • 'other' - не относится к предыдущим типам и не является пользовательским типом

Если эти сведения отсутствуют, сначала добавьте сведения о типе в documents с использованием addTypeDetails функция.

Language

Язык маркера, возвращаемый как один из следующих:

  • 'en' - английский

  • 'ja' - японский язык

  • 'de' - немецкий язык

  • 'ko' - корейский

Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.

Если эти сведения отсутствуют, сначала добавьте сведения о языке в documents с использованием addLanguageDetails функция.

Дополнительные сведения о языковой поддержке в Toolbox™ Text Analytics см. в разделе Языковые рекомендации.

PartOfSpeech

Часть речевого тега, указанная как категориальное из одного из следующих имен классов:

  • "adjective" - Прилагательное

  • "adposition" - Адпозиция

  • "adverb" - Наречие

  • "auxiliary-verb" - Вспомогательный глагол

  • "coord-conjunction" - Координация взаимодействия

  • "determiner" - Определитель

  • "interjection" - Междометие

  • "noun" - Существительное

  • "numeral" - Цифра

  • "particle" - Частица

  • "pronoun" - Местоимение

  • "proper-noun" - Собственное существительное

  • "punctuation" - Пунктуация

  • "subord-conjunction" - Подчиняющее сопряжение

  • "symbol" - Символ

  • "verb" - Глагол

  • "other" Другое

Если эти сведения отсутствуют, сначала добавьте сведения о части речи в documents с использованием addPartOfSpeechDetails функция.

Entity

Тег объекта, указанный как одно из следующих значений:

  • 'location' - обнаруженное местоположение

  • 'organization' - обнаруженная организация

  • 'person' - обнаруженный человек

  • 'other' - обнаруженный объект, не относящийся к вышеуказанным категориям

  • 'non-entity' - сущность не обнаружена

Если эти сведения отсутствуют, сначала добавьте сведения об объекте в documents с использованием addEntityDetails функция.

Lemma

Форма леммы. Если эти данные отсутствуют, сначала введите данные леммы для documents с использованием addLemmaDetails функция.

Вопросы совместимости

развернуть все

В R2018b изменилось поведение

Представлен в R2018a