addEntityDetails

Добавление тегов сущностей к документам

Описание

Использовать addEntityDetails для добавления тегов сущностей к документам.

Использовать addEntityDetails для обнаружения имен, местоположений, организаций и других именованных сущностей в тексте. Этот процесс известен как распознавание именованных сущностей.

Функция поддерживает английский, японский, немецкий и корейский текст.

пример

updatedDocuments = addEntityDetails(documents) обнаруживает именованные сущности в documents. Функция добавляет детали к лексемам только с отсутствующими подробными данными сущности. Чтобы получить сведения о сущности от updatedDocuments, использование tokenDetails.

updatedDocuments = addEntityDetails(documents,Name,Value) также задает дополнительные опции, используя одну или несколько пары "имя-значение".

Совет

Использовать addEntityDetails перед использованием lower, upper, normalizeWords, removeWords, и removeStopWords функционирует как addEntityDetails использует информацию, которая удаляется этими функциями.

Примеры

свернуть все

Создайте токенизированный массив документов.

str = [
    "Mary moved to Natick, Massachusetts."
    "John uses MATLAB at MathWorks."];
documents = tokenizedDocument(str);

Добавление подробных данных сущности к документам с помощью addEntityDetails функция. Эта функция обнаруживает именованные сущности в тексте и добавляет детали в таблицу, возвращенную tokenDetails функция. Просмотрите обновленные сведения о токене первых нескольких лексем.

documents = addEntityDetails(documents);
tdetails = tokenDetails(documents)
tdetails=13×8 table
         Token         DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech       Entity   
    _______________    ______________    ______________    __________    ___________    ________    ____________    ____________

    "Mary"                   1                 1               1         letters           en       proper-noun     person      
    "moved"                  1                 1               1         letters           en       verb            non-entity  
    "to"                     1                 1               1         letters           en       adposition      non-entity  
    "Natick"                 1                 1               1         letters           en       proper-noun     location    
    ","                      1                 1               1         punctuation       en       punctuation     non-entity  
    "Massachusetts"          1                 1               1         letters           en       proper-noun     location    
    "."                      1                 1               1         punctuation       en       punctuation     non-entity  
    "John"                   2                 1               1         letters           en       proper-noun     person      
    "uses"                   2                 1               1         letters           en       verb            non-entity  
    "MATLAB"                 2                 1               1         letters           en       proper-noun     other       
    "at"                     2                 1               1         letters           en       adposition      non-entity  
    "MathWorks"              2                 1               1         letters           en       proper-noun     organization
    "."                      2                 1               1         punctuation       en       punctuation     non-entity  

Просмотрите слова, помеченные сущностями "person", "location", "organization", или "other". Эти слова являются словами, не отмеченными "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails.Token(idx)
ans = 6x1 string
    "Mary"
    "Natick"
    "Massachusetts"
    "John"
    "MATLAB"
    "MathWorks"

Токенизация японского текста с помощью tokenizedDocument.

str = [
    "マリーさんはボストンからニューヨークに引っ越しました。"
    "駅で鈴木さんに迎えに行きます。"
    "東京は大阪より大きいですか?"
    "東京に行った時、新宿や渋谷などいろいろな所を訪れました。"];
documents = tokenizedDocument(str);

Для японского текста программа автоматически добавляет именованные теги сущностей, поэтому вам не нужно использовать addEntityDetails функция. Это программное обеспечение обнаруживает имена лиц, местоположения, организации и другие именованные сущности. Чтобы просмотреть сведения о сущности, используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)
ans=8×8 table
       Token        DocumentNumber    LineNumber     Type      Language    PartOfSpeech       Lemma          Entity  
    ____________    ______________    __________    _______    ________    ____________    ____________    __________

    "マリー"               1               1         letters       ja       proper-noun     "マリー"         person    
    "さん"                1               1         letters       ja       noun            "さん"           person    
    "は"                  1               1         letters       ja       adposition      "は"            non-entity
    "ボストン"             1               1         letters       ja       proper-noun     "ボストン"        location  
    "から"                1               1         letters       ja       adposition      "から"           non-entity
    "ニューヨーク"          1               1         letters       ja       proper-noun     "ニューヨーク"    location  
    "に"                  1               1         letters       ja       adposition      "に"            non-entity
    "引っ越し"             1               1         letters       ja       verb            "引っ越す"        non-entity

Просмотрите слова, помеченные сущностью "person", "location", "organization", или "other". Эти слова не помечены "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Token
ans = 11x1 string
    "マリー"
    "さん"
    "ボストン"
    "ニューヨーク"
    "鈴木"
    "さん"
    "東京"
    "大阪"
    "東京"
    "新宿"
    "渋谷"

Токенизация текста на немецком языке с помощью tokenizedDocument.

str = [
    "Ernst zog von Frankfurt nach Berlin."
    "Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);

Чтобы добавить теги сущностей к немецкому тексту, используйте addEntityDetails функция. Эта функция обнаруживает имена лиц, местоположения, организации и другие именованные сущности.

documents = addEntityDetails(documents);

Чтобы просмотреть сведения о сущности, используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)
ans=8×8 table
       Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech      Entity  
    ___________    ______________    ______________    __________    ___________    ________    ____________    __________

    "Ernst"              1                 1               1         letters           de       proper-noun     person    
    "zog"                1                 1               1         letters           de       verb            non-entity
    "von"                1                 1               1         letters           de       adposition      non-entity
    "Frankfurt"          1                 1               1         letters           de       proper-noun     location  
    "nach"               1                 1               1         letters           de       adposition      non-entity
    "Berlin"             1                 1               1         letters           de       proper-noun     location  
    "."                  1                 1               1         punctuation       de       punctuation     non-entity
    "Besuchen"           2                 1               1         letters           de       verb            non-entity

Просмотрите слова, помеченные сущностью "person", "location", "organization", или "other". Эти слова являются словами, не отмеченными "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)
ans=5×8 table
       Token        DocumentNumber    SentenceNumber    LineNumber     Type      Language    PartOfSpeech       Entity   
    ____________    ______________    ______________    __________    _______    ________    ____________    ____________

    "Ernst"               1                 1               1         letters       de       proper-noun     person      
    "Frankfurt"           1                 1               1         letters       de       proper-noun     location    
    "Berlin"              1                 1               1         letters       de       proper-noun     location    
    "Volkswagen"          2                 1               1         letters       de       noun            organization
    "Wolfsburg"           2                 1               1         letters       de       proper-noun     location    

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'DiscardKnownValues',true задает, чтобы отменить ранее вычисленные данные и пересчитать их.

Метод ретокенизации документов, заданный как одно из следующего:

  • 'entity' - Преобразуйте лексемы для распознавания именованных сущностей. Функция объединяет лексемы из той же сущности в одну лексему.

  • 'none' - Не переформулировать документы.

Опция отменить ранее вычисленные детали и пересчитать их, заданная как true или false.

Типы данных: logical

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Чтобы получить сведения о лексеме от updatedDocuments, использование tokenDetails.

Алгоритмы

свернуть все

Подробная информация о языке

tokenizedDocument объекты содержат подробную информацию о лексемах, включая сведения о языке. Детали языка входных документов определяют поведение addEntityDetails. The tokenizedDocument функция по умолчанию автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language' Аргумент пары "имя-значение" из tokenizedDocument. Чтобы просмотреть сведения о лексеме, используйте tokenDetails функция.

Введенный в R2019a