Добавьте теги сущности в документы
Используйте addEntityDetails
добавить сущность помечает к документам.
Используйте addEntityDetails
обнаружить имена человека, местоположения, организации и другие именованные сущности в тексте. Этот процесс известен как распознавание именованной сущности.
Функция поддерживает английский, японский язык, немецкий язык и корейский текст.
обнаруживает именованные сущности в updatedDocuments
= addEntityDetails(documents
)documents
. Функция добавляет, что детали к лексемам с недостающей сущностью детализируют только. Получить детали сущности от updatedDocuments
, используйте tokenDetails
.
также задает дополнительные опции с помощью одной или нескольких пар "имя-значение".updatedDocuments
= addEntityDetails(documents
,Name,Value
)
Используйте addEntityDetails
перед использованием lower
верхний
, normalizeWords
, removeWords
, и removeStopWords
функции как addEntityDetails
информация об использовании, которая удалена этими функциями.
Создайте маркируемый массив документа.
str = [ "Mary moved to Natick, Massachusetts." "John uses MATLAB at MathWorks."]; documents = tokenizedDocument(str);
Добавьте, что сущность назначает в документы с помощью addEntityDetails
функция. Эта функция обнаруживает именованные сущности в тексте и добавляет детали в таблицу, возвращенную tokenDetails
функция. Посмотрите обновленные маркерные детали первых нескольких лексем.
documents = addEntityDetails(documents); tdetails = tokenDetails(documents)
tdetails=13×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
_______________ ______________ ______________ __________ ___________ ________ ____________ ____________
"Mary" 1 1 1 letters en proper-noun person
"moved" 1 1 1 letters en verb non-entity
"to" 1 1 1 letters en adposition non-entity
"Natick" 1 1 1 letters en proper-noun location
"," 1 1 1 punctuation en punctuation non-entity
"Massachusetts" 1 1 1 letters en proper-noun location
"." 1 1 1 punctuation en punctuation non-entity
"John" 2 1 1 letters en proper-noun person
"uses" 2 1 1 letters en verb non-entity
"MATLAB" 2 1 1 letters en proper-noun other
"at" 2 1 1 letters en adposition non-entity
"MathWorks" 2 1 1 letters en proper-noun organization
"." 2 1 1 punctuation en punctuation non-entity
Просмотрите слова, помеченные с сущностями "person"
местоположение
, "organization"
, или "other"
. Эти слова являются словами, не помеченными с "non-entity"
.
idx = tdetails.Entity ~= "non-entity";
tdetails.Token(idx)
ans = 6×1 string array
"Mary"
"Natick"
"Massachusetts"
"John"
"MATLAB"
"MathWorks"
Маркируйте японский текст с помощью tokenizedDocument
.
str = [ "マリーさんはボストンからニューヨークに引っ越しました。" "駅で鈴木さんに迎えに行きます。" "東京は大阪より大きいですか?" "東京に行った時、新宿や渋谷などいろいろな所に訪れたました。"]; documents = tokenizedDocument(str);
Для японского текста программное обеспечение автоматически добавляет теги именованной сущности, таким образом, вы не должны использовать addEntityDetails
функция. Это программное обеспечение обнаруживает имена человека, местоположения, организации и другие именованные сущности. Чтобы посмотреть детали сущности, используйте tokenDetails
функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
____________ ______________ __________ _______ ________ ____________ ____________ __________
"マリー" 1 1 letters ja proper-noun "マリー" person
"さん" 1 1 letters ja noun "さん" person
"は" 1 1 letters ja adposition "は" non-entity
"ボストン" 1 1 letters ja proper-noun "ボストン" location
"から" 1 1 letters ja adposition "から" non-entity
"ニューヨーク" 1 1 letters ja proper-noun "ニューヨーク" location
"に" 1 1 letters ja adposition "に" non-entity
"引っ越し" 1 1 letters ja verb "引っ越す" non-entity
Просмотрите слова, помеченные с сущностью "person"
местоположение
, "organization"
, или "other"
. Эти слова являются словами не теговый "non-entity"
.
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Token
ans = 11×1 string array
"マリー"
"さん"
"ボストン"
"ニューヨーク"
"鈴木"
"さん"
"東京"
"大阪"
"東京"
"新宿"
"渋谷"
Маркируйте немецкий текст с помощью tokenizedDocument
.
str = [ "Ernst zog von Frankfurt nach Berlin." "Besuchen Sie Volkswagen in Wolfsburg."]; documents = tokenizedDocument(str);
Чтобы добавить теги сущности в немецкий текст, используйте addEntityDetails
функция. Эта функция обнаруживает имена человека, местоположения, организации и другие именованные сущности.
documents = addEntityDetails(documents);
Чтобы посмотреть детали сущности, используйте tokenDetails
функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
Просмотрите слова, помеченные с сущностью "person"
местоположение
, "organization"
, или "other"
. Эти слова являются словами, не помеченными с "non-entity"
.
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)
ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
documents
— Введите документыtokenizedDocument
массивВведите документы, заданные как tokenizedDocument
массив.
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
'DiscardKnownValues',true
задает, чтобы отбросить ранее вычисленные детали и повторно вычислить их.'RetokenizeMethod'
— Метод, чтобы повторно маркировать документы'entity'
(значение по умолчанию) | 'none'
Метод, чтобы повторно маркировать документы, заданные как одно из следующего:
'entity'
– Преобразуйте лексемы для распознавания именованной сущности. Функция объединяет лексемы от той же сущности в одну лексему.
'none'
– Не повторно маркируйте документы.
'DiscardKnownValues'
— Опция, чтобы отбросить ранее вычисленные деталиfalse
(значение по умолчанию) | true
Опция, чтобы отбросить ранее вычисленные детали и повторно вычислить их, заданный как true
или false
.
Типы данных: логический
updatedDocuments
— Обновленные документыtokenizedDocument
массивОбновленные документы, возвращенные как tokenizedDocument
массив. Получить маркерные детали от updatedDocuments
, используйте tokenDetails
.
tokenizedDocument
объекты содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение addEntityDetails
. tokenizedDocument
функция, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language'
аргумент пары "имя-значение" tokenizedDocument
. Чтобы посмотреть маркерные детали, используйте tokenDetails
функция.
abbreviations
| addLanguageDetails
| addLemmaDetails
| addPartOfSpeechDetails
| addSentenceDetails
| addTypeDetails
| corpusLanguage
| splitSentences
| tokenDetails
| tokenizedDocument
| topLevelDomains
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.