Добавьте теги сущности в документы
Используйте addEntityDetails добавить сущность помечает к документам.
Используйте addEntityDetails обнаружить имена человека, местоположения, организации и другие именованные сущности в тексте. Этот процесс известен как распознавание именованной сущности.
Функция поддерживает английский, японский язык, немецкий язык и корейский текст.
обнаруживает именованные сущности в updatedDocuments = addEntityDetails(documents)documents. Функция добавляет, что детали к лексемам с недостающей сущностью детализируют только. Получить детали сущности от updatedDocuments, используйте tokenDetails.
также задает дополнительные опции с помощью одной или нескольких пар "имя-значение".updatedDocuments = addEntityDetails(documents,Name,Value)
Используйте addEntityDetails перед использованием lowerверхний, normalizeWords, removeWords, и removeStopWords функции как addEntityDetails информация об использовании, которая удалена этими функциями.
Создайте маркируемый массив документа.
str = [
"Mary moved to Natick, Massachusetts."
"John uses MATLAB at MathWorks."];
documents = tokenizedDocument(str);Добавьте, что сущность назначает в документы с помощью addEntityDetails функция. Эта функция обнаруживает именованные сущности в тексте и добавляет детали в таблицу, возвращенную tokenDetails функция. Посмотрите обновленные маркерные детали первых нескольких лексем.
documents = addEntityDetails(documents); tdetails = tokenDetails(documents)
tdetails=13×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
_______________ ______________ ______________ __________ ___________ ________ ____________ ____________
"Mary" 1 1 1 letters en proper-noun person
"moved" 1 1 1 letters en verb non-entity
"to" 1 1 1 letters en adposition non-entity
"Natick" 1 1 1 letters en proper-noun location
"," 1 1 1 punctuation en punctuation non-entity
"Massachusetts" 1 1 1 letters en proper-noun location
"." 1 1 1 punctuation en punctuation non-entity
"John" 2 1 1 letters en proper-noun person
"uses" 2 1 1 letters en verb non-entity
"MATLAB" 2 1 1 letters en proper-noun other
"at" 2 1 1 letters en adposition non-entity
"MathWorks" 2 1 1 letters en proper-noun organization
"." 2 1 1 punctuation en punctuation non-entity
Просмотрите слова, помеченные с сущностями "person"местоположение , "organization", или "other". Эти слова являются словами, не помеченными с "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails.Token(idx)ans = 6×1 string array
"Mary"
"Natick"
"Massachusetts"
"John"
"MATLAB"
"MathWorks"
Маркируйте японский текст с помощью tokenizedDocument.
str = [
"マリーさんはボストンからニューヨークに引っ越しました。"
"駅で鈴木さんに迎えに行きます。"
"東京は大阪より大きいですか?"
"東京に行った時、新宿や渋谷などいろいろな所に訪れたました。"];
documents = tokenizedDocument(str);Для японского текста программное обеспечение автоматически добавляет теги именованной сущности, таким образом, вы не должны использовать addEntityDetails функция. Это программное обеспечение обнаруживает имена человека, местоположения, организации и другие именованные сущности. Чтобы посмотреть детали сущности, используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
____________ ______________ __________ _______ ________ ____________ ____________ __________
"マリー" 1 1 letters ja proper-noun "マリー" person
"さん" 1 1 letters ja noun "さん" person
"は" 1 1 letters ja adposition "は" non-entity
"ボストン" 1 1 letters ja proper-noun "ボストン" location
"から" 1 1 letters ja adposition "から" non-entity
"ニューヨーク" 1 1 letters ja proper-noun "ニューヨーク" location
"に" 1 1 letters ja adposition "に" non-entity
"引っ越し" 1 1 letters ja verb "引っ越す" non-entity
Просмотрите слова, помеченные с сущностью "person"местоположение , "organization", или "other". Эти слова являются словами не теговый "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Tokenans = 11×1 string array
"マリー"
"さん"
"ボストン"
"ニューヨーク"
"鈴木"
"さん"
"東京"
"大阪"
"東京"
"新宿"
"渋谷"
Маркируйте немецкий текст с помощью tokenizedDocument.
str = [
"Ernst zog von Frankfurt nach Berlin."
"Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);Чтобы добавить теги сущности в немецкий текст, используйте addEntityDetails функция. Эта функция обнаруживает имена человека, местоположения, организации и другие именованные сущности.
documents = addEntityDetails(documents);
Чтобы посмотреть детали сущности, используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
Просмотрите слова, помеченные с сущностью "person"местоположение , "organization", или "other". Эти слова являются словами, не помеченными с "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
documents — Введите документыtokenizedDocument массивВведите документы, заданные как tokenizedDocument массив.
Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
'DiscardKnownValues',true задает, чтобы отбросить ранее вычисленные детали и повторно вычислить их.'RetokenizeMethod' — Метод, чтобы повторно маркировать документы'entity' (значение по умолчанию) | 'none'Метод, чтобы повторно маркировать документы, заданные как одно из следующего:
'entity' – Преобразуйте лексемы для распознавания именованной сущности. Функция объединяет лексемы от той же сущности в одну лексему.
'none' – Не повторно маркируйте документы.
'DiscardKnownValues' — Опция, чтобы отбросить ранее вычисленные деталиfalse (значение по умолчанию) | trueОпция, чтобы отбросить ранее вычисленные детали и повторно вычислить их, заданный как true или false.
Типы данных: логический
updatedDocuments — Обновленные документыtokenizedDocument массивОбновленные документы, возвращенные как tokenizedDocument массив. Получить маркерные детали от updatedDocuments, используйте tokenDetails.
tokenizedDocument объекты содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение addEntityDetails. tokenizedDocument функция, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language' аргумент пары "имя-значение" tokenizedDocument. Чтобы посмотреть маркерные детали, используйте tokenDetails функция.
abbreviations | addLanguageDetails | addLemmaDetails | addPartOfSpeechDetails | addSentenceDetails | addTypeDetails | corpusLanguage | splitSentences | tokenDetails | tokenizedDocument | topLevelDomains
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.