Эта тема обобщает функции Text Analytics Toolbox™ тот немецкий текст поддержки. Для примера, показывающего, как анализировать немецкие текстовые данные, смотрите, Анализируют немецкие текстовые Данные.
tokenizedDocument
функция автоматически обнаруживает немецкий вход. В качестве альтернативы установите 'Language'
опция в tokenizedDocument
к 'de'
. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, использовать tokenDetails
. Эти детали языка определяют поведение removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
, и addEntityDetails
функции на лексемах.
Маркируйте немецкий текст с помощью tokenizedDocument
. Функция автоматически обнаруживает немецкий текст.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8 tokens: Guten Morgen . Wie geht es dir ? 6 tokens: Heute wird ein guter Tag .
Чтобы обнаружить структуру предложения в документах, используйте addSentenceDetails
. Можно использовать abbreviations
функция, чтобы помочь создавать пользовательские списки сокращений, чтобы обнаружить.
Маркируйте немецкий текст с помощью tokenizedDocument
.
str = [ "Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str);
Добавьте, что предложение назначает в документы с помощью addSentenceDetails
. Эта функция добавляет числа предложения в таблицу, возвращенную tokenDetails
. Посмотрите обновленные маркерные детали первых нескольких лексем.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails,10)
ans=10×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
_________ ______________ ______________ __________ ___________ ________
"Guten" 1 1 1 letters de
"Morgen" 1 1 1 letters de
"," 1 1 1 punctuation de
"Dr" 1 1 1 letters de
"." 1 1 1 punctuation de
"Schmidt" 1 1 1 letters de
"." 1 1 1 punctuation de
"Geht" 1 2 1 letters de
"es" 1 2 1 letters de
"Ihnen" 1 2 1 letters de
Просмотрите таблицу немецких сокращений. Используйте эту таблицу, чтобы помочь создавать пользовательские таблицы сокращений от обнаружения предложения при использовании addSentenceDetails
.
tbl = abbreviations('Language','de'); head(tbl)
ans=8×2 table
Abbreviation Usage
____________ _______
"A.T" regular
"ABl" regular
"Abb" regular
"Abdr" regular
"Abf" regular
"Abfl" regular
"Abh" regular
"Abk" regular
Добавить немецкую часть речи назначает в документы, используйте addPartOfSpeechDetails
функция.
Маркируйте немецкий текст с помощью tokenizedDocument
.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8 tokens: Guten Morgen . Wie geht es dir ? 6 tokens: Heute wird ein guter Tag .
Чтобы получить детали части речи для немецкого текста, сначала используйте addPartOfSpeechDetails
.
documents = addPartOfSpeechDetails(documents);
Чтобы посмотреть детали части речи, используйте tokenDetails
функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×7 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech
________ ______________ ______________ __________ ___________ ________ ____________
"Guten" 1 1 1 letters de adjective
"Morgen" 1 1 1 letters de noun
"." 1 1 1 punctuation de punctuation
"Wie" 1 2 1 letters de adverb
"geht" 1 2 1 letters de verb
"es" 1 2 1 letters de pronoun
"dir" 1 2 1 letters de pronoun
"?" 1 2 1 punctuation de punctuation
Чтобы добавить теги сущности в документы, используйте addEntityDetails
функция.
Маркируйте немецкий текст с помощью tokenizedDocument
.
str = [ "Ernst zog von Frankfurt nach Berlin." "Besuchen Sie Volkswagen in Wolfsburg."]; documents = tokenizedDocument(str);
Чтобы добавить теги сущности в немецкий текст, используйте addEntityDetails
функция. Эта функция обнаруживает имена человека, местоположения, организации и другие именованные сущности.
documents = addEntityDetails(documents);
Чтобы посмотреть детали сущности, используйте tokenDetails
функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
Просмотрите слова, помеченные с сущностью "person"
местоположение
, "organization"
, или "other"
. Эти слова являются словами, не помеченными с "non-entity"
.
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)
ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
Чтобы удалить слова остановки из документов согласно маркерным деталям языка, использовать removeStopWords
. Поскольку список немецких слов остановки установил 'Language'
опция в stopWords
к 'de'
.
Маркируйте немецкий текст с помощью tokenizedDocument
. Функция автоматически обнаруживает немецкий текст.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8 tokens: Guten Morgen . Wie geht es dir ? 6 tokens: Heute wird ein guter Tag .
Удалите слова остановки с помощью removeStopWords
функция. Функция использует детали языка из документов, чтобы определить который слова остановки языка удалить.
documents = removeStopWords(documents)
documents = 2x1 tokenizedDocument: 5 tokens: Guten Morgen . geht ? 5 tokens: Heute wird guter Tag .
Чтобы остановить лексемы согласно маркерным деталям языка, использовать normalizeWords
.
Маркируйте немецкий текст с помощью tokenizedDocument
функция. Функция автоматически обнаруживает немецкий текст.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str);
Остановите лексемы с помощью normalizeWords
.
documents = normalizeWords(documents)
documents = 2x1 tokenizedDocument: 8 tokens: gut morg . wie geht es dir ? 6 tokens: heut wird ein gut tag .
bagOfWords
и bagOfNgrams
функции поддерживают tokenizedDocument
введите независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, затем, можно использовать эти функции.
fitlda
и fitlsa
функции поддерживают bagOfWords
и bagOfNgrams
введите независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, затем, можно использовать эти функции.
trainWordEmbedding
функционируйте поддерживает tokenizedDocument
или файл вводится независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.
tokenizedDocument
| removeStopWords
| stopWords
| addPartOfSpeechDetails
| tokenDetails
| normalizeWords
| addLanguageDetails