В этом разделе описываются Text Analytics Toolbox™ функции, поддержки текст на немецком языке. Пример анализа текстовых данных на немецком языке см. в разделе Анализ текстовых данных на немецком языке.
The tokenizedDocument
функция автоматически обнаруживает немецкий вход. Кроме того, установите 'Language'
опция в tokenizedDocument
на 'de'
. Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails
. Эти детали языка определяют поведение removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
, и addEntityDetails
функций на лексемах.
Токенизация текста на немецком языке с помощью tokenizedDocument
. Функция автоматически обнаруживает немецкий текст.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8 tokens: Guten Morgen . Wie geht es dir ? 6 tokens: Heute wird ein guter Tag .
Чтобы обнаружить структуру предложения в документах, используйте addSentenceDetails
. Вы можете использовать abbreviations
функция, которая поможет создать пользовательские списки сокращений для обнаружения.
Токенизация текста на немецком языке с помощью tokenizedDocument
.
str = [ "Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str);
Добавьте подробные данные предложения к документам с помощью addSentenceDetails
. Эта функция добавляет номера предложений в таблицу, возвращаемую tokenDetails
. Просмотрите обновленные сведения о токене первых нескольких лексем.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails,10)
ans=10×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
_________ ______________ ______________ __________ ___________ ________
"Guten" 1 1 1 letters de
"Morgen" 1 1 1 letters de
"," 1 1 1 punctuation de
"Dr" 1 1 1 letters de
"." 1 1 1 punctuation de
"Schmidt" 1 1 1 letters de
"." 1 1 1 punctuation de
"Geht" 1 2 1 letters de
"es" 1 2 1 letters de
"Ihnen" 1 2 1 letters de
Просмотр таблицы немецких сокращений. Используйте эту таблицу, чтобы помочь создать пользовательские таблицы сокращений для обнаружения предложений при использовании addSentenceDetails
.
tbl = abbreviations('Language','de'); head(tbl)
ans=8×2 table
Abbreviation Usage
____________ _______
"A.T" regular
"ABl" regular
"Abb" regular
"Abdr" regular
"Abf" regular
"Abfl" regular
"Abh" regular
"Abk" regular
Чтобы добавить немецкую часть сведений о речи в документы, используйте addPartOfSpeechDetails
функция.
Токенизация текста на немецком языке с помощью tokenizedDocument
.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8 tokens: Guten Morgen . Wie geht es dir ? 6 tokens: Heute wird ein guter Tag .
Чтобы получить детали речи для текста на немецком языке, сначала используйте addPartOfSpeechDetails
.
documents = addPartOfSpeechDetails(documents);
Чтобы просмотреть детали речи, используйте tokenDetails
функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×7 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech
________ ______________ ______________ __________ ___________ ________ ____________
"Guten" 1 1 1 letters de adjective
"Morgen" 1 1 1 letters de noun
"." 1 1 1 punctuation de punctuation
"Wie" 1 2 1 letters de adverb
"geht" 1 2 1 letters de verb
"es" 1 2 1 letters de pronoun
"dir" 1 2 1 letters de pronoun
"?" 1 2 1 punctuation de punctuation
Чтобы добавить теги сущностей к документам, используйте addEntityDetails
функция.
Токенизация текста на немецком языке с помощью tokenizedDocument
.
str = [ "Ernst zog von Frankfurt nach Berlin." "Besuchen Sie Volkswagen in Wolfsburg."]; documents = tokenizedDocument(str);
Чтобы добавить теги сущностей к немецкому тексту, используйте addEntityDetails
функция. Эта функция обнаруживает имена лиц, местоположения, организации и другие именованные сущности.
documents = addEntityDetails(documents);
Чтобы просмотреть сведения о сущности, используйте tokenDetails
функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
Просмотрите слова, помеченные сущностью "person"
, "location"
, "organization"
, или "other"
. Эти слова являются словами, не отмеченными "non-entity"
.
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)
ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
Чтобы удалить стоповые слова из документов в соответствии с подробными данными языка токенов, используйте removeStopWords
. Для получения списка немецких стоповых слов установите 'Language'
опция в stopWords
на 'de'
.
Токенизация текста на немецком языке с помощью tokenizedDocument
. Функция автоматически обнаруживает немецкий текст.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8 tokens: Guten Morgen . Wie geht es dir ? 6 tokens: Heute wird ein guter Tag .
Удалите стоповые слова с помощью removeStopWords
функция. Функция использует подробные данные языка из документов, чтобы определить, какие слова остановки следует удалить.
documents = removeStopWords(documents)
documents = 2x1 tokenizedDocument: 5 tokens: Guten Morgen . geht ? 5 tokens: Heute wird guter Tag .
Чтобы создать лексемы в соответствии с подробностями языка токенов, используйте normalizeWords
.
Токенизация текста на немецком языке с помощью tokenizedDocument
функция. Функция автоматически обнаруживает немецкий текст.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str);
Остановите лексемы, используя normalizeWords
.
documents = normalizeWords(documents)
documents = 2x1 tokenizedDocument: 8 tokens: gut morg . wie geht es dir ? 6 tokens: heut wird ein gut tag .
The bagOfWords
и bagOfNgrams
поддержка функций tokenizedDocument
вход независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, тогда вы можете использовать эти функции.
fitlda
и fitlsa
поддержка функций bagOfWords
и bagOfNgrams
вход независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, тогда вы можете использовать эти функции.
trainWordEmbedding
функция поддерживает tokenizedDocument
или файл входа независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.
addLanguageDetails
| addPartOfSpeechDetails
| normalizeWords
| removeStopWords
| stopWords
| tokenDetails
| tokenizedDocument