Эта тема обобщает функции Text Analytics Toolbox™ тот немецкий текст поддержки. Для примера, показывающего, как анализировать немецкие текстовые данные, смотрите, Анализируют немецкие текстовые Данные.
tokenizedDocument функция автоматически обнаруживает немецкий вход. В качестве альтернативы установите 'Language' опция в tokenizedDocument к 'de'. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на лексемах.
Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Чтобы обнаружить структуру предложения в документах, используйте addSentenceDetails. Можно использовать abbreviations функционируйте, чтобы помочь создать пользовательские списки сокращений, чтобы обнаружить.
Маркируйте немецкий текст с помощью tokenizedDocument.
str = [
"Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);Добавьте, что предложение назначает в документы с помощью addSentenceDetails. Эта функция добавляет числа предложения в таблицу, возвращенную tokenDetails. Посмотрите обновленные маркерные детали первых нескольких лексем.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails,10)
ans=10×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
_________ ______________ ______________ __________ ___________ ________
"Guten" 1 1 1 letters de
"Morgen" 1 1 1 letters de
"," 1 1 1 punctuation de
"Dr" 1 1 1 letters de
"." 1 1 1 punctuation de
"Schmidt" 1 1 1 letters de
"." 1 1 1 punctuation de
"Geht" 1 2 1 letters de
"es" 1 2 1 letters de
"Ihnen" 1 2 1 letters de
Просмотрите таблицу немецких сокращений. Используйте эту таблицу, чтобы помочь составить пользовательские таблицы сокращений от обнаружения предложения при использовании addSentenceDetails.
tbl = abbreviations('Language','de'); head(tbl)
ans=8×2 table
Abbreviation Usage
____________ _______
"A.T" regular
"ABl" regular
"Abb" regular
"Abdr" regular
"Abf" regular
"Abfl" regular
"Abh" regular
"Abk" regular
Добавить немецкую часть речи назначает в документы, используйте addPartOfSpeechDetails функция.
Маркируйте немецкий текст с помощью tokenizedDocument.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Чтобы получить детали части речи для немецкого текста, сначала используйте addPartOfSpeechDetails.
documents = addPartOfSpeechDetails(documents);
Чтобы посмотреть детали части речи, используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×7 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech
________ ______________ ______________ __________ ___________ ________ ____________
"Guten" 1 1 1 letters de adjective
"Morgen" 1 1 1 letters de noun
"." 1 1 1 punctuation de punctuation
"Wie" 1 2 1 letters de adverb
"geht" 1 2 1 letters de verb
"es" 1 2 1 letters de pronoun
"dir" 1 2 1 letters de pronoun
"?" 1 2 1 punctuation de punctuation
Чтобы добавить теги сущности в документы, используйте addEntityDetails функция.
Маркируйте немецкий текст с помощью tokenizedDocument.
str = [
"Ernst zog von Frankfurt nach Berlin."
"Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);Чтобы добавить теги сущности в немецкий текст, используйте addEntityDetails функция. Эта функция обнаруживает имена человека, местоположения, организации и другие именованные сущности.
documents = addEntityDetails(documents);
Чтобы посмотреть детали сущности, используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
Просмотрите слова, помеченные с сущностью "person"местоположение , "organization", или "other". Эти слова являются словами, не помеченными с "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
Чтобы удалить слова остановки из документов согласно маркерным деталям языка, используйте removeStopWords. Поскольку список немецких слов остановки установил 'Language' опция в stopWords к 'de'.
Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Удалите слова остановки с помощью removeStopWords функция. Функция использует детали языка из документов, чтобы определить который слова остановки языка удалить.
documents = removeStopWords(documents)
documents =
2x1 tokenizedDocument:
5 tokens: Guten Morgen . geht ?
5 tokens: Heute wird guter Tag .
Чтобы остановить лексемы согласно маркерным деталям языка, используйте normalizeWords.
Маркируйте немецкий текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);Остановите лексемы с помощью normalizeWords.
documents = normalizeWords(documents)
documents =
2x1 tokenizedDocument:
8 tokens: gut morg . wie geht es dir ?
6 tokens: heut wird ein gut tag .
bagOfWords и bagOfNgrams функции поддерживают tokenizedDocument введите независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, затем, можно использовать эти функции.
fitlda и fitlsa функции поддерживают bagOfWords и bagOfNgrams введите независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, затем, можно использовать эти функции.
trainWordEmbedding функционируйте поддерживает tokenizedDocument или файл вводится независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.
addLanguageDetails | addPartOfSpeechDetails | normalizeWords | removeStopWords | stopWords | tokenDetails | tokenizedDocument