В этом разделе описываются Text Analytics Toolbox™ функции, поддержки текст на немецком языке. Пример анализа текстовых данных на немецком языке см. в разделе Анализ текстовых данных на немецком языке.
The tokenizedDocument функция автоматически обнаруживает немецкий вход. Кроме того, установите 'Language' опция в tokenizedDocument на 'de'. Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функций на лексемах.
Токенизация текста на немецком языке с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Чтобы обнаружить структуру предложения в документах, используйте addSentenceDetails. Вы можете использовать abbreviations функция, которая поможет создать пользовательские списки сокращений для обнаружения.
Токенизация текста на немецком языке с помощью tokenizedDocument.
str = [
"Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);Добавьте подробные данные предложения к документам с помощью addSentenceDetails. Эта функция добавляет номера предложений в таблицу, возвращаемую tokenDetails. Просмотрите обновленные сведения о токене первых нескольких лексем.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails,10)
ans=10×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
_________ ______________ ______________ __________ ___________ ________
"Guten" 1 1 1 letters de
"Morgen" 1 1 1 letters de
"," 1 1 1 punctuation de
"Dr" 1 1 1 letters de
"." 1 1 1 punctuation de
"Schmidt" 1 1 1 letters de
"." 1 1 1 punctuation de
"Geht" 1 2 1 letters de
"es" 1 2 1 letters de
"Ihnen" 1 2 1 letters de
Просмотр таблицы немецких сокращений. Используйте эту таблицу, чтобы помочь создать пользовательские таблицы сокращений для обнаружения предложений при использовании addSentenceDetails.
tbl = abbreviations('Language','de'); head(tbl)
ans=8×2 table
Abbreviation Usage
____________ _______
"A.T" regular
"ABl" regular
"Abb" regular
"Abdr" regular
"Abf" regular
"Abfl" regular
"Abh" regular
"Abk" regular
Чтобы добавить немецкую часть сведений о речи в документы, используйте addPartOfSpeechDetails функция.
Токенизация текста на немецком языке с помощью tokenizedDocument.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Чтобы получить детали речи для текста на немецком языке, сначала используйте addPartOfSpeechDetails.
documents = addPartOfSpeechDetails(documents);
Чтобы просмотреть детали речи, используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×7 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech
________ ______________ ______________ __________ ___________ ________ ____________
"Guten" 1 1 1 letters de adjective
"Morgen" 1 1 1 letters de noun
"." 1 1 1 punctuation de punctuation
"Wie" 1 2 1 letters de adverb
"geht" 1 2 1 letters de verb
"es" 1 2 1 letters de pronoun
"dir" 1 2 1 letters de pronoun
"?" 1 2 1 punctuation de punctuation
Чтобы добавить теги сущностей к документам, используйте addEntityDetails функция.
Токенизация текста на немецком языке с помощью tokenizedDocument.
str = [
"Ernst zog von Frankfurt nach Berlin."
"Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);Чтобы добавить теги сущностей к немецкому тексту, используйте addEntityDetails функция. Эта функция обнаруживает имена лиц, местоположения, организации и другие именованные сущности.
documents = addEntityDetails(documents);
Чтобы просмотреть сведения о сущности, используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
Просмотрите слова, помеченные сущностью "person", "location", "organization", или "other". Эти слова являются словами, не отмеченными "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
Чтобы удалить стоповые слова из документов в соответствии с подробными данными языка токенов, используйте removeStopWords. Для получения списка немецких стоповых слов установите 'Language' опция в stopWords на 'de'.
Токенизация текста на немецком языке с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Удалите стоповые слова с помощью removeStopWords функция. Функция использует подробные данные языка из документов, чтобы определить, какие слова остановки следует удалить.
documents = removeStopWords(documents)
documents =
2x1 tokenizedDocument:
5 tokens: Guten Morgen . geht ?
5 tokens: Heute wird guter Tag .
Чтобы создать лексемы в соответствии с подробностями языка токенов, используйте normalizeWords.
Токенизация текста на немецком языке с помощью tokenizedDocument функция. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);Остановите лексемы, используя normalizeWords.
documents = normalizeWords(documents)
documents =
2x1 tokenizedDocument:
8 tokens: gut morg . wie geht es dir ?
6 tokens: heut wird ein gut tag .
The bagOfWords и bagOfNgrams поддержка функций tokenizedDocument вход независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, тогда вы можете использовать эти функции.
fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams вход независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, тогда вы можете использовать эти функции.
trainWordEmbedding функция поддерживает tokenizedDocument или файл входа независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.
addLanguageDetails | addPartOfSpeechDetails | normalizeWords | removeStopWords | stopWords | tokenDetails | tokenizedDocument