В этом разделе приводится краткое описание функций Toolbox™ Text Analytics, поддерживающих немецкий текст. Пример анализа текстовых данных на немецком языке см. в разделе Анализ текстовых данных на немецком языке.
tokenizedDocument функция автоматически обнаруживает вход на немецком языке. Также можно установить значение 'Language' опция в tokenizedDocument кому 'de'. Этот параметр указывает сведения о языке маркеров. Для просмотра сведений о языке маркеров используйте tokenDetails. Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.
Токенизировать немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Чтобы определить структуру предложения в документах, используйте addSentenceDetails. Вы можете использовать abbreviations для создания пользовательских списков обнаруживаемых сокращений.
Токенизировать немецкий текст с помощью tokenizedDocument.
str = [
"Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);Добавление сведений о предложении в документы с помощью addSentenceDetails. Эта функция добавляет номера предложений в таблицу, возвращаемую tokenDetails. Просмотр обновленных сведений о маркерах первых нескольких маркеров.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails,10)
ans=10×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
_________ ______________ ______________ __________ ___________ ________
"Guten" 1 1 1 letters de
"Morgen" 1 1 1 letters de
"," 1 1 1 punctuation de
"Dr" 1 1 1 letters de
"." 1 1 1 punctuation de
"Schmidt" 1 1 1 letters de
"." 1 1 1 punctuation de
"Geht" 1 2 1 letters de
"es" 1 2 1 letters de
"Ihnen" 1 2 1 letters de
Просмотр таблицы сокращений на немецком языке. Эта таблица используется для создания пользовательских таблиц сокращений для обнаружения предложений при использовании addSentenceDetails.
tbl = abbreviations('Language','de'); head(tbl)
ans=8×2 table
Abbreviation Usage
____________ _______
"A.T" regular
"ABl" regular
"Abb" regular
"Abdr" regular
"Abf" regular
"Abfl" regular
"Abh" regular
"Abk" regular
Чтобы добавить немецкую часть сведений о речи в документы, используйте addPartOfSpeechDetails функция.
Токенизировать немецкий текст с помощью tokenizedDocument.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Чтобы получить часть сведений о речи для немецкого текста, сначала используйте addPartOfSpeechDetails.
documents = addPartOfSpeechDetails(documents);
Для просмотра части сведений о речи используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×7 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech
________ ______________ ______________ __________ ___________ ________ ____________
"Guten" 1 1 1 letters de adjective
"Morgen" 1 1 1 letters de noun
"." 1 1 1 punctuation de punctuation
"Wie" 1 2 1 letters de adverb
"geht" 1 2 1 letters de verb
"es" 1 2 1 letters de pronoun
"dir" 1 2 1 letters de pronoun
"?" 1 2 1 punctuation de punctuation
Чтобы добавить теги объектов в документы, используйте addEntityDetails функция.
Токенизировать немецкий текст с помощью tokenizedDocument.
str = [
"Ernst zog von Frankfurt nach Berlin."
"Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);Чтобы добавить теги объектов в немецкий текст, используйте addEntityDetails функция. Эта функция обнаруживает имена пользователей, расположения, организации и другие именованные сущности.
documents = addEntityDetails(documents);
Для просмотра сведений об объекте используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
Просмотр слов, помеченных сущностью "person", "location", "organization", или "other". Эти слова не помечены тегами "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
Чтобы удалить стоп-слова из документов согласно сведениям языка маркеров, используйте removeStopWords. Для списка немецких стоп-слов установите 'Language' опция в stopWords кому 'de'.
Токенизировать немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2x1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
Удалить стоп-слова с помощью removeStopWords функция. Функция использует сведения о языке из документов, чтобы определить, какой язык следует удалить.
documents = removeStopWords(documents)
documents =
2x1 tokenizedDocument:
5 tokens: Guten Morgen . geht ?
5 tokens: Heute wird guter Tag .
Чтобы закрепить токены в соответствии с подробностями языка токенов, используйте normalizeWords.
Маркировать немецкий текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает немецкий текст.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);Закрепление маркеров с помощью normalizeWords.
documents = normalizeWords(documents)
documents =
2x1 tokenizedDocument:
8 tokens: gut morg . wie geht es dir ?
6 tokens: heut wird ein gut tag .
bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.
fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.
trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.
addLanguageDetails | addPartOfSpeechDetails | normalizeWords | removeStopWords | stopWords | tokenDetails | tokenizedDocument