Немецкая поддержка языка

Эта тема обобщает функции Text Analytics Toolbox™ тот немецкий текст поддержки. Для примера, показывающего, как анализировать немецкие текстовые данные, смотрите, Анализируют немецкие текстовые Данные.

Токенизация

tokenizedDocument функция автоматически обнаруживает немецкий вход. В качестве альтернативы установите 'Language' опция в tokenizedDocument к 'de'. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, использовать tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на лексемах.

Маркируйте немецкий текст

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Обнаружение предложения

Чтобы обнаружить структуру предложения в документах, используйте addSentenceDetails. Можно использовать abbreviations функция, чтобы помочь создавать пользовательские списки сокращений, чтобы обнаружить.

Добавьте, что предложение назначает в немецкие документы

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument.

str = [
    "Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Добавьте, что предложение назначает в документы с помощью addSentenceDetails. Эта функция добавляет числа предложения в таблицу, возвращенную tokenDetails. Посмотрите обновленные маркерные детали первых нескольких лексем.

documents = addSentenceDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails,10)

ans=10×6 table
      Token      DocumentNumber    SentenceNumber    LineNumber       Type        Language
    _________    ______________    ______________    __________    ___________    ________

    "Guten"            1                 1               1         letters           de   
    "Morgen"           1                 1               1         letters           de   
    ","                1                 1               1         punctuation       de   
    "Dr"               1                 1               1         letters           de   
    "."                1                 1               1         punctuation       de   
    "Schmidt"          1                 1               1         letters           de   
    "."                1                 1               1         punctuation       de   
    "Geht"             1                 2               1         letters           de   
    "es"               1                 2               1         letters           de   
    "Ihnen"            1                 2               1         letters           de

Таблица немецких сокращений

Скрипт Open Live Script

Просмотрите таблицу немецких сокращений. Используйте эту таблицу, чтобы помочь создавать пользовательские таблицы сокращений от обнаружения предложения при использовании addSentenceDetails.

tbl = abbreviations('Language','de');
head(tbl)

ans=8×2 table
    Abbreviation     Usage 
    ____________    _______

       "A.T"        regular
       "ABl"        regular
       "Abb"        regular
       "Abdr"       regular
       "Abf"        regular
       "Abfl"       regular
       "Abh"        regular
       "Abk"        regular

Детали части речи

Добавить немецкую часть речи назначает в документы, используйте addPartOfSpeechDetails функция.

Получите детали части речи немецкого текста

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Чтобы получить детали части речи для немецкого текста, сначала используйте addPartOfSpeechDetails.

documents = addPartOfSpeechDetails(documents);

Чтобы посмотреть детали части речи, используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×7 table
     Token      DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech
    ________    ______________    ______________    __________    ___________    ________    ____________

    "Guten"           1                 1               1         letters           de       adjective   
    "Morgen"          1                 1               1         letters           de       noun        
    "."               1                 1               1         punctuation       de       punctuation 
    "Wie"             1                 2               1         letters           de       adverb      
    "geht"            1                 2               1         letters           de       verb        
    "es"              1                 2               1         letters           de       pronoun     
    "dir"             1                 2               1         letters           de       pronoun     
    "?"               1                 2               1         punctuation       de       punctuation

Распознавание именованной сущности

Чтобы добавить теги сущности в документы, используйте addEntityDetails функция.

Добавьте теги именованной сущности в немецкий текст

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument.

str = [
    "Ernst zog von Frankfurt nach Berlin."
    "Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);

Чтобы добавить теги сущности в немецкий текст, используйте addEntityDetails функция. Эта функция обнаруживает имена человека, местоположения, организации и другие именованные сущности.

documents = addEntityDetails(documents);

Чтобы посмотреть детали сущности, используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×8 table
       Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech      Entity  
    ___________    ______________    ______________    __________    ___________    ________    ____________    __________

    "Ernst"              1                 1               1         letters           de       proper-noun     person    
    "zog"                1                 1               1         letters           de       verb            non-entity
    "von"                1                 1               1         letters           de       adposition      non-entity
    "Frankfurt"          1                 1               1         letters           de       proper-noun     location  
    "nach"               1                 1               1         letters           de       adposition      non-entity
    "Berlin"             1                 1               1         letters           de       proper-noun     location  
    "."                  1                 1               1         punctuation       de       punctuation     non-entity
    "Besuchen"           2                 1               1         letters           de       verb            non-entity

Просмотрите слова, помеченные с сущностью "person"местоположение , "organization", или "other". Эти слова являются словами, не помеченными с "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)

ans=5×8 table
       Token        DocumentNumber    SentenceNumber    LineNumber     Type      Language    PartOfSpeech       Entity   
    ____________    ______________    ______________    __________    _______    ________    ____________    ____________

    "Ernst"               1                 1               1         letters       de       proper-noun     person      
    "Frankfurt"           1                 1               1         letters       de       proper-noun     location    
    "Berlin"              1                 1               1         letters       de       proper-noun     location    
    "Volkswagen"          2                 1               1         letters       de       noun            organization
    "Wolfsburg"           2                 1               1         letters       de       proper-noun     location

Остановите слова

Чтобы удалить слова остановки из документов согласно маркерным деталям языка, использовать removeStopWords. Поскольку список немецких слов остановки установил 'Language' опция в stopWords к 'de'.

Удалите немецкие слова остановки из документов

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите слова остановки с помощью removeStopWords функция. Функция использует детали языка из документов, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)

documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Происхождение

Чтобы остановить лексемы согласно маркерным деталям языка, использовать normalizeWords.

Остановите немецкий текст

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Остановите лексемы с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  2x1 tokenizedDocument:

    8 tokens: gut morg . wie geht es dir ?
    6 tokens: heut wird ein gut tag .

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функции поддерживают tokenizedDocument введите независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, затем, можно использовать эти функции.

Моделирование и предсказание

fitlda и fitlsa функции поддерживают bagOfWords и bagOfNgrams введите независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, затем, можно использовать эти функции.

trainWordEmbedding функционируйте поддерживает tokenizedDocument или файл вводится независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.

Документация