Поддержка немецкого языка

В этом разделе приводится краткое описание функций Toolbox™ Text Analytics, поддерживающих немецкий текст. Пример анализа текстовых данных на немецком языке см. в разделе Анализ текстовых данных на немецком языке.

Tokenization

tokenizedDocument функция автоматически обнаруживает вход на немецком языке. Также можно установить значение 'Language' опция в tokenizedDocument кому 'de'. Этот параметр указывает сведения о языке маркеров. Для просмотра сведений о языке маркеров используйте tokenDetails. Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.

Маркировать немецкий текст

Открыть сценарий в реальном времени

Токенизировать немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Обнаружение предложений

Чтобы определить структуру предложения в документах, используйте addSentenceDetails. Вы можете использовать abbreviations для создания пользовательских списков обнаруживаемых сокращений.

Добавить сведения о предложении в документы на немецком языке

Открыть сценарий в реальном времени

Токенизировать немецкий текст с помощью tokenizedDocument.

str = [
    "Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Добавление сведений о предложении в документы с помощью addSentenceDetails. Эта функция добавляет номера предложений в таблицу, возвращаемую tokenDetails. Просмотр обновленных сведений о маркерах первых нескольких маркеров.

documents = addSentenceDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails,10)

ans=10×6 table
      Token      DocumentNumber    SentenceNumber    LineNumber       Type        Language
    _________    ______________    ______________    __________    ___________    ________

    "Guten"            1                 1               1         letters           de   
    "Morgen"           1                 1               1         letters           de   
    ","                1                 1               1         punctuation       de   
    "Dr"               1                 1               1         letters           de   
    "."                1                 1               1         punctuation       de   
    "Schmidt"          1                 1               1         letters           de   
    "."                1                 1               1         punctuation       de   
    "Geht"             1                 2               1         letters           de   
    "es"               1                 2               1         letters           de   
    "Ihnen"            1                 2               1         letters           de

Таблица сокращений на немецком языке

Открыть сценарий в реальном времени

Просмотр таблицы сокращений на немецком языке. Эта таблица используется для создания пользовательских таблиц сокращений для обнаружения предложений при использовании addSentenceDetails.

tbl = abbreviations('Language','de');
head(tbl)

ans=8×2 table
    Abbreviation     Usage 
    ____________    _______

       "A.T"        regular
       "ABl"        regular
       "Abb"        regular
       "Abdr"       regular
       "Abf"        regular
       "Abfl"       regular
       "Abh"        regular
       "Abk"        regular

Часть сведений о речи

Чтобы добавить немецкую часть сведений о речи в документы, используйте addPartOfSpeechDetails функция.

Получить часть речи Подробно немецкого текста

Открыть сценарий в реальном времени

Токенизировать немецкий текст с помощью tokenizedDocument.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Чтобы получить часть сведений о речи для немецкого текста, сначала используйте addPartOfSpeechDetails.

documents = addPartOfSpeechDetails(documents);

Для просмотра части сведений о речи используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×7 table
     Token      DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech
    ________    ______________    ______________    __________    ___________    ________    ____________

    "Guten"           1                 1               1         letters           de       adjective   
    "Morgen"          1                 1               1         letters           de       noun        
    "."               1                 1               1         punctuation       de       punctuation 
    "Wie"             1                 2               1         letters           de       adverb      
    "geht"            1                 2               1         letters           de       verb        
    "es"              1                 2               1         letters           de       pronoun     
    "dir"             1                 2               1         letters           de       pronoun     
    "?"               1                 2               1         punctuation       de       punctuation

Распознавание именованной сущности

Чтобы добавить теги объектов в документы, используйте addEntityDetails функция.

Добавление тегов именованных объектов в немецкий текст

Открыть сценарий в реальном времени

Токенизировать немецкий текст с помощью tokenizedDocument.

str = [
    "Ernst zog von Frankfurt nach Berlin."
    "Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);

Чтобы добавить теги объектов в немецкий текст, используйте addEntityDetails функция. Эта функция обнаруживает имена пользователей, расположения, организации и другие именованные сущности.

documents = addEntityDetails(documents);

Для просмотра сведений об объекте используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×8 table
       Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech      Entity  
    ___________    ______________    ______________    __________    ___________    ________    ____________    __________

    "Ernst"              1                 1               1         letters           de       proper-noun     person    
    "zog"                1                 1               1         letters           de       verb            non-entity
    "von"                1                 1               1         letters           de       adposition      non-entity
    "Frankfurt"          1                 1               1         letters           de       proper-noun     location  
    "nach"               1                 1               1         letters           de       adposition      non-entity
    "Berlin"             1                 1               1         letters           de       proper-noun     location  
    "."                  1                 1               1         punctuation       de       punctuation     non-entity
    "Besuchen"           2                 1               1         letters           de       verb            non-entity

Просмотр слов, помеченных сущностью "person", "location", "organization", или "other". Эти слова не помечены тегами "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)

ans=5×8 table
       Token        DocumentNumber    SentenceNumber    LineNumber     Type      Language    PartOfSpeech       Entity   
    ____________    ______________    ______________    __________    _______    ________    ____________    ____________

    "Ernst"               1                 1               1         letters       de       proper-noun     person      
    "Frankfurt"           1                 1               1         letters       de       proper-noun     location    
    "Berlin"              1                 1               1         letters       de       proper-noun     location    
    "Volkswagen"          2                 1               1         letters       de       noun            organization
    "Wolfsburg"           2                 1               1         letters       de       proper-noun     location

Стоп-слова

Чтобы удалить стоп-слова из документов согласно сведениям языка маркеров, используйте removeStopWords. Для списка немецких стоп-слов установите 'Language' опция в stopWords кому 'de'.

Удалить немецкие стоп-слова из документов

Открыть сценарий в реальном времени

Токенизировать немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалить стоп-слова с помощью removeStopWords функция. Функция использует сведения о языке из документов, чтобы определить, какой язык следует удалить.

documents = removeStopWords(documents)

documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Происхождение

Чтобы закрепить токены в соответствии с подробностями языка токенов, используйте normalizeWords.

Текст на немецком языке

Открыть сценарий в реальном времени

Маркировать немецкий текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Закрепление маркеров с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  2x1 tokenizedDocument:

    8 tokens: gut morg . wie geht es dir ?
    6 tokens: heut wird ein gut tag .

Функции, не зависящие от языка

Подсчет слов и N-граммов

bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.

Моделирование и прогнозирование

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.

trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.

См. также

Документация