Поддержка немецкого языка

В этом разделе описываются Text Analytics Toolbox™ функции, поддержки текст на немецком языке. Пример анализа текстовых данных на немецком языке см. в разделе Анализ текстовых данных на немецком языке.

Tokenization

The tokenizedDocument функция автоматически обнаруживает немецкий вход. Кроме того, установите 'Language' опция в tokenizedDocument на 'de'. Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функций на лексемах.

Токенизация текста на немецком языке

Открыть Live Script

Токенизация текста на немецком языке с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Обнаружение предложений

Чтобы обнаружить структуру предложения в документах, используйте addSentenceDetails. Вы можете использовать abbreviations функция, которая поможет создать пользовательские списки сокращений для обнаружения.

Добавление сведений о предложении в документы на немецком языке

Открыть Live Script

Токенизация текста на немецком языке с помощью tokenizedDocument.

str = [
    "Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Добавьте подробные данные предложения к документам с помощью addSentenceDetails. Эта функция добавляет номера предложений в таблицу, возвращаемую tokenDetails. Просмотрите обновленные сведения о токене первых нескольких лексем.

documents = addSentenceDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails,10)

ans=10×6 table
      Token      DocumentNumber    SentenceNumber    LineNumber       Type        Language
    _________    ______________    ______________    __________    ___________    ________

    "Guten"            1                 1               1         letters           de   
    "Morgen"           1                 1               1         letters           de   
    ","                1                 1               1         punctuation       de   
    "Dr"               1                 1               1         letters           de   
    "."                1                 1               1         punctuation       de   
    "Schmidt"          1                 1               1         letters           de   
    "."                1                 1               1         punctuation       de   
    "Geht"             1                 2               1         letters           de   
    "es"               1                 2               1         letters           de   
    "Ihnen"            1                 2               1         letters           de

Таблица сокращений на немецком языке

Открыть Live Script

Просмотр таблицы немецких сокращений. Используйте эту таблицу, чтобы помочь создать пользовательские таблицы сокращений для обнаружения предложений при использовании addSentenceDetails.

tbl = abbreviations('Language','de');
head(tbl)

ans=8×2 table
    Abbreviation     Usage 
    ____________    _______

       "A.T"        regular
       "ABl"        regular
       "Abb"        regular
       "Abdr"       regular
       "Abf"        regular
       "Abfl"       regular
       "Abh"        regular
       "Abk"        regular

Детали части речи

Чтобы добавить немецкую часть сведений о речи в документы, используйте addPartOfSpeechDetails функция.

Получить часть речи Детали немецкого текста

Открыть Live Script

Токенизация текста на немецком языке с помощью tokenizedDocument.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Чтобы получить детали речи для текста на немецком языке, сначала используйте addPartOfSpeechDetails.

documents = addPartOfSpeechDetails(documents);

Чтобы просмотреть детали речи, используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×7 table
     Token      DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech
    ________    ______________    ______________    __________    ___________    ________    ____________

    "Guten"           1                 1               1         letters           de       adjective   
    "Morgen"          1                 1               1         letters           de       noun        
    "."               1                 1               1         punctuation       de       punctuation 
    "Wie"             1                 2               1         letters           de       adverb      
    "geht"            1                 2               1         letters           de       verb        
    "es"              1                 2               1         letters           de       pronoun     
    "dir"             1                 2               1         letters           de       pronoun     
    "?"               1                 2               1         punctuation       de       punctuation

Распознавание именованной сущности

Чтобы добавить теги сущностей к документам, используйте addEntityDetails функция.

Добавление тегов именованных сущностей к тексту на немецком языке

Открыть Live Script

Токенизация текста на немецком языке с помощью tokenizedDocument.

str = [
    "Ernst zog von Frankfurt nach Berlin."
    "Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);

Чтобы добавить теги сущностей к немецкому тексту, используйте addEntityDetails функция. Эта функция обнаруживает имена лиц, местоположения, организации и другие именованные сущности.

documents = addEntityDetails(documents);

Чтобы просмотреть сведения о сущности, используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×8 table
       Token       DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech      Entity  
    ___________    ______________    ______________    __________    ___________    ________    ____________    __________

    "Ernst"              1                 1               1         letters           de       proper-noun     person    
    "zog"                1                 1               1         letters           de       verb            non-entity
    "von"                1                 1               1         letters           de       adposition      non-entity
    "Frankfurt"          1                 1               1         letters           de       proper-noun     location  
    "nach"               1                 1               1         letters           de       adposition      non-entity
    "Berlin"             1                 1               1         letters           de       proper-noun     location  
    "."                  1                 1               1         punctuation       de       punctuation     non-entity
    "Besuchen"           2                 1               1         letters           de       verb            non-entity

Просмотрите слова, помеченные сущностью "person", "location", "organization", или "other". Эти слова являются словами, не отмеченными "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)

ans=5×8 table
       Token        DocumentNumber    SentenceNumber    LineNumber     Type      Language    PartOfSpeech       Entity   
    ____________    ______________    ______________    __________    _______    ________    ____________    ____________

    "Ernst"               1                 1               1         letters       de       proper-noun     person      
    "Frankfurt"           1                 1               1         letters       de       proper-noun     location    
    "Berlin"              1                 1               1         letters       de       proper-noun     location    
    "Volkswagen"          2                 1               1         letters       de       noun            organization
    "Wolfsburg"           2                 1               1         letters       de       proper-noun     location

Стоп-слова

Чтобы удалить стоповые слова из документов в соответствии с подробными данными языка токенов, используйте removeStopWords. Для получения списка немецких стоповых слов установите 'Language' опция в stopWords на 'de'.

Удаление немецких стоповых слов из документов

Открыть Live Script

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите стоповые слова с помощью removeStopWords функция. Функция использует подробные данные языка из документов, чтобы определить, какие слова остановки следует удалить.

documents = removeStopWords(documents)

documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Происхождение

Чтобы создать лексемы в соответствии с подробностями языка токенов, используйте normalizeWords.

Основной текст на немецком языке

Открыть Live Script

Токенизация текста на немецком языке с помощью tokenizedDocument функция. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Остановите лексемы, используя normalizeWords.

documents = normalizeWords(documents)

documents = 
  2x1 tokenizedDocument:

    8 tokens: gut morg . wie geht es dir ?
    6 tokens: heut wird ein gut tag .

Независимые от языка функции

Подсчет слов и N-граммов

The bagOfWords и bagOfNgrams поддержка функций tokenizedDocument вход независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, тогда вы можете использовать эти функции.

Моделирование и предсказание

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams вход независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, тогда вы можете использовать эти функции.

trainWordEmbedding функция поддерживает tokenizedDocument или файл входа независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.

См. также

Документация