Японская поддержка языка

Эта тема обобщает функции Text Analytics Toolbox™ тот японский текст поддержки. Для примера, показывающего, как анализировать японские текстовые данные, смотрите, Анализируют японские текстовые Данные.

Токенизация

Функция tokenizedDocument автоматически обнаруживает японский вход. Также установите опцию 'Language' в tokenizedDocument к 'ja'. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails и функций addEntityDetails на лексемах.

Маркируйте японский текст

Скрипт Open Live Script

Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];
documents = tokenizedDocument(str)

documents = 
  4x1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。

Детали части речи

Функция tokenDetails, по умолчанию, включает детали части речи с маркерными деталями.

Получите детали части речи японского текста

Скрипт Open Live Script

Маркируйте японский текст с помощью tokenizedDocument.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで 苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"
    "駅までは遠くて、歩けない。"
    "遠くの駅まで歩けない。"
    "すもももももももものうち。"];
documents = tokenizedDocument(str);

Для японского текста можно получить детали части речи с помощью tokenDetails. Для английского текста необходимо сначала использовать addPartOfSpeechDetails.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×8 table
     Token     DocumentNumber    LineNumber       Type        Language    PartOfSpeech     Lemma       Entity  
    _______    ______________    __________    ___________    ________    ____________    _______    __________

    "恋"             1               1         letters           ja       noun            "恋"       non-entity
    "に"             1               1         letters           ja       adposition      "に"       non-entity
    "悩み"           1               1         letters           ja       verb            "悩む"      non-entity
    "、"             1               1         punctuation       ja       punctuation     "、"       non-entity
    "苦しむ"          1               1         letters           ja       verb            "苦しむ"    non-entity
    "。"             1               1         punctuation       ja       punctuation     "。"       non-entity
    "恋"             2               1         letters           ja       noun            "恋"       non-entity
    "の"             2               1         letters           ja       adposition      "の"       non-entity

Распознавание именованной сущности

Чтобы добавить теги сущности в документы, используйте функцию addEntityDetails.

Добавьте теги именованной сущности в японский текст

Скрипт Open Live Script

Маркируйте японский текст с помощью tokenizedDocument.

str = [
    "マリーさんはボストンからニューヨークに引っ越しました。"
    "駅で鈴木さんに迎えに行きます。"
    "東京は大阪より大きいですか？"
    "東京に行った時、新宿や渋谷などいろいろな所に訪れたました。"];
documents = tokenizedDocument(str);

Для японского текста программное обеспечение автоматически добавляет теги именованной сущности, таким образом, вы не должны использовать функцию addEntityDetails. Это программное обеспечение обнаруживает имена человека, местоположения, организации и другие именованные сущности. Чтобы посмотреть детали сущности, используйте функцию tokenDetails.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×8 table
       Token        DocumentNumber    LineNumber     Type      Language    PartOfSpeech       Lemma          Entity  
    ____________    ______________    __________    _______    ________    ____________    ____________    __________

    "マリー"               1               1         letters       ja       proper-noun     "マリー"         person    
    "さん"                1               1         letters       ja       noun            "さん"           person    
    "は"                  1               1         letters       ja       adposition      "は"            non-entity
    "ボストン"             1               1         letters       ja       proper-noun     "ボストン"        location  
    "から"                1               1         letters       ja       adposition      "から"           non-entity
    "ニューヨーク"          1               1         letters       ja       proper-noun     "ニューヨーク"    location  
    "に"                  1               1         letters       ja       adposition      "に"            non-entity
    "引っ越し"             1               1         letters       ja       verb            "引っ越す"        non-entity

Просмотрите слова, помеченные с сущностью "person", "location", "organization" или "other". Эти слова являются словами не теговый "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Token

ans = 11×1 string array
    "マリー"
    "さん"
    "ボストン"
    "ニューヨーク"
    "鈴木"
    "さん"
    "東京"
    "大阪"
    "東京"
    "新宿"
    "渋谷"

Остановите слова

Чтобы удалить слова остановки из документов согласно маркерным деталям языка, используйте removeStopWords. Поскольку список японских слов остановки установил опцию 'Language' в stopWords к 'ja'.

Удалите японские слова остановки

Скрипт Open Live Script

Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалите слова остановки с помощью removeStopWords. Функция использует детали языка от documents, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)

documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Lemmatization

К lemmatize лексемам согласно маркерным деталям языка используйте normalizeWords и установите опцию 'Style' на 'lemma'.

Японский текст Lemmatize

Скрипт Open Live Script

Маркируйте японский текст с помощью функции tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"
    "駅までは遠くて、歩けない。"
    "遠くの駅まで歩けない。"];
documents = tokenizedDocument(str);

Lemmatize лексемы с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  4x1 tokenizedDocument:

    10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。
    10 tokens: 空 の 星 が 輝き を 増す て いる 。
     9 tokens: 駅 まで は 遠い て 、 歩ける ない 。
     7 tokens: 遠く の 駅 まで 歩ける ない 。

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функционируют вход tokenizedDocument поддержки независимо от языка. Если у вас есть массив tokenizedDocument, содержащий ваши данные, то можно использовать эти функции.

Моделирование и прогноз

fitlda и fitlsa функционируют вход bagOfWords и bagOfNgrams поддержки независимо от языка. Если у вас есть объект bagOfWords или bagOfNgrams, содержащий ваши данные, то можно использовать эти функции.

Функция trainWordEmbedding поддерживает tokenizedDocument или вход файла независимо от языка. Если у вас есть массив tokenizedDocument или файл, содержащий ваши данные в правильном формате, то можно использовать эту функцию.

Документация