Поддержка японского языка

В этом разделе приводится краткое описание функций Toolbox™ Text Analytics, поддерживающих японский текст. Пример анализа текстовых данных на японском языке см. в разделе Анализ текстовых данных на японском языке.

Tokenization

tokenizedDocument функция автоматически обнаруживает ввод на японском языке. Также можно установить значение 'Language' опция в tokenizedDocument кому 'ja'. Этот параметр указывает сведения о языке маркеров. Для просмотра сведений о языке маркеров используйте tokenDetails. Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.

Чтобы указать дополнительные параметры MeCab для токенизации, создайте mecabOptions объект. Для токенизации с использованием указанных параметров токенизации MeCab используйте 'TokenizeMethod' вариант tokenizedDocument.

Маркировать японский текст

Открыть сценарий в реальном времени

Токенизировать японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];
documents = tokenizedDocument(str)

documents = 
  4x1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。

Часть сведений о речи

tokenDetails функция по умолчанию включает часть сведений о речи с данными маркера.

Получить сведения о речи в японском тексте

Открыть сценарий в реальном времени

Токенизировать японский текст с помощью tokenizedDocument.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで 苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"
    "駅までは遠くて、歩けない。"
    "遠くの駅まで歩けない。"
    "すもももももももものうち。"];
documents = tokenizedDocument(str);

Для японского текста можно получить подробные сведения о части речи с помощью tokenDetails. Для английского текста необходимо сначала использовать addPartOfSpeechDetails.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×8 table
     Token     DocumentNumber    LineNumber       Type        Language    PartOfSpeech     Lemma       Entity  
    _______    ______________    __________    ___________    ________    ____________    _______    __________

    "恋"             1               1         letters           ja       noun            "恋"       non-entity
    "に"             1               1         letters           ja       adposition      "に"       non-entity
    "悩み"           1               1         letters           ja       verb            "悩む"      non-entity
    "、"             1               1         punctuation       ja       punctuation     "、"       non-entity
    "苦しむ"          1               1         letters           ja       verb            "苦しむ"    non-entity
    "。"             1               1         punctuation       ja       punctuation     "。"       non-entity
    "恋"             2               1         letters           ja       noun            "恋"       non-entity
    "の"             2               1         letters           ja       adposition      "の"       non-entity

Распознавание именованной сущности

tokenDetails функция по умолчанию включает сведения об объекте с данными маркера.

Добавление тегов именованных объектов в текст на японском языке

Открыть сценарий в реальном времени

Токенизировать японский текст с помощью tokenizedDocument.

str = [
    "マリーさんはボストンからニューヨークに引っ越しました。"
    "駅で鈴木さんに迎えに行きます。"
    "東京は大阪より大きいですか？"
    "東京に行った時、新宿や渋谷などいろいろな所を訪れました。"];
documents = tokenizedDocument(str);

Для японского текста программа автоматически добавляет именованные теги объектов, поэтому нет необходимости использовать addEntityDetails функция. Это программное обеспечение обнаруживает имена пользователей, расположения, организации и другие именованные сущности. Для просмотра сведений об объекте используйте tokenDetails функция.

tdetails = tokenDetails(documents);
head(tdetails)

ans=8×8 table
       Token        DocumentNumber    LineNumber     Type      Language    PartOfSpeech       Lemma          Entity  
    ____________    ______________    __________    _______    ________    ____________    ____________    __________

    "マリー"               1               1         letters       ja       proper-noun     "マリー"         person    
    "さん"                1               1         letters       ja       noun            "さん"           person    
    "は"                  1               1         letters       ja       adposition      "は"            non-entity
    "ボストン"             1               1         letters       ja       proper-noun     "ボストン"        location  
    "から"                1               1         letters       ja       adposition      "から"           non-entity
    "ニューヨーク"          1               1         letters       ja       proper-noun     "ニューヨーク"    location  
    "に"                  1               1         letters       ja       adposition      "に"            non-entity
    "引っ越し"             1               1         letters       ja       verb            "引っ越す"        non-entity

Просмотр слов, помеченных сущностью "person", "location", "organization", или "other". Эти слова не помечены тегами "non-entity".

idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Token

ans = 11x1 string
    "マリー"
    "さん"
    "ボストン"
    "ニューヨーク"
    "鈴木"
    "さん"
    "東京"
    "大阪"
    "東京"
    "新宿"
    "渋谷"

Стоп-слова

Чтобы удалить стоп-слова из документов согласно сведениям языка маркеров, используйте removeStopWords. Для списка японских стоп-слов установите 'Language' опция в stopWords кому 'ja'.

Удалить японские стоп-слова

Открыть сценарий в реальном времени

Токенизировать японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалить стоп-слова с помощью removeStopWords. Функция использует подробные данные языка из documents чтобы определить, какой язык остановить слова для удаления.

documents = removeStopWords(documents)

documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Lemmatization

Для лемматизации токенов в соответствии с подробностями языка токенов используйте normalizeWords и установите 'Style' опция для 'lemma'.

Lemmatize Японский текст

Открыть сценарий в реальном времени

Маркировать японский текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает японский текст.

str = [
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"
    "駅までは遠くて、歩けない。"
    "遠くの駅まで歩けない。"];
documents = tokenizedDocument(str);

Лемматизировать маркеры с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  4x1 tokenizedDocument:

    10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。
    10 tokens: 空 の 星 が 輝き を 増す て いる 。
     9 tokens: 駅 まで は 遠い て 、 歩ける ない 。
     7 tokens: 遠く の 駅 まで 歩ける ない 。

Функции, не зависящие от языка

Подсчет слов и N-граммов

bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.

Моделирование и прогнозирование

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.

trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.

См. также

Документация