Эта тема обобщает функции Text Analytics Toolbox™ тот японский текст поддержки. Для примера, показывающего, как анализировать японские текстовые данные, смотрите, Анализируют японские текстовые Данные.
tokenizedDocument
функция автоматически обнаруживает японский вход. В качестве альтернативы установите 'Language'
опция в tokenizedDocument
к 'ja'
. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, использовать tokenDetails
. Эти детали языка определяют поведение removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
, и addEntityDetails
функции на лексемах.
Чтобы задать дополнительные опции MeCab для токенизации, создайте mecabOptions
объект. Чтобы маркировать использование заданных опций токенизации MeCab, используйте 'TokenizeMethod'
опция tokenizedDocument
.
Маркируйте японский текст с помощью tokenizedDocument
. Функция автоматически обнаруживает японский текст.
str = [ "恋に悩み、苦しむ。" "恋の悩みで苦しむ。" "空に星が輝き、瞬いている。" "空の星が輝きを増している。"]; documents = tokenizedDocument(str)
documents = 4x1 tokenizedDocument: 6 tokens: 恋 に 悩み 、 苦しむ 。 6 tokens: 恋 の 悩み で 苦しむ 。 10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。 10 tokens: 空 の 星 が 輝き を 増し て いる 。
tokenDetails
функция, по умолчанию, включает детали части речи с маркерными деталями.
Маркируйте японский текст с помощью tokenizedDocument
.
str = [ "恋に悩み、苦しむ。" "恋の悩みで 苦しむ。" "空に星が輝き、瞬いている。" "空の星が輝きを増している。" "駅までは遠くて、歩けない。" "遠くの駅まで歩けない。" "すもももももももものうち。"]; documents = tokenizedDocument(str);
Для японского текста можно получить детали части речи с помощью tokenDetails
. Для английского текста необходимо сначала использовать addPartOfSpeechDetails
.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
_______ ______________ __________ ___________ ________ ____________ _______ __________
"恋" 1 1 letters ja noun "恋" non-entity
"に" 1 1 letters ja adposition "に" non-entity
"悩み" 1 1 letters ja verb "悩む" non-entity
"、" 1 1 punctuation ja punctuation "、" non-entity
"苦しむ" 1 1 letters ja verb "苦しむ" non-entity
"。" 1 1 punctuation ja punctuation "。" non-entity
"恋" 2 1 letters ja noun "恋" non-entity
"の" 2 1 letters ja adposition "の" non-entity
tokenDetails
функция, по умолчанию, включает детали сущности с маркерными деталями.
Маркируйте японский текст с помощью tokenizedDocument
.
str = [ "マリーさんはボストンからニューヨークに引っ越しました。" "駅で鈴木さんに迎えに行きます。" "東京は大阪より大きいですか?" "東京に行った時、新宿や渋谷などいろいろな所を訪れました。"]; documents = tokenizedDocument(str);
Для японского текста программное обеспечение автоматически добавляет теги именованной сущности, таким образом, вы не должны использовать addEntityDetails
функция. Это программное обеспечение обнаруживает имена человека, местоположения, организации и другие именованные сущности. Чтобы посмотреть детали сущности, используйте tokenDetails
функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
____________ ______________ __________ _______ ________ ____________ ____________ __________
"マリー" 1 1 letters ja proper-noun "マリー" person
"さん" 1 1 letters ja noun "さん" person
"は" 1 1 letters ja adposition "は" non-entity
"ボストン" 1 1 letters ja proper-noun "ボストン" location
"から" 1 1 letters ja adposition "から" non-entity
"ニューヨーク" 1 1 letters ja proper-noun "ニューヨーク" location
"に" 1 1 letters ja adposition "に" non-entity
"引っ越し" 1 1 letters ja verb "引っ越す" non-entity
Просмотрите слова, помеченные с сущностью "person"
местоположение
, "organization"
, или "other"
. Эти слова являются словами не теговый "non-entity"
.
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Token
ans = 11x1 string
"マリー"
"さん"
"ボストン"
"ニューヨーク"
"鈴木"
"さん"
"東京"
"大阪"
"東京"
"新宿"
"渋谷"
Чтобы удалить слова остановки из документов согласно маркерным деталям языка, использовать removeStopWords
. Поскольку список японских слов остановки установил 'Language'
опция в stopWords
к 'ja'
.
Маркируйте японский текст с помощью tokenizedDocument
. Функция автоматически обнаруживает японский текст.
str = [ "ここは静かなので、とても穏やかです" "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。" "私は先生です。私は英語を教えています。"]; documents = tokenizedDocument(str);
Удалите слова остановки с помощью removeStopWords
. Функция использует детали языка от documents
определить который слова остановки языка удалить.
documents = removeStopWords(documents)
documents = 3x1 tokenizedDocument: 4 tokens: 静か 、 とても 穏やか 10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。 5 tokens: 先生 。 英語 教え 。
К lemmatize лексемам согласно маркерным деталям языка использовать normalizeWords
и набор 'Style'
опция к 'lemma'
.
Маркируйте японский текст с помощью tokenizedDocument
функция. Функция автоматически обнаруживает японский текст.
str = [ "空に星が輝き、瞬いている。" "空の星が輝きを増している。" "駅までは遠くて、歩けない。" "遠くの駅まで歩けない。"]; documents = tokenizedDocument(str);
Lemmatize лексемы с помощью normalizeWords
.
documents = normalizeWords(documents)
documents = 4x1 tokenizedDocument: 10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。 10 tokens: 空 の 星 が 輝き を 増す て いる 。 9 tokens: 駅 まで は 遠い て 、 歩ける ない 。 7 tokens: 遠く の 駅 まで 歩ける ない 。
bagOfWords
и bagOfNgrams
функции поддерживают tokenizedDocument
введите независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, затем, можно использовать эти функции.
fitlda
и fitlsa
функции поддерживают bagOfWords
и bagOfNgrams
введите независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, затем, можно использовать эти функции.
trainWordEmbedding
функционируйте поддерживает tokenizedDocument
или файл вводится независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.
tokenizedDocument
| removeStopWords
| stopWords
| addPartOfSpeechDetails
| tokenDetails
| normalizeWords
| addLanguageDetails
| addEntityDetails