Эта тема обобщает функции Text Analytics Toolbox™ тот японский текст поддержки. Для примера, показывающего, как анализировать японские текстовые данные, смотрите, Анализируют японские текстовые Данные.
Функция tokenizedDocument
автоматически обнаруживает японский вход. Также установите опцию 'Language'
в tokenizedDocument
к 'ja'
. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, используйте tokenDetails
. Эти детали языка определяют поведение removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
и функций addEntityDetails
на лексемах.
Маркируйте японский текст с помощью tokenizedDocument
. Функция автоматически обнаруживает японский текст.
str = [ "恋に悩み、苦しむ。" "恋の悩みで苦しむ。" "空に星が輝き、瞬いている。" "空の星が輝きを増している。"]; documents = tokenizedDocument(str)
documents = 4x1 tokenizedDocument: 6 tokens: 恋 に 悩み 、 苦しむ 。 6 tokens: 恋 の 悩み で 苦しむ 。 10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。 10 tokens: 空 の 星 が 輝き を 増し て いる 。
Функция tokenDetails
, по умолчанию, включает детали части речи с маркерными деталями.
Маркируйте японский текст с помощью tokenizedDocument
.
str = [ "恋に悩み、苦しむ。" "恋の悩みで 苦しむ。" "空に星が輝き、瞬いている。" "空の星が輝きを増している。" "駅までは遠くて、歩けない。" "遠くの駅まで歩けない。" "すもももももももものうち。"]; documents = tokenizedDocument(str);
Для японского текста можно получить детали части речи с помощью tokenDetails
. Для английского текста необходимо сначала использовать addPartOfSpeechDetails
.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
_______ ______________ __________ ___________ ________ ____________ _______ __________
"恋" 1 1 letters ja noun "恋" non-entity
"に" 1 1 letters ja adposition "に" non-entity
"悩み" 1 1 letters ja verb "悩む" non-entity
"、" 1 1 punctuation ja punctuation "、" non-entity
"苦しむ" 1 1 letters ja verb "苦しむ" non-entity
"。" 1 1 punctuation ja punctuation "。" non-entity
"恋" 2 1 letters ja noun "恋" non-entity
"の" 2 1 letters ja adposition "の" non-entity
Чтобы добавить теги сущности в документы, используйте функцию addEntityDetails
.
Маркируйте японский текст с помощью tokenizedDocument
.
str = [ "マリーさんはボストンからニューヨークに引っ越しました。" "駅で鈴木さんに迎えに行きます。" "東京は大阪より大きいですか?" "東京に行った時、新宿や渋谷などいろいろな所に訪れたました。"]; documents = tokenizedDocument(str);
Для японского текста программное обеспечение автоматически добавляет теги именованной сущности, таким образом, вы не должны использовать функцию addEntityDetails
. Это программное обеспечение обнаруживает имена человека, местоположения, организации и другие именованные сущности. Чтобы посмотреть детали сущности, используйте функцию tokenDetails
.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
____________ ______________ __________ _______ ________ ____________ ____________ __________
"マリー" 1 1 letters ja proper-noun "マリー" person
"さん" 1 1 letters ja noun "さん" person
"は" 1 1 letters ja adposition "は" non-entity
"ボストン" 1 1 letters ja proper-noun "ボストン" location
"から" 1 1 letters ja adposition "から" non-entity
"ニューヨーク" 1 1 letters ja proper-noun "ニューヨーク" location
"に" 1 1 letters ja adposition "に" non-entity
"引っ越し" 1 1 letters ja verb "引っ越す" non-entity
Просмотрите слова, помеченные с сущностью "person"
, "location"
, "organization"
или "other"
. Эти слова являются словами не теговый "non-entity"
.
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Token
ans = 11×1 string array
"マリー"
"さん"
"ボストン"
"ニューヨーク"
"鈴木"
"さん"
"東京"
"大阪"
"東京"
"新宿"
"渋谷"
Чтобы удалить слова остановки из документов согласно маркерным деталям языка, используйте removeStopWords
. Поскольку список японских слов остановки установил опцию 'Language'
в stopWords
к 'ja'
.
Маркируйте японский текст с помощью tokenizedDocument
. Функция автоматически обнаруживает японский текст.
str = [ "ここは静かなので、とても穏やかです" "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。" "私は先生です。私は英語を教えています。"]; documents = tokenizedDocument(str);
Удалите слова остановки с помощью removeStopWords
. Функция использует детали языка от documents
, чтобы определить который слова остановки языка удалить.
documents = removeStopWords(documents)
documents = 3x1 tokenizedDocument: 4 tokens: 静か 、 とても 穏やか 10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。 5 tokens: 先生 。 英語 教え 。
К lemmatize лексемам согласно маркерным деталям языка используйте normalizeWords
и установите опцию 'Style'
на 'lemma'
.
Маркируйте японский текст с помощью функции tokenizedDocument
. Функция автоматически обнаруживает японский текст.
str = [ "空に星が輝き、瞬いている。" "空の星が輝きを増している。" "駅までは遠くて、歩けない。" "遠くの駅まで歩けない。"]; documents = tokenizedDocument(str);
Lemmatize лексемы с помощью normalizeWords
.
documents = normalizeWords(documents)
documents = 4x1 tokenizedDocument: 10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。 10 tokens: 空 の 星 が 輝き を 増す て いる 。 9 tokens: 駅 まで は 遠い て 、 歩ける ない 。 7 tokens: 遠く の 駅 まで 歩ける ない 。
bagOfWords
и bagOfNgrams
функционируют вход tokenizedDocument
поддержки независимо от языка. Если у вас есть массив tokenizedDocument
, содержащий ваши данные, то можно использовать эти функции.
fitlda
и fitlsa
функционируют вход bagOfWords
и bagOfNgrams
поддержки независимо от языка. Если у вас есть объект bagOfWords
или bagOfNgrams
, содержащий ваши данные, то можно использовать эти функции.
Функция trainWordEmbedding
поддерживает tokenizedDocument
или вход файла независимо от языка. Если у вас есть массив tokenizedDocument
или файл, содержащий ваши данные в правильном формате, то можно использовать эту функцию.
addEntityDetails
| addLanguageDetails
| addPartOfSpeechDetails
| normalizeWords
| removeStopWords
| stopWords
| tokenDetails
| tokenizedDocument