Эта тема обобщает функции Text Analytics Toolbox™ тот японский текст поддержки. Для примера, показывающего, как анализировать японские текстовые данные, смотрите, Анализируют японские текстовые Данные.
Функция tokenizedDocument автоматически обнаруживает японский вход. Также установите опцию 'Language' в tokenizedDocument к 'ja'. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails и функций addEntityDetails на лексемах.
Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.
str = [
"恋に悩み、苦しむ。"
"恋の悩みで苦しむ。"
"空に星が輝き、瞬いている。"
"空の星が輝きを増している。"];
documents = tokenizedDocument(str)documents =
4x1 tokenizedDocument:
6 tokens: 恋 に 悩み 、 苦しむ 。
6 tokens: 恋 の 悩み で 苦しむ 。
10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
10 tokens: 空 の 星 が 輝き を 増し て いる 。
Функция tokenDetails, по умолчанию, включает детали части речи с маркерными деталями.
Маркируйте японский текст с помощью tokenizedDocument.
str = [
"恋に悩み、苦しむ。"
"恋の悩みで 苦しむ。"
"空に星が輝き、瞬いている。"
"空の星が輝きを増している。"
"駅までは遠くて、歩けない。"
"遠くの駅まで歩けない。"
"すもももももももものうち。"];
documents = tokenizedDocument(str);Для японского текста можно получить детали части речи с помощью tokenDetails. Для английского текста необходимо сначала использовать addPartOfSpeechDetails.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
_______ ______________ __________ ___________ ________ ____________ _______ __________
"恋" 1 1 letters ja noun "恋" non-entity
"に" 1 1 letters ja adposition "に" non-entity
"悩み" 1 1 letters ja verb "悩む" non-entity
"、" 1 1 punctuation ja punctuation "、" non-entity
"苦しむ" 1 1 letters ja verb "苦しむ" non-entity
"。" 1 1 punctuation ja punctuation "。" non-entity
"恋" 2 1 letters ja noun "恋" non-entity
"の" 2 1 letters ja adposition "の" non-entity
Чтобы добавить теги сущности в документы, используйте функцию addEntityDetails.
Маркируйте японский текст с помощью tokenizedDocument.
str = [
"マリーさんはボストンからニューヨークに引っ越しました。"
"駅で鈴木さんに迎えに行きます。"
"東京は大阪より大きいですか?"
"東京に行った時、新宿や渋谷などいろいろな所に訪れたました。"];
documents = tokenizedDocument(str);Для японского текста программное обеспечение автоматически добавляет теги именованной сущности, таким образом, вы не должны использовать функцию addEntityDetails. Это программное обеспечение обнаруживает имена человека, местоположения, организации и другие именованные сущности. Чтобы посмотреть детали сущности, используйте функцию tokenDetails.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
____________ ______________ __________ _______ ________ ____________ ____________ __________
"マリー" 1 1 letters ja proper-noun "マリー" person
"さん" 1 1 letters ja noun "さん" person
"は" 1 1 letters ja adposition "は" non-entity
"ボストン" 1 1 letters ja proper-noun "ボストン" location
"から" 1 1 letters ja adposition "から" non-entity
"ニューヨーク" 1 1 letters ja proper-noun "ニューヨーク" location
"に" 1 1 letters ja adposition "に" non-entity
"引っ越し" 1 1 letters ja verb "引っ越す" non-entity
Просмотрите слова, помеченные с сущностью "person", "location", "organization" или "other". Эти слова являются словами не теговый "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Tokenans = 11×1 string array
"マリー"
"さん"
"ボストン"
"ニューヨーク"
"鈴木"
"さん"
"東京"
"大阪"
"東京"
"新宿"
"渋谷"
Чтобы удалить слова остановки из документов согласно маркерным деталям языка, используйте removeStopWords. Поскольку список японских слов остановки установил опцию 'Language' в stopWords к 'ja'.
Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.
str = [
"ここは静かなので、とても穏やかです"
"企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
"私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);Удалите слова остановки с помощью removeStopWords. Функция использует детали языка от documents, чтобы определить который слова остановки языка удалить.
documents = removeStopWords(documents)
documents =
3x1 tokenizedDocument:
4 tokens: 静か 、 とても 穏やか
10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
5 tokens: 先生 。 英語 教え 。
К lemmatize лексемам согласно маркерным деталям языка используйте normalizeWords и установите опцию 'Style' на 'lemma'.
Маркируйте японский текст с помощью функции tokenizedDocument. Функция автоматически обнаруживает японский текст.
str = [
"空に星が輝き、瞬いている。"
"空の星が輝きを増している。"
"駅までは遠くて、歩けない。"
"遠くの駅まで歩けない。"];
documents = tokenizedDocument(str);Lemmatize лексемы с помощью normalizeWords.
documents = normalizeWords(documents)
documents =
4x1 tokenizedDocument:
10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。
10 tokens: 空 の 星 が 輝き を 増す て いる 。
9 tokens: 駅 まで は 遠い て 、 歩ける ない 。
7 tokens: 遠く の 駅 まで 歩ける ない 。
bagOfWords и bagOfNgrams функционируют вход tokenizedDocument поддержки независимо от языка. Если у вас есть массив tokenizedDocument, содержащий ваши данные, то можно использовать эти функции.
fitlda и fitlsa функционируют вход bagOfWords и bagOfNgrams поддержки независимо от языка. Если у вас есть объект bagOfWords или bagOfNgrams, содержащий ваши данные, то можно использовать эти функции.
Функция trainWordEmbedding поддерживает tokenizedDocument или вход файла независимо от языка. Если у вас есть массив tokenizedDocument или файл, содержащий ваши данные в правильном формате, то можно использовать эту функцию.
addEntityDetails | addLanguageDetails | addPartOfSpeechDetails | normalizeWords | removeStopWords | stopWords | tokenDetails | tokenizedDocument