В этом разделе приводится краткое описание функций Toolbox™ Text Analytics, поддерживающих японский текст. Пример анализа текстовых данных на японском языке см. в разделе Анализ текстовых данных на японском языке.
tokenizedDocument функция автоматически обнаруживает ввод на японском языке. Также можно установить значение 'Language' опция в tokenizedDocument кому 'ja'. Этот параметр указывает сведения о языке маркеров. Для просмотра сведений о языке маркеров используйте tokenDetails. Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.
Чтобы указать дополнительные параметры MeCab для токенизации, создайте mecabOptions объект. Для токенизации с использованием указанных параметров токенизации MeCab используйте 'TokenizeMethod' вариант tokenizedDocument.
Токенизировать японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.
str = [
"恋に悩み、苦しむ。"
"恋の悩みで苦しむ。"
"空に星が輝き、瞬いている。"
"空の星が輝きを増している。"];
documents = tokenizedDocument(str)documents =
4x1 tokenizedDocument:
6 tokens: 恋 に 悩み 、 苦しむ 。
6 tokens: 恋 の 悩み で 苦しむ 。
10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
10 tokens: 空 の 星 が 輝き を 増し て いる 。
tokenDetails функция по умолчанию включает часть сведений о речи с данными маркера.
Токенизировать японский текст с помощью tokenizedDocument.
str = [
"恋に悩み、苦しむ。"
"恋の悩みで 苦しむ。"
"空に星が輝き、瞬いている。"
"空の星が輝きを増している。"
"駅までは遠くて、歩けない。"
"遠くの駅まで歩けない。"
"すもももももももものうち。"];
documents = tokenizedDocument(str);Для японского текста можно получить подробные сведения о части речи с помощью tokenDetails. Для английского текста необходимо сначала использовать addPartOfSpeechDetails.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
_______ ______________ __________ ___________ ________ ____________ _______ __________
"恋" 1 1 letters ja noun "恋" non-entity
"に" 1 1 letters ja adposition "に" non-entity
"悩み" 1 1 letters ja verb "悩む" non-entity
"、" 1 1 punctuation ja punctuation "、" non-entity
"苦しむ" 1 1 letters ja verb "苦しむ" non-entity
"。" 1 1 punctuation ja punctuation "。" non-entity
"恋" 2 1 letters ja noun "恋" non-entity
"の" 2 1 letters ja adposition "の" non-entity
tokenDetails функция по умолчанию включает сведения об объекте с данными маркера.
Токенизировать японский текст с помощью tokenizedDocument.
str = [
"マリーさんはボストンからニューヨークに引っ越しました。"
"駅で鈴木さんに迎えに行きます。"
"東京は大阪より大きいですか?"
"東京に行った時、新宿や渋谷などいろいろな所を訪れました。"];
documents = tokenizedDocument(str);Для японского текста программа автоматически добавляет именованные теги объектов, поэтому нет необходимости использовать addEntityDetails функция. Это программное обеспечение обнаруживает имена пользователей, расположения, организации и другие именованные сущности. Для просмотра сведений об объекте используйте tokenDetails функция.
tdetails = tokenDetails(documents); head(tdetails)
ans=8×8 table
Token DocumentNumber LineNumber Type Language PartOfSpeech Lemma Entity
____________ ______________ __________ _______ ________ ____________ ____________ __________
"マリー" 1 1 letters ja proper-noun "マリー" person
"さん" 1 1 letters ja noun "さん" person
"は" 1 1 letters ja adposition "は" non-entity
"ボストン" 1 1 letters ja proper-noun "ボストン" location
"から" 1 1 letters ja adposition "から" non-entity
"ニューヨーク" 1 1 letters ja proper-noun "ニューヨーク" location
"に" 1 1 letters ja adposition "に" non-entity
"引っ越し" 1 1 letters ja verb "引っ越す" non-entity
Просмотр слов, помеченных сущностью "person", "location", "organization", или "other". Эти слова не помечены тегами "non-entity".
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:).Tokenans = 11x1 string
"マリー"
"さん"
"ボストン"
"ニューヨーク"
"鈴木"
"さん"
"東京"
"大阪"
"東京"
"新宿"
"渋谷"
Чтобы удалить стоп-слова из документов согласно сведениям языка маркеров, используйте removeStopWords. Для списка японских стоп-слов установите 'Language' опция в stopWords кому 'ja'.
Токенизировать японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.
str = [
"ここは静かなので、とても穏やかです"
"企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
"私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);Удалить стоп-слова с помощью removeStopWords. Функция использует подробные данные языка из documents чтобы определить, какой язык остановить слова для удаления.
documents = removeStopWords(documents)
documents =
3x1 tokenizedDocument:
4 tokens: 静か 、 とても 穏やか
10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
5 tokens: 先生 。 英語 教え 。
Для лемматизации токенов в соответствии с подробностями языка токенов используйте normalizeWords и установите 'Style' опция для 'lemma'.
Маркировать японский текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает японский текст.
str = [
"空に星が輝き、瞬いている。"
"空の星が輝きを増している。"
"駅までは遠くて、歩けない。"
"遠くの駅まで歩けない。"];
documents = tokenizedDocument(str);Лемматизировать маркеры с помощью normalizeWords.
documents = normalizeWords(documents)
documents =
4x1 tokenizedDocument:
10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。
10 tokens: 空 の 星 が 輝き を 増す て いる 。
9 tokens: 駅 まで は 遠い て 、 歩ける ない 。
7 tokens: 遠く の 駅 まで 歩ける ない 。
bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.
fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.
trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.
addEntityDetails | addLanguageDetails | addPartOfSpeechDetails | normalizeWords | removeStopWords | stopWords | tokenDetails | tokenizedDocument