Эта тема обобщает функции Text Analytics Toolbox™ тот корейский текст поддержки.
tokenizedDocument
функция автоматически обнаруживает корейский вход. В качестве альтернативы установите 'Language'
опция в tokenizedDocument
к 'ko'
. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, использовать tokenDetails
. Эти детали языка определяют поведение removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
, и addEntityDetails
функции на лексемах.
Чтобы задать дополнительные опции MeCab для токенизации, создайте mecabOptions
объект. Чтобы маркировать использование заданных опций токенизации MeCab, используйте 'TokenizeMethod'
опция tokenizedDocument
.
tokenDetails
функция, по умолчанию, включает детали части речи с маркерными деталями.
tokenDetails
функция, по умолчанию, включает детали сущности с маркерными деталями.
Чтобы удалить слова остановки из документов согласно маркерным деталям языка, использовать removeStopWords
. Поскольку список корейских слов остановки установил 'Language'
опция в stopWords
к 'ko'
.
К lemmatize лексемам согласно маркерным деталям языка использовать normalizeWords
и набор 'Style'
опция к 'lemma'
.
bagOfWords
и bagOfNgrams
функции поддерживают tokenizedDocument
введите независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, затем, можно использовать эти функции.
fitlda
и fitlsa
функции поддерживают bagOfWords
и bagOfNgrams
введите независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, затем, можно использовать эти функции.
trainWordEmbedding
функционируйте поддерживает tokenizedDocument
или файл вводится независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.
addEntityDetails
| addLanguageDetails
| addPartOfSpeechDetails
| normalizeWords
| removeStopWords
| stopWords
| tokenDetails
| tokenizedDocument