В этой теме результирующий Text Analytics Toolbox™ функции, которые поддержка корейский текст.
The tokenizedDocument
функция автоматически обнаруживает корейский вход. Кроме того, установите 'Language'
опция в tokenizedDocument
на 'ko'
. Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails
. Эти детали языка определяют поведение removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
, и addEntityDetails
функций на лексемах.
Чтобы задать дополнительные опции MeCab для токенизации, создайте mecabOptions
объект. Для токенизации с использованием заданных опций токенизации MeCab используйте 'TokenizeMethod'
опция tokenizedDocument
.
tokenDetails
функция по умолчанию включает часть деталей речи с данными лексемы.
tokenDetails
функция по умолчанию включает в себя сведения о сущности с подробными данными лексемы.
Чтобы удалить стоповые слова из документов в соответствии с подробными данными языка токенов, используйте removeStopWords
. Для получения списка корейских стоповых слов установите 'Language'
опция в stopWords
на 'ko'
.
Чтобы лемматизировать лексемы согласно деталям языка токенов, используйте normalizeWords
и установите 'Style'
опция для 'lemma'
.
The bagOfWords
и bagOfNgrams
поддержка функций tokenizedDocument
вход независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, тогда вы можете использовать эти функции.
fitlda
и fitlsa
поддержка функций bagOfWords
и bagOfNgrams
вход независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, тогда вы можете использовать эти функции.
trainWordEmbedding
функция поддерживает tokenizedDocument
или файл входа независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.
addEntityDetails
| addLanguageDetails
| addPartOfSpeechDetails
| normalizeWords
| removeStopWords
| stopWords
| tokenDetails
| tokenizedDocument