Корейская поддержка языка

Эта тема обобщает функции Text Analytics Toolbox™ тот корейский текст поддержки.

Токенизация

tokenizedDocument функция автоматически обнаруживает корейский вход. В качестве альтернативы установите 'Language' опция в tokenizedDocument к 'ko'. Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на лексемах.

Чтобы задать дополнительные опции MeCab для токенизации, создайте mecabOptions объект. Чтобы маркировать использование заданных опций токенизации MeCab, используйте 'TokenizeMethod' опция tokenizedDocument.

Детали части речи

tokenDetails функция, по умолчанию, включает детали части речи с маркерными деталями.

Распознавание именованной сущности

tokenDetails функция, по умолчанию, включает детали сущности с маркерными деталями.

Остановите слова

Чтобы удалить слова остановки из документов согласно маркерным деталям языка, используйте removeStopWords. Поскольку список корейских слов остановки установил 'Language' опция в stopWords к 'ko'.

Lemmatization

К lemmatize лексемам согласно маркерным деталям языка используйте normalizeWords и набор 'Style' опция к 'lemma'.

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функции поддерживают tokenizedDocument введите независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, затем, можно использовать эти функции.

Моделирование и прогноз

fitlda и fitlsa функции поддерживают bagOfWords и bagOfNgrams введите независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, затем, можно использовать эти функции.

trainWordEmbedding функционируйте поддерживает tokenizedDocument или файл вводится независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.

Документация