Поддержка корейского языка

В этом разделе приводится краткое описание функций Toolbox™ Text Analytics, поддерживающих корейский текст.

Tokenization

tokenizedDocument функция автоматически обнаруживает корейский ввод. Также можно установить значение 'Language' опция в tokenizedDocument кому 'ko'. Этот параметр указывает сведения о языке маркеров. Для просмотра сведений о языке маркеров используйте tokenDetails. Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.

Чтобы указать дополнительные параметры MeCab для токенизации, создайте mecabOptions объект. Для токенизации с использованием указанных параметров токенизации MeCab используйте 'TokenizeMethod' вариант tokenizedDocument.

Часть сведений о речи

tokenDetails функция по умолчанию включает часть сведений о речи с данными маркера.

Распознавание именованной сущности

tokenDetails функция по умолчанию включает сведения об объекте с данными маркера.

Стоп-слова

Чтобы удалить стоп-слова из документов согласно сведениям языка маркеров, используйте removeStopWords. Для списка корейских стоп-слов установите 'Language' опция в stopWords кому 'ko'.

Lemmatization

Для лемматизации токенов в соответствии с подробностями языка токенов используйте normalizeWords и установите 'Style' опция для 'lemma'.

Функции, не зависящие от языка

Подсчет слов и N-граммов

bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.

Моделирование и прогнозирование

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.

trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.

См. также

Связанные темы

Языковые соображения

Документация