Поддержка корейского языка

В этой теме результирующий Text Analytics Toolbox™ функции, которые поддержка корейский текст.

Tokenization

The tokenizedDocument функция автоматически обнаруживает корейский вход. Кроме того, установите 'Language' опция в tokenizedDocument на 'ko'. Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функций на лексемах.

Чтобы задать дополнительные опции MeCab для токенизации, создайте mecabOptions объект. Для токенизации с использованием заданных опций токенизации MeCab используйте 'TokenizeMethod' опция tokenizedDocument.

Детали части речи

tokenDetails функция по умолчанию включает часть деталей речи с данными лексемы.

Распознавание именованной сущности

tokenDetails функция по умолчанию включает в себя сведения о сущности с подробными данными лексемы.

Стоп-слова

Чтобы удалить стоповые слова из документов в соответствии с подробными данными языка токенов, используйте removeStopWords. Для получения списка корейских стоповых слов установите 'Language' опция в stopWords на 'ko'.

Lemmatization

Чтобы лемматизировать лексемы согласно деталям языка токенов, используйте normalizeWords и установите 'Style' опция для 'lemma'.

Независимые от языка функции

Подсчет слов и N-граммов

The bagOfWords и bagOfNgrams поддержка функций tokenizedDocument вход независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, тогда вы можете использовать эти функции.

Моделирование и предсказание

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams вход независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, тогда вы можете использовать эти функции.

trainWordEmbedding функция поддерживает tokenizedDocument или файл входа независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.

См. также

Документация