В этом разделе приводится краткое описание функций Toolbox™ Text Analytics, поддерживающих корейский текст.
tokenizedDocument функция автоматически обнаруживает корейский ввод. Также можно установить значение 'Language' опция в tokenizedDocument кому 'ko'. Этот параметр указывает сведения о языке маркеров. Для просмотра сведений о языке маркеров используйте tokenDetails. Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.
Чтобы указать дополнительные параметры MeCab для токенизации, создайте mecabOptions объект. Для токенизации с использованием указанных параметров токенизации MeCab используйте 'TokenizeMethod' вариант tokenizedDocument.
tokenDetails функция по умолчанию включает часть сведений о речи с данными маркера.
tokenDetails функция по умолчанию включает сведения об объекте с данными маркера.
Чтобы удалить стоп-слова из документов согласно сведениям языка маркеров, используйте removeStopWords. Для списка корейских стоп-слов установите 'Language' опция в stopWords кому 'ko'.
Для лемматизации токенов в соответствии с подробностями языка токенов используйте normalizeWords и установите 'Style' опция для 'lemma'.
bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.
fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.
trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.
addEntityDetails | addLanguageDetails | addPartOfSpeechDetails | normalizeWords | removeStopWords | stopWords | tokenDetails | tokenizedDocument