В этой теме результирующий Text Analytics Toolbox™ функции, которые поддержка корейский текст.
The tokenizedDocument функция автоматически обнаруживает корейский вход. Кроме того, установите 'Language' опция в tokenizedDocument на 'ko'. Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функций на лексемах.
Чтобы задать дополнительные опции MeCab для токенизации, создайте mecabOptions объект. Для токенизации с использованием заданных опций токенизации MeCab используйте 'TokenizeMethod' опция tokenizedDocument.
tokenDetails функция по умолчанию включает часть деталей речи с данными лексемы.
tokenDetails функция по умолчанию включает в себя сведения о сущности с подробными данными лексемы.
Чтобы удалить стоповые слова из документов в соответствии с подробными данными языка токенов, используйте removeStopWords. Для получения списка корейских стоповых слов установите 'Language' опция в stopWords на 'ko'.
Чтобы лемматизировать лексемы согласно деталям языка токенов, используйте normalizeWords и установите 'Style' опция для 'lemma'.
The bagOfWords и bagOfNgrams поддержка функций tokenizedDocument вход независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, тогда вы можете использовать эти функции.
fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams вход независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, тогда вы можете использовать эти функции.
trainWordEmbedding функция поддерживает tokenizedDocument или файл входа независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.
addEntityDetails | addLanguageDetails | addPartOfSpeechDetails | normalizeWords | removeStopWords | stopWords | tokenDetails | tokenizedDocument