Text Analytics Toolbox™ поддерживает англичан языков, японцев, немца и корейца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.
Функция | Фактор языка | Работа вокруг |
---|---|---|
Токенизация |
| Для других языков можно все еще попытаться использовать Для получения дополнительной информации смотрите |
Остановите удаление слова |
|
Чтобы удалить слова остановки из других языков, используйте |
Обнаружение предложения |
| Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте Для получения дополнительной информации смотрите |
Облака Word |
Для входа строки, | Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в Задавать размеры слова в Для получения дополнительной информации смотрите |
Вложения Word |
Вход File к | Для файлов, содержащих неанглийский текст, вы можете должны быть ввести Создать Для получения дополнительной информации смотрите |
bagOfWords
и bagOfNgrams
функции поддерживают tokenizedDocument
введите независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, затем, можно использовать эти функции.
fitlda
и fitlsa
функции поддерживают bagOfWords
и bagOfNgrams
введите независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, затем, можно использовать эти функции.
trainWordEmbedding
функционируйте поддерживает tokenizedDocument
или файл вводится независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.
[1] Текстовая Сегментация Unicode. https://www.unicode.org/reports/tr29/
[2] Граничный анализ. http://userguide.icu-project.org/boundaryanalysis
[3] MeCab: еще одна часть речи и морфологический Анализатор. https://taku910.github.io/mecab/
addLanguageDetails
| addSentenceDetails
| bagOfNgrams
| bagOfWords
| fitlda
| fitlsa
| normalizeWords
| removeWords
| stopWords
| tokenizedDocument
| wordcloud