Text Analytics Toolbox™ поддерживает англичан языков, японцев, немца и корейца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.
| Функция | Фактор языка | Работа вокруг |
|---|---|---|
| Токенизация |
| Для других языков можно все еще попытаться использовать Для получения дополнительной информации смотрите |
| Остановите удаление слова | | Чтобы удалить слова остановки из других языков, использовать |
| Обнаружение предложения |
| Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте Для получения дополнительной информации смотрите |
| Облака Word | Для входа строки, | Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в Задавать размеры слова в Для получения дополнительной информации смотрите |
| Вложения Word | Вход File к | Для файлов, содержащих неанглийский текст, вы можете должны быть ввести Создать Для получения дополнительной информации смотрите |
| Экстракция ключевого слова | | Для других языков задайте соответствующий набор разделителей с помощью Для получения дополнительной информации смотрите |
| Для других языков попытайтесь использовать Для получения дополнительной информации смотрите |
bagOfWords и bagOfNgrams функции поддерживают tokenizedDocument введите независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, затем, можно использовать эти функции.
fitlda и fitlsa функции поддерживают bagOfWords и bagOfNgrams введите независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, затем, можно использовать эти функции.
trainWordEmbedding функционируйте поддерживает tokenizedDocument или файл вводится независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.
[1] Текстовая Сегментация Unicode. https://www.unicode.org/reports/tr29/
[2] Граничный Анализ. http://userguide.icu-project.org/boundaryanalysis
[3] MeCab: Еще одна Часть речи и Морфологический Анализатор. https://taku910.github.io/mecab/
addLanguageDetails | addSentenceDetails | bagOfNgrams | bagOfWords | fitlda | fitlsa | normalizeWords | removeWords | stopWords | tokenizedDocument | wordcloud