Text Analytics Toolbox™ поддерживает языки английский, японский, немецкий и корейский. Большинство функций панели инструментов аналитики текста также работают с текстом на других языках. В этой таблице приводится сводная информация об использовании функций панели инструментов Text Analytics для других языков.
| Особенность | Рассмотрение языка | Работа |
|---|---|---|
| Tokenization |
| Для других языков можно попробовать использовать Дополнительные сведения см. в разделе |
| Остановить удаление слов | | Чтобы удалить стоп-слова из других языков, используйте |
| Обнаружение приговоров |
| Для других языков может потребоваться указать собственный список сокращений для обнаружения предложений. Для этого используйте Дополнительные сведения см. в разделе |
| Облака слов | Для ввода строки, | Для других языков может потребоваться предварительная обработка текстовых данных вручную и указание уникальных слов и соответствующих размеров в Задание размеров слов в Дополнительные сведения см. в разделе |
| Встраивание в Word | Ввод файла в | Для файлов, содержащих неанглийский текст, может потребоваться ввести Создание Дополнительные сведения см. в разделе |
| Извлечение ключевого слова | | Для других языков укажите соответствующий набор разделителей с помощью Дополнительные сведения см. в разделе |
| Для других языков попробуйте использовать Дополнительные сведения см. в разделе |
bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.
fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.
trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.
[1] Сегментация текста в Юникоде. https://www.unicode.org/reports/tr29/
[2] Анализ границ. http://userguide.icu-project.org/boundaryanalysis
[3] MeCab: еще одна часть речевого и морфологического анализатора. https://taku910.github.io/mecab/
addLanguageDetails | addSentenceDetails | bagOfNgrams | bagOfWords | fitlda | fitlsa | normalizeWords | removeWords | stopWords | tokenizedDocument | wordcloud