Text Analytics Toolbox™ поддерживает англичан языков, японцев и немца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.
| Функция | Фактор языка | Работа вокруг |
|---|---|---|
| Токенизация |
Функция | Для других языков можно все еще попытаться использовать Для получения дополнительной информации смотрите |
| Остановите удаление слова |
|
Чтобы удалить слова остановки из других языков, используйте |
| Обнаружение предложения |
Функция | Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте опцию Для получения дополнительной информации смотрите |
| Облака Word |
Для входа строки функция | Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в Чтобы задать размеры слова в Для получения дополнительной информации смотрите |
| Вложения Word |
Вход File к функции | Для файлов, содержащих неанглийский текст, вы можете должны быть ввести массив Чтобы создать массив Для получения дополнительной информации смотрите |
bagOfWords и bagOfNgrams функционируют вход tokenizedDocument поддержки независимо от языка. Если у вас есть массив tokenizedDocument, содержащий ваши данные, то можно использовать эти функции.
fitlda и fitlsa функционируют вход bagOfWords и bagOfNgrams поддержки независимо от языка. Если у вас есть объект bagOfWords или bagOfNgrams, содержащий ваши данные, то можно использовать эти функции.
Функция trainWordEmbedding поддерживает tokenizedDocument или вход файла независимо от языка. Если у вас есть массив tokenizedDocument или файл, содержащий ваши данные в правильном формате, то можно использовать эту функцию.
[1] Текстовая сегментация Unicode. https://www.unicode.org/reports/tr29/
[2] Граничный анализ. http://userguide.icu-project.org/boundaryanalysis
[3] MeCab: еще одна часть речи и морфологический Анализатор. https://taku910.github.io/mecab/
addLanguageDetails | addSentenceDetails | bagOfNgrams | bagOfWords | fitlda | fitlsa | normalizeWords | removeWords | stopWords | tokenizedDocument | wordcloud