Text Analytics Toolbox™ поддерживает англичан языков, японцев, немца и корейца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.
Функция | Фактор языка | Работа вокруг |
---|---|---|
Токенизация |
| Для других языков можно все еще попытаться использовать Для получения дополнительной информации смотрите |
Остановите удаление слова | | Чтобы удалить слова остановки из других языков, использовать |
Обнаружение предложения |
| Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте Для получения дополнительной информации смотрите |
Облака Word | Для входа строки, | Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в Задавать размеры слова в Для получения дополнительной информации смотрите |
Вложения Word | Вход File к | Для файлов, содержащих неанглийский текст, вы можете должны быть ввести Создать Для получения дополнительной информации смотрите |
Экстракция ключевого слова | | Для других языков задайте соответствующий набор разделителей с помощью Для получения дополнительной информации смотрите |
| Для других языков попытайтесь использовать Для получения дополнительной информации смотрите |
bagOfWords
и bagOfNgrams
функции поддерживают tokenizedDocument
введите независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, затем, можно использовать эти функции.
fitlda
и fitlsa
функции поддерживают bagOfWords
и bagOfNgrams
введите независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, затем, можно использовать эти функции.
trainWordEmbedding
функционируйте поддерживает tokenizedDocument
или файл вводится независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.
[1] Текстовая Сегментация Unicode. https://www.unicode.org/reports/tr29/
[2] Граничный Анализ. https://unicode-org.github.io/icu/userguide/boundaryanalysis
[3] MeCab: Еще одна Часть речи и Морфологический Анализатор. https://taku910.github.io/mecab/
stopWords
| removeWords
| normalizeWords
| bagOfWords
| bagOfNgrams
| tokenizedDocument
| fitlda
| fitlsa
| wordcloud
| addSentenceDetails
| addLanguageDetails