Text Analytics Toolbox™ поддерживает англичан языков, японцев и немца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.
Функция | Фактор языка | Работа вокруг |
---|---|---|
Токенизация |
Функция | Для других языков можно все еще попытаться использовать Для получения дополнительной информации смотрите |
Остановите удаление слова |
|
Чтобы удалить слова остановки из других языков, используйте |
Обнаружение предложения |
Функция | Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте опцию Для получения дополнительной информации смотрите |
Облака Word |
Для входа строки функция | Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в Чтобы задать размеры слова в Для получения дополнительной информации смотрите |
Вложения Word |
Вход File к функции | Для файлов, содержащих неанглийский текст, вы можете должны быть ввести массив Чтобы создать массив Для получения дополнительной информации смотрите |
bagOfWords
и bagOfNgrams
функционируют вход tokenizedDocument
поддержки независимо от языка. Если у вас есть массив tokenizedDocument
, содержащий ваши данные, то можно использовать эти функции.
fitlda
и fitlsa
функционируют вход bagOfWords
и bagOfNgrams
поддержки независимо от языка. Если у вас есть объект bagOfWords
или bagOfNgrams
, содержащий ваши данные, то можно использовать эти функции.
Функция trainWordEmbedding
поддерживает tokenizedDocument
или вход файла независимо от языка. Если у вас есть массив tokenizedDocument
или файл, содержащий ваши данные в правильном формате, то можно использовать эту функцию.
[1] Текстовая сегментация Unicode. https://www.unicode.org/reports/tr29/
[2] Граничный анализ. http://userguide.icu-project.org/boundaryanalysis
[3] MeCab: еще одна часть речи и морфологический Анализатор. https://taku910.github.io/mecab/
addLanguageDetails
| addSentenceDetails
| bagOfNgrams
| bagOfWords
| fitlda
| fitlsa
| normalizeWords
| removeWords
| stopWords
| tokenizedDocument
| wordcloud