Text Analytics Toolbox™ поддерживает английский, японский, немецкий и корейский языки. Большинство функций Symbolic Math Toolbox также работают с текстом на других языках. В этой таблице описывается, как использовать функции Symbolic Math Toolbox для других языков.
| Функция | Фактор языка | Работа |
|---|---|---|
| Tokenization |
The | Для других языков все еще можно попробовать использовать Для получения дополнительной информации смотрите |
| Остановить удаление слова | | Чтобы удалить стоповые слова из других языков, используйте |
| Обнаружение предложений |
| Для других языков, возможно, вам потребуется указать свой собственный список сокращений для обнаружения предложений. Для этого используйте Для получения дополнительной информации см. |
| Облака слов | Для строкового входа, | Для других языков, возможно, вам потребуется вручную обработать текстовые данные и задать уникальные слова и соответствующие размеры в Чтобы задать размеры слов в Для получения дополнительной информации см. |
| Встраивания в Word | Вход файла в | Для файлов, содержащих текст, отличный от английского, может потребоваться ввести Как создать Для получения дополнительной информации см. |
| Экстракция ключевых слов | | Для других языков укажите соответствующий набор разделителей, используя Для получения дополнительной информации см. |
| Для других языков попробуйте использовать Для получения дополнительной информации см. |
The bagOfWords и bagOfNgrams поддержка функций tokenizedDocument вход независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, тогда вы можете использовать эти функции.
fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams вход независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, тогда вы можете использовать эти функции.
trainWordEmbedding функция поддерживает tokenizedDocument или файл входа независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.
[1] Сегментация текста в кодировке Юникод. https://www.unicode.org/reports/tr29/
[2] Краевой анализ. http://userguide.icu-project.org/boundaryanalysis
[3] MeCab: еще одна часть речи и морфологический анализатор. https://taku910.github.io/mecab/
addLanguageDetails | addSentenceDetails | bagOfNgrams | bagOfWords | fitlda | fitlsa | normalizeWords | removeWords | stopWords | tokenizedDocument | wordcloud