Text Analytics Toolbox™ поддерживает английский, японский, немецкий и корейский языки. Большинство функций Symbolic Math Toolbox также работают с текстом на других языках. В этой таблице описывается, как использовать функции Symbolic Math Toolbox для других языков.
Функция | Фактор языка | Работа |
---|---|---|
Tokenization |
The | Для других языков все еще можно попробовать использовать Для получения дополнительной информации смотрите |
Остановить удаление слова | | Чтобы удалить стоповые слова из других языков, используйте |
Обнаружение предложений |
| Для других языков, возможно, вам потребуется указать свой собственный список сокращений для обнаружения предложений. Для этого используйте Для получения дополнительной информации см. |
Облака слов | Для строкового входа, | Для других языков, возможно, вам потребуется вручную обработать текстовые данные и задать уникальные слова и соответствующие размеры в Чтобы задать размеры слов в Для получения дополнительной информации см. |
Встраивания в Word | Вход файла в | Для файлов, содержащих текст, отличный от английского, может потребоваться ввести Как создать Для получения дополнительной информации см. |
Экстракция ключевых слов | | Для других языков укажите соответствующий набор разделителей, используя Для получения дополнительной информации см. |
| Для других языков попробуйте использовать Для получения дополнительной информации см. |
The bagOfWords
и bagOfNgrams
поддержка функций tokenizedDocument
вход независимо от языка. Если у вас есть tokenizedDocument
массив, содержащий ваши данные, тогда вы можете использовать эти функции.
fitlda
и fitlsa
поддержка функций bagOfWords
и bagOfNgrams
вход независимо от языка. Если у вас есть bagOfWords
или bagOfNgrams
объект, содержащий ваши данные, тогда вы можете использовать эти функции.
trainWordEmbedding
функция поддерживает tokenizedDocument
или файл входа независимо от языка. Если у вас есть tokenizedDocument
массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.
[1] Сегментация текста в кодировке Юникод. https://www.unicode.org/reports/tr29/
[2] Краевой анализ. http://userguide.icu-project.org/boundaryanalysis
[3] MeCab: еще одна часть речи и морфологический анализатор. https://taku910.github.io/mecab/
addLanguageDetails
| addSentenceDetails
| bagOfNgrams
| bagOfWords
| fitlda
| fitlsa
| normalizeWords
| removeWords
| stopWords
| tokenizedDocument
| wordcloud