Факторы языка

Text Analytics Toolbox™ поддерживает англичан языков, японцев и немца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.

Функция	Фактор языка	Работа вокруг
Токенизация	Функция `tokenizedDocument` имеет встроенные правила для английского, японского языка и немецкого языка только. Для английского и немецкого текста метод токенизации `'unicode'` `tokenizedDocument` обнаруживает лексемы, использующие правила на основе Приложения № 29 [1] Стандарта Unicode^® и токенизатора ICU [2], измененный, чтобы лучше обнаружить комплексные лексемы, такие как хэш-теги и URL. Для японского текста метод токенизации `'mecab'` обнаруживает лексемы, использующие правила на основе токенизатора MeCab [3].	Для других языков можно все еще попытаться использовать `tokenizedDocument`. Если `tokenizedDocument` не приводит к полезным результатам, то попытайтесь маркировать текст вручную. Чтобы создать массив `tokenizedDocument` из вручную маркируемого текста, установите опцию `'TokenizeMethod'` на `'none'`. Для получения дополнительной информации смотрите `tokenizedDocument`.
Остановите удаление слова	`stopWords` и функции `removeStopWords` поддерживают английский, японский язык и немецкие слова остановки только.	Чтобы удалить слова остановки из других языков, используйте `removeWords` и задайте ваши собственные слова остановки, чтобы удалить.
Обнаружение предложения	Функция `addSentenceDetails` обнаруживает контуры предложения на основе информации о номере строки и символов пунктуации. Для английского и немецкого текста функция также использует список сокращений, переданных функции.	Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте опцию `'Abbreviations'` `addSentenceDetails`. Для получения дополнительной информации смотрите `addSentenceDetails`.
Облака Word	Для входа строки функция `wordcloud` использует английский язык, японский язык и немецкая токенизация, останавливают удаление слова и нормализацию слова.	Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в `wordcloud`. Чтобы задать размеры слова в `wordcloud`, введите свои данные как таблицу или массивы, содержащие уникальные слова и соответствующие размеры. Для получения дополнительной информации смотрите `wordcloud`.
Вложения Word	Вход File к функции `trainWordEmbedding` требует слов, разделенных пробелом.	Для файлов, содержащих неанглийский текст, вы можете должны быть ввести массив `tokenizedDocument` к `trainWordEmbedding`. Чтобы создать массив `tokenizedDocument` из предварительно маркируемого текста, используйте функцию `tokenizedDocument` и установите опцию `'TokenizeMethod'` на `'none'`. Для получения дополнительной информации смотрите `trainWordEmbedding`.

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функционируют вход tokenizedDocument поддержки независимо от языка. Если у вас есть массив tokenizedDocument, содержащий ваши данные, то можно использовать эти функции.

Моделирование и прогноз

fitlda и fitlsa функционируют вход bagOfWords и bagOfNgrams поддержки независимо от языка. Если у вас есть объект bagOfWords или bagOfNgrams, содержащий ваши данные, то можно использовать эти функции.

Функция trainWordEmbedding поддерживает tokenizedDocument или вход файла независимо от языка. Если у вас есть массив tokenizedDocument или файл, содержащий ваши данные в правильном формате, то можно использовать эту функцию.

Ссылки

[1] Текстовая сегментация Unicode. https://www.unicode.org/reports/tr29/

[2] Граничный анализ. http://userguide.icu-project.org/boundaryanalysis

[3] MeCab: еще одна часть речи и морфологический Анализатор. https://taku910.github.io/mecab/

Документация