Факторы языка

Text Analytics Toolbox™ поддерживает англичан языков, японцев, немца и корейца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.

Функция	Фактор языка	Работа вокруг
Токенизация	`tokenizedDocument` функция имеет встроенные правила для английского, японского языка, немецкого языка и корейского языка только. Для английского и немецкого текста, `'unicode'` метод токенизации `tokenizedDocument` обнаруживает лексемы, использующие правила на основе Приложения № 29 [1] Стандарта Unicode^® и токенизатора ICU [2], измененный, чтобы лучше обнаружить комплексные лексемы, такие как хэш-теги и URL. Для японского и корейского текста, `'mecab'` метод токенизации обнаруживает лексемы, использующие правила на основе токенизатора MeCab [3].	Для других языков можно все еще попытаться использовать `tokenizedDocument`. Если `tokenizedDocument` не приводит к полезным результатам, затем пытаются маркировать текст вручную. Создать `tokenizedDocument` массив из вручную маркируемого текста, набор `'TokenizeMethod'` опция к `'none'`. Для получения дополнительной информации смотрите `tokenizedDocument`.
Остановите удаление слова	`stopWords` и `removeStopWords` функции поддерживают английский, японский язык, немецкий язык и корейские слова остановки только.	Чтобы удалить слова остановки из других языков, используйте `removeWords` и задайте свои собственные слова остановки, чтобы удалить.
Обнаружение предложения	`addSentenceDetails` функция обнаруживает контуры предложения на основе информации о номере строки и символов пунктуации. Для английского и немецкого текста функция также использует список сокращений, переданных функции.	Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте `'Abbreviations'` опция `addSentenceDetails`. Для получения дополнительной информации смотрите `addSentenceDetails`.
Облака Word	Для входа строки, `wordcloud` и `wordCloudCounts` функции используют английский, японский язык, немецкий язык, и корейскую токенизацию, останавливают удаление слова и нормализацию слова.	Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в `wordcloud`. Задавать размеры слова в `wordcloud`, введите свои данные как таблицу или массивы, содержащие уникальные слова и соответствующие размеры. Для получения дополнительной информации смотрите `wordcloud`.
Вложения Word	Вход File к `trainWordEmbedding` функция требует слов, разделенных пробелом.	Для файлов, содержащих неанглийский текст, вы можете должны быть ввести `tokenizedDocument` массив к `trainWordEmbedding`. Создать `tokenizedDocument` массив из предварительно маркируемого текста, используйте `tokenizedDocument` функция и набор `'TokenizeMethod'` опция к `'none'`. Для получения дополнительной информации смотрите `trainWordEmbedding`.

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функции поддерживают tokenizedDocument введите независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, затем, можно использовать эти функции.

Моделирование и прогноз

fitlda и fitlsa функции поддерживают bagOfWords и bagOfNgrams введите независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, затем, можно использовать эти функции.

trainWordEmbedding функционируйте поддерживает tokenizedDocument или файл вводится независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.

Ссылки

[1] Текстовая Сегментация Unicode. https://www.unicode.org/reports/tr29/

[2] Граничный анализ. http://userguide.icu-project.org/boundaryanalysis

[3] MeCab: еще одна часть речи и морфологический Анализатор. https://taku910.github.io/mecab/

Документация