Языковые соображения

Text Analytics Toolbox™ поддерживает языки английский, японский, немецкий и корейский. Большинство функций панели инструментов аналитики текста также работают с текстом на других языках. В этой таблице приводится сводная информация об использовании функций панели инструментов Text Analytics для других языков.

Особенность	Рассмотрение языка	Работа
Tokenization	`tokenizedDocument` имеет встроенные правила только для английского, японского, немецкого и корейского языков. Для текста на английском и немецком языках `'unicode'` способ токенизации `tokenizedDocument` обнаруживает токены, используя правила, основанные на стандартном приложении Unicode ® No 29 [1] и токенизаторе ICU [2], модифицированном для лучшего обнаружения сложных токенов, таких как хэштеги и URL. Для японского и корейского текста `'mecab'` метод токенизации обнаруживает маркеры с помощью правил на основе маркера MeCab [3].	Для других языков можно попробовать использовать `tokenizedDocument`. Если `tokenizedDocument` не дает полезных результатов, а затем пытается маркировать текст вручную. Создание `tokenizedDocument` массив из маркированного вручную текста, установите `'TokenizeMethod'` опция для `'none'`. Дополнительные сведения см. в разделе `tokenizedDocument`.
Остановить удаление слов	`stopWords` и `removeStopWords` функции поддерживают только английские, японские, немецкие и корейские стоп-слова.	Чтобы удалить стоп-слова из других языков, используйте `removeWords` и укажите собственные стоп-слова для удаления.
Обнаружение приговоров	`addSentenceDetails` функция обнаруживает границы предложений на основе знаков препинания и информации о номере строки. Для английского и немецкого текста функция также использует список сокращений, передаваемых функции.	Для других языков может потребоваться указать собственный список сокращений для обнаружения предложений. Для этого используйте `'Abbreviations'` вариант `addSentenceDetails`. Дополнительные сведения см. в разделе `addSentenceDetails`.
Облака слов	Для ввода строки, `wordcloud` и `wordCloudCounts` функции используют английскую, японскую, немецкую и корейскую токенизацию, удаление стоп-слов и нормализацию слов.	Для других языков может потребоваться предварительная обработка текстовых данных вручную и указание уникальных слов и соответствующих размеров в `wordcloud`. Задание размеров слов в `wordcloud`введите данные в виде таблицы или массивов, содержащих уникальные слова и соответствующие размеры. Дополнительные сведения см. в разделе `wordcloud`.
Встраивание в Word	Ввод файла в `trainWordEmbedding` Для функции требуются слова, разделенные пробелами.	Для файлов, содержащих неанглийский текст, может потребоваться ввести `tokenizedDocument` массив в `trainWordEmbedding`. Создание `tokenizedDocument` массив из предварительно закодированного текста, используйте `tokenizedDocument` и установить `'TokenizeMethod'` опция для `'none'`. Дополнительные сведения см. в разделе `trainWordEmbedding`.
Извлечение ключевого слова	`rakeKeywords` поддерживает только английский, японский, немецкий и корейский тексты.	`rakeKeywords` функция извлекает ключевые слова, используя подход, основанный на разделителях, для идентификации ключевых слов-кандидатов. Функция по умолчанию использует знаки препинания и стоп-слова, заданные `stopWords` с языком, указанным языковыми деталями входных документов в качестве разделителей. Для других языков укажите соответствующий набор разделителей с помощью `'Delimiters'` и `'MergingDelimiters'` варианты. Дополнительные сведения см. в разделе `rakeKeywords`.
Извлечение ключевого слова	`textrankKeywords` поддерживает только английский, японский, немецкий и корейский тексты.	`textrankKeywords` функция извлекает ключевые слова путем идентификации ключевых слов-кандидатов на основе их тега части речи. Функция использует теги части речи, задаваемые `addPartOfSpeechDetails` функция, поддерживающая только английский, японский, немецкий и корейский тексты. Для других языков попробуйте использовать `rakeKeywords` и укажите соответствующий набор разделителей с помощью `'Delimiters'` и `'MergingDelimiters'` варианты. Дополнительные сведения см. в разделе `textrankKeywords`.

Функции, не зависящие от языка

Подсчет слов и N-граммов

bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.

Моделирование и прогнозирование

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.

trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.

Ссылки

[1] Сегментация текста в Юникоде. https://www.unicode.org/reports/tr29/

[2] Анализ границ. http://userguide.icu-project.org/boundaryanalysis

[3] MeCab: еще одна часть речевого и морфологического анализатора. https://taku910.github.io/mecab/

См. также

Документация