exponenta event banner

Языковые соображения

Text Analytics Toolbox™ поддерживает языки английский, японский, немецкий и корейский. Большинство функций панели инструментов аналитики текста также работают с текстом на других языках. В этой таблице приводится сводная информация об использовании функций панели инструментов Text Analytics для других языков.

ОсобенностьРассмотрение языкаРабота
Tokenization

tokenizedDocument имеет встроенные правила только для английского, японского, немецкого и корейского языков. Для текста на английском и немецком языках 'unicode' способ токенизации tokenizedDocument обнаруживает токены, используя правила, основанные на стандартном приложении Unicode ® No 29 [1] и токенизаторе ICU [2], модифицированном для лучшего обнаружения сложных токенов, таких как хэштеги и URL. Для японского и корейского текста 'mecab' метод токенизации обнаруживает маркеры с помощью правил на основе маркера MeCab [3].

Для других языков можно попробовать использовать tokenizedDocument. Если tokenizedDocument не дает полезных результатов, а затем пытается маркировать текст вручную. Создание tokenizedDocument массив из маркированного вручную текста, установите 'TokenizeMethod' опция для 'none'.

Дополнительные сведения см. в разделе tokenizedDocument.

Остановить удаление слов

stopWords и removeStopWords функции поддерживают только английские, японские, немецкие и корейские стоп-слова.

Чтобы удалить стоп-слова из других языков, используйте removeWords и укажите собственные стоп-слова для удаления.

Обнаружение приговоров

addSentenceDetails функция обнаруживает границы предложений на основе знаков препинания и информации о номере строки. Для английского и немецкого текста функция также использует список сокращений, передаваемых функции.

Для других языков может потребоваться указать собственный список сокращений для обнаружения предложений. Для этого используйте 'Abbreviations' вариант addSentenceDetails.

Дополнительные сведения см. в разделе addSentenceDetails.

Облака слов

Для ввода строки, wordcloud и wordCloudCounts функции используют английскую, японскую, немецкую и корейскую токенизацию, удаление стоп-слов и нормализацию слов.

Для других языков может потребоваться предварительная обработка текстовых данных вручную и указание уникальных слов и соответствующих размеров в wordcloud.

Задание размеров слов в wordcloudвведите данные в виде таблицы или массивов, содержащих уникальные слова и соответствующие размеры.

Дополнительные сведения см. в разделе wordcloud.

Встраивание в Word

Ввод файла в trainWordEmbedding Для функции требуются слова, разделенные пробелами.

Для файлов, содержащих неанглийский текст, может потребоваться ввести tokenizedDocument массив в trainWordEmbedding.

Создание tokenizedDocument массив из предварительно закодированного текста, используйте tokenizedDocument и установить 'TokenizeMethod' опция для 'none'.

Дополнительные сведения см. в разделе trainWordEmbedding.

Извлечение ключевого слова

rakeKeywords поддерживает только английский, японский, немецкий и корейский тексты.

rakeKeywords функция извлекает ключевые слова, используя подход, основанный на разделителях, для идентификации ключевых слов-кандидатов. Функция по умолчанию использует знаки препинания и стоп-слова, заданные stopWords с языком, указанным языковыми деталями входных документов в качестве разделителей.

Для других языков укажите соответствующий набор разделителей с помощью 'Delimiters' и 'MergingDelimiters' варианты.

Дополнительные сведения см. в разделе rakeKeywords.

textrankKeywords поддерживает только английский, японский, немецкий и корейский тексты.

textrankKeywords функция извлекает ключевые слова путем идентификации ключевых слов-кандидатов на основе их тега части речи. Функция использует теги части речи, задаваемые addPartOfSpeechDetails функция, поддерживающая только английский, японский, немецкий и корейский тексты.

Для других языков попробуйте использовать rakeKeywords и укажите соответствующий набор разделителей с помощью 'Delimiters' и 'MergingDelimiters' варианты.

Дополнительные сведения см. в разделе textrankKeywords.

Функции, не зависящие от языка

Подсчет слов и N-граммов

bagOfWords и bagOfNgrams поддержка функций tokenizedDocument ввод независимо от языка. Если у вас есть tokenizedDocument массив, содержащий данные, можно использовать эти функции.

Моделирование и прогнозирование

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams ввод независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий данные, можно использовать эти функции.

trainWordEmbedding поддержка функций tokenizedDocument или ввод файла независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий данные в правильном формате, то можно использовать эту функцию.

Ссылки

[1] Сегментация текста в Юникоде. https://www.unicode.org/reports/tr29/

[3] MeCab: еще одна часть речевого и морфологического анализатора. https://taku910.github.io/mecab/

См. также

| | | | | | | | | |

Связанные темы