Факторы языка

Text Analytics Toolbox™ поддерживает англичан языков, японцев, немца и корейца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.

ФункцияФактор языкаРабота вокруг
Токенизация

tokenizedDocument функция имеет встроенные правила для английского, японского языка, немецкого языка и корейского языка только. Для английского и немецкого текста, 'unicode' метод токенизации tokenizedDocument обнаруживает лексемы, использующие правила на основе Приложения № 29 [1] Стандарта Unicode® и токенизатора ICU [2], измененный, чтобы лучше обнаружить комплексные лексемы, такие как хэш-теги и URL. Для японского и корейского текста, 'mecab' метод токенизации обнаруживает лексемы, использующие правила на основе токенизатора MeCab [3].

Для других языков можно все еще попытаться использовать tokenizedDocument. Если tokenizedDocument не приводит к полезным результатам, затем пытаются маркировать текст вручную. Создать tokenizedDocument массив из вручную маркируемого текста, набор 'TokenizeMethod' опция к 'none'.

Для получения дополнительной информации смотрите tokenizedDocument.

Остановите удаление слова

stopWords и removeStopWords функции поддерживают английский, японский язык, немецкий язык и корейские слова остановки только.

Чтобы удалить слова остановки из других языков, используйте removeWords и задайте свои собственные слова остановки, чтобы удалить.

Обнаружение предложения

addSentenceDetails функция обнаруживает контуры предложения на основе информации о номере строки и символов пунктуации. Для английского и немецкого текста функция также использует список сокращений, переданных функции.

Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте 'Abbreviations' опция addSentenceDetails.

Для получения дополнительной информации смотрите addSentenceDetails.

Облака Word

Для входа строки, wordcloud и wordCloudCounts функции используют английский, японский язык, немецкий язык, и корейскую токенизацию, останавливают удаление слова и нормализацию слова.

Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в wordcloud.

Задавать размеры слова в wordcloud, введите свои данные как таблицу или массивы, содержащие уникальные слова и соответствующие размеры.

Для получения дополнительной информации смотрите wordcloud.

Вложения Word

Вход File к trainWordEmbedding функция требует слов, разделенных пробелом.

Для файлов, содержащих неанглийский текст, вы можете должны быть ввести tokenizedDocument массив к trainWordEmbedding.

Создать tokenizedDocument массив из предварительно маркируемого текста, используйте tokenizedDocument функция и набор 'TokenizeMethod' опция к 'none'.

Для получения дополнительной информации смотрите trainWordEmbedding.

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функции поддерживают tokenizedDocument введите независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, затем, можно использовать эти функции.

Моделирование и прогноз

fitlda и fitlsa функции поддерживают bagOfWords и bagOfNgrams введите независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, затем, можно использовать эти функции.

trainWordEmbedding функционируйте поддерживает tokenizedDocument или файл вводится независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.

Ссылки

[1] Текстовая Сегментация Unicode. https://www.unicode.org/reports/tr29/

[2] Граничный анализ. http://userguide.icu-project.org/boundaryanalysis

[3] MeCab: еще одна часть речи и морфологический Анализатор. https://taku910.github.io/mecab/

Смотрите также

| | | | | | | | | |

Похожие темы