Языковые факторы

Text Analytics Toolbox™ поддерживает английский, японский, немецкий и корейский языки. Большинство функций Symbolic Math Toolbox также работают с текстом на других языках. В этой таблице описывается, как использовать функции Symbolic Math Toolbox для других языков.

ФункцияФактор языкаРабота
Tokenization

The tokenizedDocument функция имеет встроенные правила только для английского, японского, немецкого и корейского языков. Для английского и немецкого текста, 'unicode' метод токенизации tokenizedDocument обнаруживает лексемы с помощью правил на основе Юникода® Стандартное приложение # 29 [1] и токенизатор ICU [2], модифицированный для лучшего обнаружения сложнейшие лексемы, таких как хэштеги и URL. Для японского и корейского текста, 'mecab' метод токенизации обнаруживает лексемы с помощью правил на основе токенизатора MeCab [3].

Для других языков все еще можно попробовать использовать tokenizedDocument. Если tokenizedDocument не приводит к полезным результатам, затем попробуйте выполнить маркировку текста вручную. Как создать tokenizedDocument массив из вручную токенизированного текста, установите 'TokenizeMethod' опция для 'none'.

Для получения дополнительной информации смотрите tokenizedDocument.

Остановить удаление слова

stopWords и removeStopWords функции поддерживают только английский, японский, немецкий и корейский стоп-слова.

Чтобы удалить стоповые слова из других языков, используйте removeWords и задайте свои собственные стоповые слова для удаления.

Обнаружение предложений

addSentenceDetails функция обнаруживает контуры предложения на основе символов пунктуации и информации о номере линии. Для английского и немецкого текста функция также использует список сокращений, переданных в функцию.

Для других языков, возможно, вам потребуется указать свой собственный список сокращений для обнаружения предложений. Для этого используйте 'Abbreviations' опция addSentenceDetails.

Для получения дополнительной информации см. addSentenceDetails.

Облака слов

Для строкового входа, wordcloud и wordCloudCounts функции используют английский, японский, немецкий и корейский языки, остановку удаления слов и нормализацию слова.

Для других языков, возможно, вам потребуется вручную обработать текстовые данные и задать уникальные слова и соответствующие размеры в wordcloud.

Чтобы задать размеры слов в wordcloud, введите ваши данные как таблицу или массивы, содержащие уникальные слова и соответствующие размеры.

Для получения дополнительной информации см. wordcloud.

Встраивания в Word

Вход файла в trainWordEmbedding функция требует слов, разделенных пробелами.

Для файлов, содержащих текст, отличный от английского, может потребоваться ввести tokenizedDocument массив в trainWordEmbedding.

Как создать tokenizedDocument массив из предтокенизированного текста, используйте tokenizedDocument и установите 'TokenizeMethod' опция для 'none'.

Для получения дополнительной информации см. trainWordEmbedding.

Экстракция ключевых слов

rakeKeywords функция поддерживает только текст на английском, японском, немецком и корейском языках.

rakeKeywords функция извлекает ключевые слова с помощью основанного на разделителе подхода для идентификации ключевых слов кандидата. Функция по умолчанию использует символы пунктуации и стоповые слова, заданные stopWords с языком, заданным языковыми деталями входных документов в качестве разделителей.

Для других языков укажите соответствующий набор разделителей, используя 'Delimiters' и 'MergingDelimiters' опции.

Для получения дополнительной информации см. rakeKeywords.

textrankKeywords функция поддерживает только текст на английском, японском, немецком и корейском языках.

textrankKeywords функция извлекает ключевые слова путем идентификации ключевых слов кандидата на основе их части речевого тега. Функция использует часть тегов речи, заданных addPartOfSpeechDetails функция, которая поддерживает только текст на английском, японском, немецком и корейском языках.

Для других языков попробуйте использовать rakeKeywords вместо этого и укажите соответствующий набор разделителей, используя 'Delimiters' и 'MergingDelimiters' опции.

Для получения дополнительной информации см. textrankKeywords.

Независимые от языка функции

Подсчет слов и N-граммов

The bagOfWords и bagOfNgrams поддержка функций tokenizedDocument вход независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, тогда вы можете использовать эти функции.

Моделирование и предсказание

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams вход независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, тогда вы можете использовать эти функции.

trainWordEmbedding функция поддерживает tokenizedDocument или файл входа независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.

Ссылки

[1] Сегментация текста в кодировке Юникод. https://www.unicode.org/reports/tr29/

[2] Краевой анализ. http://userguide.icu-project.org/boundaryanalysis

[3] MeCab: еще одна часть речи и морфологический анализатор. https://taku910.github.io/mecab/

См. также

| | | | | | | | | |

Похожие темы