Языковые факторы

Text Analytics Toolbox™ поддерживает английский, японский, немецкий и корейский языки. Большинство функций Symbolic Math Toolbox также работают с текстом на других языках. В этой таблице описывается, как использовать функции Symbolic Math Toolbox для других языков.

Функция	Фактор языка	Работа
Tokenization	The `tokenizedDocument` функция имеет встроенные правила только для английского, японского, немецкого и корейского языков. Для английского и немецкого текста, `'unicode'` метод токенизации `tokenizedDocument` обнаруживает лексемы с помощью правил на основе Юникода^® Стандартное приложение # 29 [1] и токенизатор ICU [2], модифицированный для лучшего обнаружения сложнейшие лексемы, таких как хэштеги и URL. Для японского и корейского текста, `'mecab'` метод токенизации обнаруживает лексемы с помощью правил на основе токенизатора MeCab [3].	Для других языков все еще можно попробовать использовать `tokenizedDocument`. Если `tokenizedDocument` не приводит к полезным результатам, затем попробуйте выполнить маркировку текста вручную. Как создать `tokenizedDocument` массив из вручную токенизированного текста, установите `'TokenizeMethod'` опция для `'none'`. Для получения дополнительной информации смотрите `tokenizedDocument`.
Остановить удаление слова	`stopWords` и `removeStopWords` функции поддерживают только английский, японский, немецкий и корейский стоп-слова.	Чтобы удалить стоповые слова из других языков, используйте `removeWords` и задайте свои собственные стоповые слова для удаления.
Обнаружение предложений	`addSentenceDetails` функция обнаруживает контуры предложения на основе символов пунктуации и информации о номере линии. Для английского и немецкого текста функция также использует список сокращений, переданных в функцию.	Для других языков, возможно, вам потребуется указать свой собственный список сокращений для обнаружения предложений. Для этого используйте `'Abbreviations'` опция `addSentenceDetails`. Для получения дополнительной информации см. `addSentenceDetails`.
Облака слов	Для строкового входа, `wordcloud` и `wordCloudCounts` функции используют английский, японский, немецкий и корейский языки, остановку удаления слов и нормализацию слова.	Для других языков, возможно, вам потребуется вручную обработать текстовые данные и задать уникальные слова и соответствующие размеры в `wordcloud`. Чтобы задать размеры слов в `wordcloud`, введите ваши данные как таблицу или массивы, содержащие уникальные слова и соответствующие размеры. Для получения дополнительной информации см. `wordcloud`.
Встраивания в Word	Вход файла в `trainWordEmbedding` функция требует слов, разделенных пробелами.	Для файлов, содержащих текст, отличный от английского, может потребоваться ввести `tokenizedDocument` массив в `trainWordEmbedding`. Как создать `tokenizedDocument` массив из предтокенизированного текста, используйте `tokenizedDocument` и установите `'TokenizeMethod'` опция для `'none'`. Для получения дополнительной информации см. `trainWordEmbedding`.
Экстракция ключевых слов	`rakeKeywords` функция поддерживает только текст на английском, японском, немецком и корейском языках.	`rakeKeywords` функция извлекает ключевые слова с помощью основанного на разделителе подхода для идентификации ключевых слов кандидата. Функция по умолчанию использует символы пунктуации и стоповые слова, заданные `stopWords` с языком, заданным языковыми деталями входных документов в качестве разделителей. Для других языков укажите соответствующий набор разделителей, используя `'Delimiters'` и `'MergingDelimiters'` опции. Для получения дополнительной информации см. `rakeKeywords`.
Экстракция ключевых слов	`textrankKeywords` функция поддерживает только текст на английском, японском, немецком и корейском языках.	`textrankKeywords` функция извлекает ключевые слова путем идентификации ключевых слов кандидата на основе их части речевого тега. Функция использует часть тегов речи, заданных `addPartOfSpeechDetails` функция, которая поддерживает только текст на английском, японском, немецком и корейском языках. Для других языков попробуйте использовать `rakeKeywords` вместо этого и укажите соответствующий набор разделителей, используя `'Delimiters'` и `'MergingDelimiters'` опции. Для получения дополнительной информации см. `textrankKeywords`.

Независимые от языка функции

Подсчет слов и N-граммов

The bagOfWords и bagOfNgrams поддержка функций tokenizedDocument вход независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, тогда вы можете использовать эти функции.

Моделирование и предсказание

fitlda и fitlsa поддержка функций bagOfWords и bagOfNgrams вход независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, тогда вы можете использовать эти функции.

trainWordEmbedding функция поддерживает tokenizedDocument или файл входа независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, тогда можно использовать эту функцию.

Ссылки

[1] Сегментация текста в кодировке Юникод. https://www.unicode.org/reports/tr29/

[2] Краевой анализ. http://userguide.icu-project.org/boundaryanalysis

[3] MeCab: еще одна часть речи и морфологический анализатор. https://taku910.github.io/mecab/

См. также

Документация