Факторы языка

Text Analytics Toolbox™ поддерживает англичан языков, японцев и немца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.

ФункцияФактор языкаРабота вокруг
Токенизация

Функция tokenizedDocument имеет встроенные правила для английского, японского языка и немецкого языка только. Для английского и немецкого текста метод токенизации 'unicode' tokenizedDocument обнаруживает лексемы, использующие правила на основе Приложения № 29 [1] Стандарта Unicode® и токенизатора ICU [2], измененный, чтобы лучше обнаружить комплексные лексемы, такие как хэш-теги и URL. Для японского текста метод токенизации 'mecab' обнаруживает лексемы, использующие правила на основе токенизатора MeCab [3].

Для других языков можно все еще попытаться использовать tokenizedDocument. Если tokenizedDocument не приводит к полезным результатам, то попытайтесь маркировать текст вручную. Чтобы создать массив tokenizedDocument из вручную маркируемого текста, установите опцию 'TokenizeMethod' на 'none'.

Для получения дополнительной информации смотрите tokenizedDocument.

Остановите удаление слова

stopWords и функции removeStopWords поддерживают английский, японский язык и немецкие слова остановки только.

Чтобы удалить слова остановки из других языков, используйте removeWords и задайте ваши собственные слова остановки, чтобы удалить.

Обнаружение предложения

Функция addSentenceDetails обнаруживает контуры предложения на основе информации о номере строки и символов пунктуации. Для английского и немецкого текста функция также использует список сокращений, переданных функции.

Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте опцию 'Abbreviations' addSentenceDetails.

Для получения дополнительной информации смотрите addSentenceDetails.

Облака Word

Для входа строки функция wordcloud использует английский язык, японский язык и немецкая токенизация, останавливают удаление слова и нормализацию слова.

Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в wordcloud.

Чтобы задать размеры слова в wordcloud, введите свои данные как таблицу или массивы, содержащие уникальные слова и соответствующие размеры.

Для получения дополнительной информации смотрите wordcloud.

Вложения Word

Вход File к функции trainWordEmbedding требует слов, разделенных пробелом.

Для файлов, содержащих неанглийский текст, вы можете должны быть ввести массив tokenizedDocument к trainWordEmbedding.

Чтобы создать массив tokenizedDocument из предварительно маркируемого текста, используйте функцию tokenizedDocument и установите опцию 'TokenizeMethod' на 'none'.

Для получения дополнительной информации смотрите trainWordEmbedding.

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функционируют вход tokenizedDocument поддержки независимо от языка. Если у вас есть массив tokenizedDocument, содержащий ваши данные, то можно использовать эти функции.

Моделирование и прогноз

fitlda и fitlsa функционируют вход bagOfWords и bagOfNgrams поддержки независимо от языка. Если у вас есть объект bagOfWords или bagOfNgrams, содержащий ваши данные, то можно использовать эти функции.

Функция trainWordEmbedding поддерживает tokenizedDocument или вход файла независимо от языка. Если у вас есть массив tokenizedDocument или файл, содержащий ваши данные в правильном формате, то можно использовать эту функцию.

Ссылки

[1] Текстовая сегментация Unicode. https://www.unicode.org/reports/tr29/

[2] Граничный анализ. http://userguide.icu-project.org/boundaryanalysis

[3] MeCab: еще одна часть речи и морфологический Анализатор. https://taku910.github.io/mecab/

Смотрите также

| | | | | | | | | |

Похожие темы