Факторы языка

Text Analytics Toolbox™ поддерживает англичан языков, японцев, немца и корейца. Большинство функций Text Analytics Toolbox также работает с текстом на других языках. Эта таблица суммирует, как использовать функции Text Analytics Toolbox для других языков.

Функция	Фактор языка	Работа вокруг
Токенизация	`tokenizedDocument` функция имеет встроенные правила для английского, японского языка, немецкого языка и корейского языка только. Для английского и немецкого текста, `'unicode'` метод токенизации `tokenizedDocument` обнаруживает лексемы, использующие правила на основе Unicode^® Стандартное Приложение № 29 [1] и токенизатор ICU [2], измененный, чтобы лучше обнаружить комплексные лексемы, такие как хэш-теги и URL. Для японского и корейского текста, `'mecab'` метод токенизации обнаруживает лексемы, использующие правила на основе токенизатора MeCab [3].	Для других языков можно все еще попытаться использовать `tokenizedDocument`. Если `tokenizedDocument` не приводит к полезным результатам, затем пытаются маркировать текст вручную. Создать `tokenizedDocument` массив из вручную маркируемого текста, набор `'TokenizeMethod'` опция к `'none'`. Для получения дополнительной информации смотрите `tokenizedDocument`.
Остановите удаление слова	`stopWords` и `removeStopWords` функции поддерживают английский, японский язык, немецкий язык и корейские слова остановки только.	Чтобы удалить слова остановки из других языков, использовать `removeWords` и задайте свои собственные слова остановки, чтобы удалить.
Обнаружение предложения	`addSentenceDetails` функция обнаруживает контуры предложения на основе информации о номере строки и символов пунктуации. Для английского и немецкого текста функция также использует список сокращений, переданных функции.	Для других языков вы можете должны быть задать свой собственный список сокращений от обнаружения предложения. Для этого используйте `'Abbreviations'` опция `addSentenceDetails`. Для получения дополнительной информации смотрите `addSentenceDetails`.
Облака Word	Для входа строки, `wordcloud` и `wordCloudCounts` функции используют английский, японский язык, немецкий язык, и корейскую токенизацию, останавливают удаление слова и нормализацию слова.	Для других языков вы можете должны быть вручную предварительно обработать свои текстовые данные и задать уникальные слова и соответствующие размеры в `wordcloud`. Задавать размеры слова в `wordcloud`, введите свои данные как таблицу или массивы, содержащие уникальные слова и соответствующие размеры. Для получения дополнительной информации смотрите `wordcloud`.
Вложения Word	Вход File к `trainWordEmbedding` функция требует слов, разделенных пробелом.	Для файлов, содержащих неанглийский текст, вы можете должны быть ввести `tokenizedDocument` массив к `trainWordEmbedding`. Создать `tokenizedDocument` массив из предварительно маркируемого текста, используйте `tokenizedDocument` функция и набор `'TokenizeMethod'` опция к `'none'`. Для получения дополнительной информации смотрите `trainWordEmbedding`.
Экстракция ключевого слова	`rakeKeywords` функционируйте поддерживает английский, японский язык, немецкий язык и корейский текст только.	`rakeKeywords` функционируйте извлекает ключевые слова с помощью основанного на разделителе подхода, чтобы идентифицировать ключевые слова кандидата. Функция, по умолчанию, использует символы пунктуации и слова остановки, данные `stopWords` с языком, данным деталями языка входных документов как разделители. Для других языков задайте соответствующий набор разделителей с помощью `'Delimiters'` и `'MergingDelimiters'` опции. Для получения дополнительной информации смотрите `rakeKeywords`.
Экстракция ключевого слова	`textrankKeywords` функционируйте поддерживает английский, японский язык, немецкий язык и корейский текст только.	`textrankKeywords` функционируйте извлекает ключевые слова путем идентификации ключевых слов кандидата на основе их тега части речи. Функция использует теги части речи, данные `addPartOfSpeechDetails` функция, которая поддерживает английский, японский язык, немецкий язык и корейский текст только. Для других языков попытайтесь использовать `rakeKeywords` вместо этого и задайте соответствующий набор разделителей с помощью `'Delimiters'` и `'MergingDelimiters'` опции. Для получения дополнительной информации смотрите `textrankKeywords`.

Независимые от языка функции

Word и подсчет n-граммы

bagOfWords и bagOfNgrams функции поддерживают tokenizedDocument введите независимо от языка. Если у вас есть tokenizedDocument массив, содержащий ваши данные, затем, можно использовать эти функции.

Моделирование и предсказание

fitlda и fitlsa функции поддерживают bagOfWords и bagOfNgrams введите независимо от языка. Если у вас есть bagOfWords или bagOfNgrams объект, содержащий ваши данные, затем, можно использовать эти функции.

trainWordEmbedding функционируйте поддерживает tokenizedDocument или файл вводится независимо от языка. Если у вас есть tokenizedDocument массив или файл, содержащий ваши данные в правильном формате, затем, можно использовать эту функцию.

Ссылки

[1] Текстовая Сегментация Unicode. https://www.unicode.org/reports/tr29/

[2] Граничный Анализ. https://unicode-org.github.io/icu/userguide/boundaryanalysis

[3] MeCab: Еще одна Часть речи и Морфологический Анализатор. https://taku910.github.io/mecab/

Документация