exponenta event banner

wordCloudCounts

Число слов для создания облака слов

Синтаксис

Описание

пример

T = wordCloudCounts(str) маркирует и предварительно обрабатывает текст в str для создания облака слов и возвращает таблицу T числа слов и частоты. Функция поддерживает английский, японский, немецкий и корейский тексты.

Примеры

свернуть все

Извлечь текст из sonnets.txt использование extractFileText.

str = extractFileText("sonnets.txt");

Просмотр первого сонета.

i = strfind(str,"I");
ii = strfind(str,"II");
start = i(1);
fin = ii(1);
extractBetween(str,start,fin-1)
ans = 
    "I
     
       From fairest creatures we desire increase,
       That thereby beauty's rose might never die,
       But as the riper should by time decease,
       His tender heir might bear his memory:
       But thou, contracted to thine own bright eyes,
       Feed'st thy light's flame with self-substantial fuel,
       Making a famine where abundance lies,
       Thy self thy foe, to thy sweet self too cruel:
       Thou that art now the world's fresh ornament,
       And only herald to the gaudy spring,
       Within thine own bud buriest thy content,
       And tender churl mak'st waste in niggarding:
         Pity the world, or else this glutton be,
         To eat the world's due, by the grave and thee.
     
       "

Выполните токенизацию и предварительную обработку текста сонетов и создайте таблицу счетчиков частоты слов.

T = wordCloudCounts(str);
head(T)
ans=8×2 table
     Word     Count
    ______    _____

    "thy"      281 
    "thou"     235 
    "love"     188 
    "thee"     162 
    "eyes"      90 
    "doth"      88 
    "make"      63 
    "mine"      63 

Входные аргументы

свернуть все

Входной текст, заданный как строковый массив, символьный вектор или массив ячеек символьных векторов.

Для ввода строки, wordcloud и wordCloudCounts функции используют английскую, японскую, немецкую и корейскую токенизацию, удаление стоп-слов и нормализацию слов.

Пример: ["an example of a short document";"a second short document"]

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Таблица слов отсортирована по важности. Таблица содержит столбцы:

WordСтроковый скаляр слова.
CountКоличество раз, когда слово появляется в документах. Функция группирует количество слов, которые различаются только в зависимости от случая или имеют общий стебель согласно normalizeWords. Например, функция группирует счета для «прогулки», «Ходьбы», «ходьбы» и «прогулок».

Подробнее

свернуть все

Языковые соображения

Для ввода строки, wordcloud и wordCloudCounts функции используют английскую, японскую, немецкую и корейскую токенизацию, удаление стоп-слов и нормализацию слов.

Представлен в R2017b