topkwords

Самые важные слова в модели мешка слов или теме LDA

Свернуть все на странице

Синтаксис

tbl = topkwords(bag)

tbl = topkwords(bag,k)

tbl = topkwords(ldaMdl,k,topicIdx)

tbl = topkwords(___,Name,Value)

Описание

пример

tbl = topkwords(bag) возвращает таблицу из пяти слов с наибольшим количеством слов в модели мешка слов bag. Функция по умолчанию чувствительна к регистру.

пример

tbl = topkwords(bag,k) возвращает таблицу k слова с наибольшим количеством слов. Функция по умолчанию чувствительна к регистру.

пример

tbl = topkwords(ldaMdl,k,topicIdx) возвращает таблицу k слова с наивысшими вероятностями в теме латентного распределения Дирихле (LDA) topicIdx в модели LDA ldaMdl.

пример

tbl = topkwords(___,Name,Value) задает дополнительные опции, используя один или несколько аргументы пары "имя-значение".

Примеры

свернуть все

Наиболее частые слова модели мешка слов

Открыть Live Script

Составьте таблицу наиболее частых слов модели мешка слов.

Загрузите данные примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит по одному сонету на линию со словами, разделенными пространством. Извлеките текст из sonnetsPreprocessed.txtразделите текст на документы в символах новой строки, а затем пометьте его токеном.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Создайте модель мешка слов с помощью bagOfWords.

bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [154x3092 double]
      Vocabulary: [1x3092 string]
        NumWords: 3092
    NumDocuments: 154

Найдите пять лучших слов.

T = topkwords(bag);

Найдите 20 лучших слов в модели.

k = 20;
T = topkwords(bag,k)

T=20×2 table
      Word      Count
    ________    _____

    "thy"        281 
    "thou"       234 
    "love"       162 
    "thee"       161 
    "doth"        88 
    "mine"        63 
    "shall"       59 
    "eyes"        56 
    "sweet"       55 
    "time"        53 
    "beauty"      52 
    "nor"         52 
    "art"         51 
    "yet"         51 
    "o"           50 
    "heart"       50 
      ⋮

Слова с наивысшей вероятностью из темы LDA

Открыть Live Script

Составьте таблицу слов с самой высокой вероятностью темы LDA.

Чтобы воспроизвести результаты, установите rng на 'default'.

rng('default')

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Создайте модель мешка слов с помощью bagOfWords.

bag = bagOfWords(documents);

Подгонка модели LDA с 20 темами. Чтобы подавить подробный выход, установите 'Verbose' в 0.

numTopics = 20;
mdl = fitlda(bag,numTopics,'Verbose',0);

Найдите 20 лучших слов первой темы.

k = 20;
topicIdx = 1;
tbl = topkwords(mdl,k,topicIdx)

tbl=20×2 table
      Word        Score  
    ________    _________

    "eyes"        0.11155
    "beauty"      0.05777
    "hath"       0.055778
    "still"      0.049801
    "true"       0.043825
    "mine"       0.033865
    "find"       0.031873
    "black"      0.025897
    "look"       0.023905
    "tis"        0.023905
    "kind"       0.021913
    "seen"       0.021913
    "found"      0.017929
    "sin"        0.015937
    "three"      0.013945
    "golden"    0.0099608
      ⋮

Найдите 20 лучших слов первой темы и используйте обратное среднее масштабирование в счетах.

tbl = topkwords(mdl,k,topicIdx,'Scaling','inversemean')

tbl=20×2 table
      Word       Score  
    ________    ________

    "eyes"        1.2718
    "beauty"     0.59022
    "hath"        0.5692
    "still"      0.50269
    "true"       0.43719
    "mine"       0.32764
    "find"       0.32544
    "black"      0.25931
    "tis"        0.23755
    "look"       0.22519
    "kind"       0.21594
    "seen"       0.21594
    "found"      0.17326
    "sin"        0.15223
    "three"      0.13143
    "golden"    0.090698
      ⋮

Создайте облако слов, используя масштабированные счета в качестве данных о размере.

figure
wordcloud(tbl.Word,tbl.Score);

Figure contains an object of type wordcloud.

Входные параметры

свернуть все

`bag` - Вход пакета слов
`bagOfWords` объект

Вход пакета слов, заданная как bagOfWords объект.

`k` - Количество слов
неотрицательное целое число

Количество слов для возврата, заданное как положительное целое число.

Пример: 20

`ldaMdl` - Входная модель LDA
`ldaModel` объект

Входная модель LDA, заданная как ldaModel объект.

`topicIdx` - Индекс темы LDA
неотрицательное целое число

Индекс темы LDA, заданный как неотрицательное целое число.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'Scaling','inversemean' задает, чтобы использовать обратное среднее масштабирование для вероятностей слова в теме.

Опции модели мешка слов

свернуть все

`'IgnoreCase'` - Опция игнорировать случай
`false` (по умолчанию) | `true`

Опция игнорирования случая, заданная как разделенная разделенными запятой парами, состоящая из 'IgnoreCase' и одно из следующих:

false - относиться к словам, различающимся только в каждом конкретном случае, как к отдельным словам.
true - относиться к словам, отличающимся только по случаю, как к одному и тому же слову и объединять счетчики.

Эта опция поддерживает только вход сумки слов.

`'ForceCellOutput'` - Индикатор для принудительного возврата выхода в виде массива ячеек
`false` (по умолчанию) | `true`

Индикатор для принудительного возврата выхода в виде массива ячеек, заданный как разделенная запятыми пара, состоящая из 'ForceCellOutput' и true или false.

Эта опция поддерживает только вход сумки слов.

Типы данных: logical

Опции модели LDA

свернуть все

`'Scaling'` - Масштабирование для применения к вероятностям тематических слов
`'none'` (по умолчанию) | `'inversemean'`

Масштабирование для применения к вероятностям тематического слова, заданное как разделенная разделенными запятой парами, состоящая из 'Scaling' и одно из следующих:

'none' - Возвращает апостериорные вероятности слов.
'inversemean' - Нормализуйте апостериорные вероятности слова по теме геометрическим средним апостериорными вероятностями для этого слова по всем темам. Функция использует формулу Phi.*(log(Phi)-mean(log(Phi),1)), где Phi соответствует ldaMdl.TopicWordProbabilities.

Эта опция поддерживает только вход модели LDA.

Пример: 'Scaling','inversemean'

Типы данных: char

Выходные аргументы

свернуть все

`tbl` - Таблица верхних слов
таблица | массив ячеек из таблиц

Таблица верхних слов, отсортированных в порядке важности или массив ячеек из таблиц.

Когда вход является моделью мешка слов, таблица имеет следующие столбцы:

`Word`	Слово задается как строка
`Count`	Количество раз, когда слово появляется в модели мешка слов

Если bag является некалярным массивом или 'ForceCellOutput' является true, затем функция возвращает выходы как массив ячеек из таблиц. Каждый элемент массива ячеек является таблицей, содержащей верхние слова соответствующего элемента bag.

Когда вход является моделью LDA, таблица имеет следующие столбцы:

`Word`	Слово задается как строка
`Score`	Вероятность слова для данной темы LDA

Совет

Чтобы найти наиболее часто встречающиеся n-граммы в модели мешка n-граммов, используйте topkngrams.

См. также

Темы

Введенный в R2017b

Документация

topkwords

Синтаксис

Описание

Примеры

Наиболее частые слова модели мешка слов

Слова с наивысшей вероятностью из темы LDA

Входные параметры

`bag` - Вход пакета слов
`bagOfWords` объект

`k` - Количество слов
неотрицательное целое число

`ldaMdl` - Входная модель LDA
`ldaModel` объект

`topicIdx` - Индекс темы LDA
неотрицательное целое число

Аргументы в виде пар имя-значение

`'IgnoreCase'` - Опция игнорировать случай
`false` (по умолчанию) | `true`

`'ForceCellOutput'` - Индикатор для принудительного возврата выхода в виде массива ячеек
`false` (по умолчанию) | `true`

`'Scaling'` - Масштабирование для применения к вероятностям тематических слов
`'none'` (по умолчанию) | `'inversemean'`

Выходные аргументы

`tbl` - Таблица верхних слов
таблица | массив ячеек из таблиц

Совет

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

topkwords

Синтаксис

Описание

Примеры

Наиболее частые слова модели мешка слов

Слова с наивысшей вероятностью из темы LDA

Входные параметры

bag - Вход пакета слов bagOfWords объект

k - Количество слов неотрицательное целое число

ldaMdl - Входная модель LDA ldaModel объект

topicIdx - Индекс темы LDA неотрицательное целое число

Аргументы в виде пар имя-значение

'IgnoreCase' - Опция игнорировать случай false (по умолчанию) | true

'ForceCellOutput' - Индикатор для принудительного возврата выхода в виде массива ячеек false (по умолчанию) | true

'Scaling' - Масштабирование для применения к вероятностям тематических слов 'none' (по умолчанию) | 'inversemean'

Выходные аргументы

tbl - Таблица верхних слов таблица | массив ячеек из таблиц

Совет

См. также

Темы

Symbolic Math Toolbox

Поддержка

`bag` - Вход пакета слов
`bagOfWords` объект

`k` - Количество слов
неотрицательное целое число

`ldaMdl` - Входная модель LDA
`ldaModel` объект

`topicIdx` - Индекс темы LDA
неотрицательное целое число

`'IgnoreCase'` - Опция игнорировать случай
`false` (по умолчанию) | `true`

`'ForceCellOutput'` - Индикатор для принудительного возврата выхода в виде массива ячеек
`false` (по умолчанию) | `true`

`'Scaling'` - Масштабирование для применения к вероятностям тематических слов
`'none'` (по умолчанию) | `'inversemean'`

`tbl` - Таблица верхних слов
таблица | массив ячеек из таблиц