predict

Предскажите главные темы LDA документов

свернуть все на странице

Синтаксис

topicIdx = predict(ldaMdl,documents)

topicIdx = predict(ldaMdl,bag)

topicIdx = predict(ldaMdl,counts)

[topicIdx,score] = predict(___)

___ = predict(___,Name,Value)

Описание

пример

topicIdx = predict(ldaMdl,documents) возвращает индексы темы LDA с самыми большими вероятностями для documents на основе модели LDA ldaMdl.

topicIdx = predict(ldaMdl,bag) возвращает индексы темы LDA с самыми большими вероятностями для документов, представленных сумкой слов или мешком n модели граммов.

пример

topicIdx = predict(ldaMdl,counts) возвращает индексы темы LDA с самыми большими вероятностями для документов, представленных матрицей подсчетов слов.

пример

[topicIdx,score] = predict(___) также возвращает матрицу апостериорных вероятностей score.

пример

___ = predict(___,Name,Value) задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение".

Примеры

свернуть все

Предскажите главные темы LDA документов

Попробовать в MATLAB

Чтобы воспроизвести результаты в этом примере, установите rng к 'default'.

rng('default')

Загрузите данные в качестве примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит один сонет на строку со словами, разделенными пробелом. Извлеките текст из sonnetsPreprocessed.txt, разделите текст в документы в символах новой строки, и затем маркируйте документы.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Создайте модель сумки слов использование bagOfWords.

bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [154x3092 double]
      Vocabulary: [1x3092 string]
        NumWords: 3092
    NumDocuments: 154

Подбирайте модель LDA с 20 темами.

numTopics = 20;
mdl = fitlda(bag,numTopics)

Initial topic assignments sampled in 0.172684 seconds.
=====================================================================================
| Iteration  |  Time per  |  Relative  |  Training  |     Topic     |     Topic     |
|            | iteration  | change in  | perplexity | concentration | concentration |
|            | (seconds)  |   log(L)   |            |               |   iterations  |
=====================================================================================
|          0 |       0.18 |            |  1.159e+03 |         5.000 |             0 |
|          1 |       0.10 | 5.4884e-02 |  8.028e+02 |         5.000 |             0 |
|          2 |       0.06 | 4.7400e-03 |  7.778e+02 |         5.000 |             0 |
|          3 |       0.09 | 3.4597e-03 |  7.602e+02 |         5.000 |             0 |
|          4 |       0.07 | 3.4662e-03 |  7.430e+02 |         5.000 |             0 |
|          5 |       0.08 | 2.9259e-03 |  7.288e+02 |         5.000 |             0 |
|          6 |       0.05 | 6.4180e-05 |  7.291e+02 |         5.000 |             0 |
=====================================================================================

mdl = 
  ldaModel with properties:

                     NumTopics: 20
             WordConcentration: 1
            TopicConcentration: 5
      CorpusTopicProbabilities: [1x20 double]
    DocumentTopicProbabilities: [154x20 double]
        TopicWordProbabilities: [3092x20 double]
                    Vocabulary: [1x3092 string]
                    TopicOrder: 'initial-fit-probability'
                       FitInfo: [1x1 struct]

Предскажите главные темы для массива новых документов.

newDocuments = tokenizedDocument([
    "what's in a name? a rose by any other name would smell as sweet."
    "if music be the food of love, play on."]);
topicIdx = predict(mdl,newDocuments)

topicIdx = 2×1

    19
     8

Визуализируйте предсказанные темы с помощью облаков слова.

figure
subplot(1,2,1)
wordcloud(mdl,topicIdx(1));
title("Topic " + topicIdx(1))
subplot(1,2,2)
wordcloud(mdl,topicIdx(2));
title("Topic " + topicIdx(2))

Предскажите главные темы LDA матрицы для подсчета количества слов

Попробовать в MATLAB

Загрузите данные в качестве примера. sonnetsCounts.mat содержит матрицу подсчетов слов и соответствующий словарь предварительно обработанных версий сонетов Шекспира.

load sonnetsCounts.mat
size(counts)

ans = 1×2

         154        3092

Подбирайте модель LDA с 20 темами. Чтобы воспроизвести результаты в этом примере, установите rng к 'default'.

rng('default')
numTopics = 20;
mdl = fitlda(counts,numTopics)

Initial topic assignments sampled in 0.110131 seconds.
=====================================================================================
| Iteration  |  Time per  |  Relative  |  Training  |     Topic     |     Topic     |
|            | iteration  | change in  | perplexity | concentration | concentration |
|            | (seconds)  |   log(L)   |            |               |   iterations  |
=====================================================================================
|          0 |       0.23 |            |  1.159e+03 |         5.000 |             0 |
|          1 |       0.11 | 5.4884e-02 |  8.028e+02 |         5.000 |             0 |
|          2 |       0.11 | 4.7400e-03 |  7.778e+02 |         5.000 |             0 |
|          3 |       0.09 | 3.4597e-03 |  7.602e+02 |         5.000 |             0 |
|          4 |       0.12 | 3.4662e-03 |  7.430e+02 |         5.000 |             0 |
|          5 |       0.06 | 2.9259e-03 |  7.288e+02 |         5.000 |             0 |
|          6 |       0.12 | 6.4180e-05 |  7.291e+02 |         5.000 |             0 |
=====================================================================================

mdl = 
  ldaModel with properties:

                     NumTopics: 20
             WordConcentration: 1
            TopicConcentration: 5
      CorpusTopicProbabilities: [1x20 double]
    DocumentTopicProbabilities: [154x20 double]
        TopicWordProbabilities: [3092x20 double]
                    Vocabulary: [1x3092 string]
                    TopicOrder: 'initial-fit-probability'
                       FitInfo: [1x1 struct]

Предскажите главные темы для первых 5 документов в counts.

topicIdx = predict(mdl,counts(1:5,:))

topicIdx = 5×1

     3
    15
    19
     3
    14

Вычислите баллы прогноза темы

Попробовать в MATLAB

Чтобы воспроизвести результаты в этом примере, установите rng к 'default'.

rng('default')

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Создайте модель сумки слов использование bagOfWords.

bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [154x3092 double]
      Vocabulary: [1x3092 string]
        NumWords: 3092
    NumDocuments: 154

Подбирайте модель LDA с 20 темами. Чтобы подавить многословный выход, установите 'Verbose' к 0.

numTopics = 20;
mdl = fitlda(bag,numTopics,'Verbose',0);

Предскажите главные темы для нового документа. Задайте предел итерации, чтобы быть 200.

newDocument = tokenizedDocument("what's in a name? a rose by any other name would smell as sweet.");
iterationLimit = 200;
[topicIdx,scores] = predict(mdl,newDocument, ...
    'IterationLimit',iterationLimit)

topicIdx = 19

scores = 1×20

    0.0250    0.0250    0.0250    0.0250    0.1250    0.0250    0.0250    0.0250    0.0250    0.0730    0.0250    0.0250    0.0770    0.0250    0.0250    0.0250    0.0250    0.0250    0.2250    0.1250

Просмотрите баллы прогноза в столбчатой диаграмме.

figure
bar(scores)
title("LDA Topic Prediction Scores")
xlabel("Topic Index")
ylabel("Score")

Входные параметры

свернуть все

`ldaMdl` — Модель Input LDA
`ldaModel` объект

Введите модель LDA, заданную как ldaModel объект.

`documents` — Введите документы
`tokenizedDocument` массив | массив строк слов | массив ячеек из символьных векторов

Введите документы, заданные как tokenizedDocument массив, массив строк слов или массив ячеек из символьных векторов. Если documents tokenizedDocument, затем это должен быть вектор-столбец. Если documents массив строк или массив ячеек из символьных векторов, затем это должна быть строка слов единого документа.

Совет

Чтобы гарантировать, что функция не отбрасывает полезную информацию, необходимо сначала предварительно обработать входные документы с помощью тех же шагов, используемых, чтобы предварительно обработать документы, используемые, чтобы обучить модель.

`bag` — Модель Input
`bagOfWords` возразите | `bagOfNgrams` объект

Введите сумку слов или мешок n модели граммов, заданной как bagOfWords возразите или bagOfNgrams объект. Если bag bagOfNgrams объект, затем функция обрабатывает N-граммы как отдельные слова.

`counts` — Подсчет частот слов
матрица неотрицательных целых чисел

Подсчет частот слов, заданных как матрица неотрицательных целых чисел. Если вы задаете 'DocumentsIn' быть 'rows', затем значение counts(i,j) соответствует числу раз, j th слово словаря появляется в i th документ. В противном случае, значение counts(i,j) соответствует числу раз, i th слово словаря появляется в j th документ.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'IterationLimit',200 задает предел итерации, чтобы быть 200.

`'DocumentsIn'` — Ориентация документов
`'rows'` (значение по умолчанию) | `'columns'`

Ориентация документов в матрице для подсчета количества слов, заданной как разделенная запятой пара, состоящая из 'DocumentsIn' и одно из следующего:

'rows' – Вход является матрицей подсчетов слов со строками, соответствующими документам.
'columns' – Вход является транспонированной матрицей подсчетов слов со столбцами, соответствующими документам.

Эта опция только применяется, если вы задаете входные документы как матрицу подсчетов слов.

Примечание

Если вы ориентируете свою матрицу для подсчета количества слов так, чтобы документы соответствовали столбцам и задали 'DocumentsIn','columns', затем вы можете испытать значительное сокращение во время выполнения оптимизации.

`'IterationLimit'` — Максимальное количество итераций
100 (значение по умолчанию) | положительное целое число

Максимальное количество итераций, заданных как разделенная запятой пара, состоящая из 'IterationLimit' и положительное целое число.

Пример: 'IterationLimit',200

`'LogLikelihoodTolerance'` — Относительный допуск на логарифмической правдоподобности
0.0001 (значение по умолчанию) | положительная скалярная величина

Относительный допуск на логарифмической правдоподобности, заданной как разделенная запятой пара, состоящая из 'LogLikelihoodTolerance' и положительная скалярная величина. Оптимизация завершает работу, когда этот допуск достигнут.

Пример: 'LogLikelihoodTolerance',0.001

Выходные аргументы

свернуть все

`topicIdx` — Предсказанные индексы темы
вектор числовых индексов

Предсказанные индексы темы, возвращенные как вектор числовых индексов.

`score` — Предсказанные вероятности темы
матрица

Предсказанные вероятности темы, возвращенные как D- K матрица, где D количество входных документов и K количество тем в модели LDA. score(i,j) вероятность та тема j появляется в документе i. Каждая строка score суммы одной.

Документация

predict

Синтаксис

Описание

Примеры

Предскажите главные темы LDA документов

Предскажите главные темы LDA матрицы для подсчета количества слов

Вычислите баллы прогноза темы

Входные параметры

`ldaMdl` — Модель Input LDA
`ldaModel` объект

`documents` — Введите документы
`tokenizedDocument` массив | массив строк слов | массив ячеек из символьных векторов

Совет

`bag` — Модель Input
`bagOfWords` возразите | `bagOfNgrams` объект

`counts` — Подсчет частот слов
матрица неотрицательных целых чисел

Аргументы в виде пар имя-значение

`'DocumentsIn'` — Ориентация документов
`'rows'` (значение по умолчанию) | `'columns'`

Примечание

`'IterationLimit'` — Максимальное количество итераций
100 (значение по умолчанию) | положительное целое число

`'LogLikelihoodTolerance'` — Относительный допуск на логарифмической правдоподобности
0.0001 (значение по умолчанию) | положительная скалярная величина

Выходные аргументы

`topicIdx` — Предсказанные индексы темы
вектор числовых индексов

`score` — Предсказанные вероятности темы
матрица

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

Документация

predict

Синтаксис

Описание

Примеры

Предскажите главные темы LDA документов

Предскажите главные темы LDA матрицы для подсчета количества слов

Вычислите баллы прогноза темы

Входные параметры

ldaMdl — Модель Input LDA ldaModel объект

documents — Введите документы tokenizedDocument массив | массив строк слов | массив ячеек из символьных векторов

Совет

bag — Модель Input bagOfWords возразите | bagOfNgrams объект

counts — Подсчет частот слов матрица неотрицательных целых чисел

Аргументы в виде пар имя-значение

'DocumentsIn' — Ориентация документов 'rows' (значение по умолчанию) | 'columns'

Примечание

'IterationLimit' — Максимальное количество итераций100 (значение по умолчанию) | положительное целое число

'LogLikelihoodTolerance' — Относительный допуск на логарифмической правдоподобности0.0001 (значение по умолчанию) | положительная скалярная величина

Выходные аргументы

topicIdx — Предсказанные индексы темы вектор числовых индексов

score — Предсказанные вероятности темы матрица

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

`ldaMdl` — Модель Input LDA
`ldaModel` объект

`documents` — Введите документы
`tokenizedDocument` массив | массив строк слов | массив ячеек из символьных векторов

`bag` — Модель Input
`bagOfWords` возразите | `bagOfNgrams` объект

`counts` — Подсчет частот слов
матрица неотрицательных целых чисел

`'DocumentsIn'` — Ориентация документов
`'rows'` (значение по умолчанию) | `'columns'`

`'IterationLimit'` — Максимальное количество итераций
100 (значение по умолчанию) | положительное целое число

`'LogLikelihoodTolerance'` — Относительный допуск на логарифмической правдоподобности
0.0001 (значение по умолчанию) | положительная скалярная величина

`topicIdx` — Предсказанные индексы темы
вектор числовых индексов

`score` — Предсказанные вероятности темы
матрица