textrankScores

Оценка документа с помощью алгоритма TextRank

Синтаксис

scores = textrankScores(documents)

scores = textrankScores(bag)

Описание

scores = textrankScores(documents) оценивает documents для значения согласно парным значениям подобия с помощью алгоритма TextRank. Чтобы вычислить счета сходства и важности, функция использует алгоритмы BM25 и PageRank, соответственно.

пример

scores = textrankScores(bag) оценивает документы, закодированные моделью bag-of-words или bag-of-gams bag.

Примеры

свернуть все

Важность документов

Открыть Live Script

Создайте массив токенизированных документов.

str = [
    "the quick brown fox jumped over the lazy dog"
    "the fast brown fox jumped over the lazy dog"
    "the lazy dog sat there and did nothing"
    "the other animals sat there watching"];
documents = tokenizedDocument(str)

documents = 
  4x1 tokenizedDocument:

    9 tokens: the quick brown fox jumped over the lazy dog
    9 tokens: the fast brown fox jumped over the lazy dog
    8 tokens: the lazy dog sat there and did nothing
    6 tokens: the other animals sat there watching

Вычислите счета TextRank.

scores = textrankScores(documents);

Визуализируйте счета в столбчатой диаграмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("TextRank Scores")

Figure contains an axes. The axes with title TextRank Scores contains an object of type bar.

Счета с использованием модели мешка слов

Открыть Live Script

Создайте модель мешка слов из текстовых данных в sonnets.csv.

filename = "sonnets.csv";
tbl = readtable(filename,'TextType','string');
textData = tbl.Sonnet;
documents = tokenizedDocument(textData);
bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [154x3527 double]
      Vocabulary: [1x3527 string]
        NumWords: 3527
    NumDocuments: 154

Вычислите счета TextRank.

scores = textrankScores(bag);

Визуализируйте счета в столбчатой диаграмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("TextRank Scores")

Figure contains an axes. The axes with title TextRank Scores contains an object of type bar.

Входные параметры

свернуть все

`documents` - Входные документы
`tokenizedDocument` массив | строковые массивы слов | массив ячеек из векторов символов

Входные документы, заданные как tokenizedDocument массив, строковые массивы слов или массив ячеек из векторов символов. Если documents не является tokenizedDocument Массив это должно быть вектор-строка, представляющее один документ, где каждый элемент является словом. Чтобы задать несколько документов, используйте tokenizedDocument массив.

`bag` - Входная модель
`bagOfWords` | объекта `bagOfNgrams` объект

Входная модель мешка слов или мешка n-граммов, заданная как bagOfWords объект или bagOfNgrams объект. Если bag является bagOfNgrams объект, затем функция обрабатывает каждый n-грамм как одно слово.

Выходные аргументы

свернуть все

`scores` - оценки TextRank
вектор

TextRank оценивает, возвращается как вектор N -by-1, где scores(i) соответствует счет для ith input document and N - количество входа документов.

Ссылки

[1] Михальча, Рада и Пауль Тарау. «Textrank: Приведение порядка в текст». В материалах конференции 2004 года по эмпирическим методам обработки естественных языков, стр. 404-411. 2004.

См. также

Темы

Перемещение последовательности в последовательность с использованием внимания

Введенный в R2020a

Документация

textrankScores

Синтаксис

Описание

Примеры

Важность документов

Счета с использованием модели мешка слов

Входные параметры

`documents` - Входные документы
`tokenizedDocument` массив | строковые массивы слов | массив ячеек из векторов символов

`bag` - Входная модель
`bagOfWords` | объекта `bagOfNgrams` объект

Выходные аргументы

`scores` - оценки TextRank
вектор

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

textrankScores

Синтаксис

Описание

Примеры

Важность документов

Счета с использованием модели мешка слов

Входные параметры

documents - Входные документы tokenizedDocument массив | строковые массивы слов | массив ячеек из векторов символов

bag - Входная модель bagOfWords | объекта bagOfNgrams объект

Выходные аргументы

scores - оценки TextRank вектор

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

`documents` - Входные документы
`tokenizedDocument` массив | строковые массивы слов | массив ячеек из векторов символов

`bag` - Входная модель
`bagOfWords` | объекта `bagOfNgrams` объект

`scores` - оценки TextRank
вектор