exponenta event banner

textrankScores

Оценка документа с помощью алгоритма TextRank

Описание

пример

scores = textrankScores(documents) очки documents для важности в соответствии со значениями парного подобия с использованием алгоритма TextRank. Для вычисления показателей сходства и важности функция использует алгоритмы BM25 и PageRank соответственно.

пример

scores = textrankScores(bag) оценки документов, закодированных с помощью модели мешка слов или мешка n-граммов bag.

Примеры

свернуть все

Создание массива маркированных документов.

str = [
    "the quick brown fox jumped over the lazy dog"
    "the fast brown fox jumped over the lazy dog"
    "the lazy dog sat there and did nothing"
    "the other animals sat there watching"];
documents = tokenizedDocument(str)
documents = 
  4x1 tokenizedDocument:

    9 tokens: the quick brown fox jumped over the lazy dog
    9 tokens: the fast brown fox jumped over the lazy dog
    8 tokens: the lazy dog sat there and did nothing
    6 tokens: the other animals sat there watching

Вычислите оценки TextRank.

scores = textrankScores(documents);

Визуализируйте баллы на гистограмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("TextRank Scores")

Figure contains an axes. The axes with title TextRank Scores contains an object of type bar.

Создание модели пакета слов на основе текстовых данных в sonnets.csv.

filename = "sonnets.csv";
tbl = readtable(filename,'TextType','string');
textData = tbl.Sonnet;
documents = tokenizedDocument(textData);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [154x3527 double]
      Vocabulary: [1x3527 string]
        NumWords: 3527
    NumDocuments: 154

Вычислите оценки TextRank.

scores = textrankScores(bag);

Визуализируйте баллы на гистограмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("TextRank Scores")

Figure contains an axes. The axes with title TextRank Scores contains an object of type bar.

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив, строковый массив слов или массив ячеек символьных векторов. Если documents не является tokenizedDocument массив, то это должен быть вектор строки, представляющий один документ, где каждый элемент является словом. Чтобы указать несколько документов, используйте tokenizedDocument массив.

Входная модель сумки слов или сумки n граммов, указанная как bagOfWords объект или bagOfNgrams объект. Если bag является bagOfNgrams объект, то функция рассматривает каждый n-грамм как одно слово.

Выходные аргументы

свернуть все

Оценка TextRank, возвращенная как вектор N-by-1, где scores(i) соответствует баллу для ith входной документ и N - количество входных документов.

Ссылки

[1] Михальцея, Рада и Поль Тарау. «Textrank: Приведение порядка в текст». В Трудах 2004 конференции по эмпирическим методам обработки естественного языка, стр. 404-411. 2004.

Представлен в R2020a