textrankScores

Оценка документа с помощью алгоритма TextRank

Описание

пример

scores = textrankScores(documents) оценивает documents для значения согласно парным значениям подобия с помощью алгоритма TextRank. Чтобы вычислить счета сходства и важности, функция использует алгоритмы BM25 и PageRank, соответственно.

пример

scores = textrankScores(bag) оценивает документы, закодированные моделью bag-of-words или bag-of-gams bag.

Примеры

свернуть все

Создайте массив токенизированных документов.

str = [
    "the quick brown fox jumped over the lazy dog"
    "the fast brown fox jumped over the lazy dog"
    "the lazy dog sat there and did nothing"
    "the other animals sat there watching"];
documents = tokenizedDocument(str)
documents = 
  4x1 tokenizedDocument:

    9 tokens: the quick brown fox jumped over the lazy dog
    9 tokens: the fast brown fox jumped over the lazy dog
    8 tokens: the lazy dog sat there and did nothing
    6 tokens: the other animals sat there watching

Вычислите счета TextRank.

scores = textrankScores(documents);

Визуализируйте счета в столбчатой диаграмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("TextRank Scores")

Figure contains an axes. The axes with title TextRank Scores contains an object of type bar.

Создайте модель мешка слов из текстовых данных в sonnets.csv.

filename = "sonnets.csv";
tbl = readtable(filename,'TextType','string');
textData = tbl.Sonnet;
documents = tokenizedDocument(textData);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [154x3527 double]
      Vocabulary: [1x3527 string]
        NumWords: 3527
    NumDocuments: 154

Вычислите счета TextRank.

scores = textrankScores(bag);

Визуализируйте счета в столбчатой диаграмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("TextRank Scores")

Figure contains an axes. The axes with title TextRank Scores contains an object of type bar.

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив, строковые массивы слов или массив ячеек из векторов символов. Если documents не является tokenizedDocument Массив это должно быть вектор-строка, представляющее один документ, где каждый элемент является словом. Чтобы задать несколько документов, используйте tokenizedDocument массив.

Входная модель мешка слов или мешка n-граммов, заданная как bagOfWords объект или bagOfNgrams объект. Если bag является bagOfNgrams объект, затем функция обрабатывает каждый n-грамм как одно слово.

Выходные аргументы

свернуть все

TextRank оценивает, возвращается как вектор N -by-1, где scores(i) соответствует счет для ith input document and N - количество входа документов.

Ссылки

[1] Михальча, Рада и Пауль Тарау. «Textrank: Приведение порядка в текст». В материалах конференции 2004 года по эмпирическим методам обработки естественных языков, стр. 404-411. 2004.

Введенный в R2020a