exponenta event banner

lexrankScores

Оценка документов с помощью алгоритма LexRank

Описание

пример

scores = lexrankScores(documents) оценивает указанные документы на важность в соответствии со значениями парного подобия с использованием алгоритма LexRank. Функция использует косинусное подобие и вычисляет важность с помощью алгоритма PageRank.

пример

scores = lexrankScores(bag) оценивает документы, закодированные с помощью модели мешка слов или мешка n-граммов.

Примеры

свернуть все

Создание массива маркированных документов.

str = [
    "the quick brown fox jumped over the lazy dog"
    "the fast brown fox jumped over the lazy dog"
    "the lazy dog sat there and did nothing"
    "the other animals sat there watching"];
documents = tokenizedDocument(str)
documents = 
  4x1 tokenizedDocument:

    9 tokens: the quick brown fox jumped over the lazy dog
    9 tokens: the fast brown fox jumped over the lazy dog
    8 tokens: the lazy dog sat there and did nothing
    6 tokens: the other animals sat there watching

Рассчитайте их оценки LexRank.

scores = lexrankScores(documents);

Визуализируйте баллы на гистограмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("LexRank Scores")

Figure contains an axes. The axes with title LexRank Scores contains an object of type bar.

Создание модели пакета слов на основе текстовых данных в sonnets.csv.

filename = "sonnets.csv";
tbl = readtable(filename,'TextType','string');
textData = tbl.Sonnet;
documents = tokenizedDocument(textData);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [154x3527 double]
      Vocabulary: [1x3527 string]
        NumWords: 3527
    NumDocuments: 154

Вычислите оценки LexRank для каждого сонета.

scores = lexrankScores(bag);

Визуализируйте баллы на гистограмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("LexRank Scores")

Figure contains an axes. The axes with title LexRank Scores contains an object of type bar.

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив, строковый массив слов или массив ячеек символьных векторов. Если documents не является tokenizedDocument массив, то это должен быть вектор строки, представляющий один документ, где каждый элемент является словом. Чтобы указать несколько документов, используйте tokenizedDocument массив.

Входная модель сумки слов или сумки n граммов, указанная как bagOfWords объект или bagOfNgrams объект. Если bag является bagOfNgrams объект, то функция рассматривает каждый n-грамм как одно слово.

Выходные аргументы

свернуть все

LexRank оценивает, возвращается как вектор N-by-1, где scores(i) соответствует баллу для ith входной документ и N - количество входных документов.

Ссылки

[1] Эркан, Гюнес и Драгомир Р. Радев. «Lexrank: Lexical Centrality на основе графов как саливация в суммировании текста». Журнал исследований искусственного интеллекта 22 (2004): 457-479.

Представлен в R2020a