lexrankScores

Оценка документов с помощью алгоритма LexRank

Синтаксис

баллы = lexrankScores (документы)

оценки = lexrankScores (сумка)

Описание

scores = lexrankScores(documents) оценивает указанные документы на важность в соответствии со значениями парного подобия с использованием алгоритма LexRank. Функция использует косинусное подобие и вычисляет важность с помощью алгоритма PageRank.

пример

scores = lexrankScores(bag) оценивает документы, закодированные с помощью модели мешка слов или мешка n-граммов.

Примеры

свернуть все

Важность документов

Открыть сценарий в реальном времени

Создание массива маркированных документов.

str = [
    "the quick brown fox jumped over the lazy dog"
    "the fast brown fox jumped over the lazy dog"
    "the lazy dog sat there and did nothing"
    "the other animals sat there watching"];
documents = tokenizedDocument(str)

documents = 
  4x1 tokenizedDocument:

    9 tokens: the quick brown fox jumped over the lazy dog
    9 tokens: the fast brown fox jumped over the lazy dog
    8 tokens: the lazy dog sat there and did nothing
    6 tokens: the other animals sat there watching

Рассчитайте их оценки LexRank.

scores = lexrankScores(documents);

Визуализируйте баллы на гистограмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("LexRank Scores")

Figure contains an axes. The axes with title LexRank Scores contains an object of type bar.

Оценки с использованием модели мешка слов

Открыть сценарий в реальном времени

Создание модели пакета слов на основе текстовых данных в sonnets.csv.

filename = "sonnets.csv";
tbl = readtable(filename,'TextType','string');
textData = tbl.Sonnet;
documents = tokenizedDocument(textData);
bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [154x3527 double]
      Vocabulary: [1x3527 string]
        NumWords: 3527
    NumDocuments: 154

Вычислите оценки LexRank для каждого сонета.

scores = lexrankScores(bag);

Визуализируйте баллы на гистограмме.

figure
bar(scores)
xlabel("Document")
ylabel("Score")
title("LexRank Scores")

Figure contains an axes. The axes with title LexRank Scores contains an object of type bar.

Входные аргументы

свернуть все

`documents` - Исходные документы
`tokenizedDocument` массив | строковый массив слов | массив ячеек векторов символов

Исходные документы, указанные как tokenizedDocument массив, строковый массив слов или массив ячеек символьных векторов. Если documents не является tokenizedDocument массив, то это должен быть вектор строки, представляющий один документ, где каждый элемент является словом. Чтобы указать несколько документов, используйте tokenizedDocument массив.

`bag` - Входная модель
`bagOfWords` объект | `bagOfNgrams` объект

Входная модель сумки слов или сумки n граммов, указанная как bagOfWords объект или bagOfNgrams объект. Если bag является bagOfNgrams объект, то функция рассматривает каждый n-грамм как одно слово.

Выходные аргументы

свернуть все

`scores` - оценки LexRank
вектор

LexRank оценивает, возвращается как вектор N-by-1, где scores(i) соответствует баллу для ith входной документ и N - количество входных документов.

Ссылки

[1] Эркан, Гюнес и Драгомир Р. Радев. «Lexrank: Lexical Centrality на основе графов как саливация в суммировании текста». Журнал исследований искусственного интеллекта 22 (2004): 457-479.

См. также

Темы

Преобразование последовательности в последовательность с использованием внимания

Представлен в R2020a

Документация

lexrankScores

Синтаксис

Описание

Примеры

Важность документов

Оценки с использованием модели мешка слов

Входные аргументы

`documents` - Исходные документы
`tokenizedDocument` массив | строковый массив слов | массив ячеек векторов символов

`bag` - Входная модель
`bagOfWords` объект | `bagOfNgrams` объект

Выходные аргументы

`scores` - оценки LexRank
вектор

Ссылки

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

lexrankScores

Синтаксис

Описание

Примеры

Важность документов

Оценки с использованием модели мешка слов

Входные аргументы

documents - Исходные документы tokenizedDocument массив | строковый массив слов | массив ячеек векторов символов

bag - Входная модель bagOfWords объект | bagOfNgrams объект

Выходные аргументы

scores - оценки LexRank вектор

Ссылки

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`documents` - Исходные документы
`tokenizedDocument` массив | строковый массив слов | массив ячеек векторов символов

`bag` - Входная модель
`bagOfWords` объект | `bagOfNgrams` объект

`scores` - оценки LexRank
вектор