Общие черты документа с алгоритмом BM25
Использование bm25Similarity
вычислить общие черты документа.
По умолчанию эта функция вычисляет общие черты BM25. Чтобы вычислить BM11, BM15 или BM25 + общие черты, используют 'DocumentLengthScaling'
и 'DocumentLengthCorrection'
аргументы.
возвращает попарные общие черты BM25 между заданными документами. Счет в similarities
= bm25Similarity(documents
)similarities(i,j)
представляет подобие между documents(i)
и documents(j)
.
возвращает общие черты между similarities
= bm25Similarity(documents
,queries
)documents
и queries
. Счет в similarities(i,j)
представляет подобие между documents(i)
и queries(j)
.
возвращает общие черты между документами, закодированными заданной сумкой слов или мешком n модели граммов. Счет в similarities
= bm25Similarity(bag
)similarities(i,j)
представляет подобие между i
th и j
документы th закодированы bag
.
возвращает общие черты между документами, закодированными сумкой слов или мешком n модели similarities
= bm25Similarity(bag
,queries
)bag
граммов и документы заданы
queries
. Счет в similarities(i,j)
представляет подобие между i
документ th закодирован bag
и queries(j)
.
задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение". Например, чтобы использовать BM25 + алгоритм, установите similarities
= bm25Similarity(___,Name,Value
)'DocumentLengthCorrection'
опция к ненулевому значению.
Алгоритм BM25 агрегировал и использует информацию из всех документов во входных данных через частоту термина (TF) и основанные на обратной частоте документа (IDF) опции. Это поведение означает, что та же пара документов может дать к различным баллам подобия BM25, когда функции дают различные наборы документов.
Алгоритм BM25 может вывести различные баллы при сравнении документов себе. Это поведение происходит из-за использования весов IDF и длины документа в алгоритме BM25.
[1] Робертсон, Стивен и Хьюго Зарагоза. "Вероятностная Среда Уместности: BM25 и Вне". Основы и Trends® в Информационном поиске 3, № 4 (2009): 333-389.
[2] Барриос, Федерико, Федерико Лопес, Луис Аргерих и Роза Уокэнчозер. "Изменения Функции Подобия TextRank для Автоматизированного Резюмирования". arXiv предварительно распечатывают arXiv:1602.03606 (2016).
tokenizedDocument
| bleuEvaluationScore
| rougeEvaluationScore
| cosineSimilarity
| textrankScores
| lexrankScores
| mmrScores
| extractSummary