Документируйте сходство с BM25 алгоритмом
Использовать bm25Similarity
для вычисления сходства документов.
По умолчанию эта функция вычисляет BM25 сходства. Чтобы вычислить BM11, BM15 или BM25 + сходства, используйте 'DocumentLengthScaling'
и 'DocumentLengthCorrection'
аргументы.
возвращает парное BM25 сходство между указанными документами. Счет в similarities
= bm25Similarity(documents
)similarities(i,j)
представляет собой сходство между documents(i)
и documents(j)
.
возвращает сходство между similarities
= bm25Similarity(documents
,queries
)documents
и queries
. Счет в similarities(i,j)
представляет собой сходство между documents(i)
и queries(j)
.
возвращает сходство между документами, закодированными заданной моделью bag-of-words или bag-of-gams. Счет в similarities
= bm25Similarity(bag
)similarities(i,j)
представляет сходство между i
и j
Первые документы закодированы bag
.
возвращает сходство между документами, закодированными моделью bag-of-words или bag-of-gams similarities
= bm25Similarity(bag
,queries
)bag
и документы, указанные в queries
. Счет в similarities(i,j)
представляет сходство между i
второй документ закодирован bag
и queries(j)
.
задает дополнительные опции, используя один или несколько аргументы пары "имя-значение". Например, чтобы использовать алгоритм BM25 +, установите similarities
= bm25Similarity(___,Name,Value
)'DocumentLengthCorrection'
опция ненулевого значения.
Алгоритм BM25 агрегирует и использует информацию из всех документов входных данных через частоту терминов (TF) и частоту обратного документа (IDF) на основе опций. Это поведение означает, что одна и та же пара документов может привести к различным счетам BM25 подобия, когда функции заданы различные наборы документов.
Алгоритм BM25 может выводить различные счета при сравнении документов с собой. Это поведение связано с использованием весов IDF и длины документа в алгоритме BM25.
[1] Робертсон, Стивен и Уго Сарагоса. «Вероятностная среда релевантности: BM25 и за ее пределами». Основы и тренды ® в поиске информации 3, № 4 (2009): 333-389.
[2] Барриос, Федерико, Федерико Лопес, Луис Аргерих и Роза Вахеншаузер. «Изменения функции подобия TextRank for Automated Summarization». arXiv preprint arXiv:1602.03606 (2016).
bleuEvaluationScore
| cosineSimilarity
| extractSummary
| lexrankScores
| mmrScores
| rougeEvaluationScore
| textrankScores
| tokenizedDocument