Общие черты документа с алгоритмом BM25
Использование bm25Similarity вычислить общие черты документа.
По умолчанию эта функция вычисляет общие черты BM25. Чтобы вычислить BM11, BM15 или BM25 + общие черты, используют 'DocumentLengthScaling' и 'DocumentLengthCorrection' аргументы.
возвращает попарные общие черты BM25 между заданными документами. Счет в similarities = bm25Similarity(documents)similarities(i,j) представляет подобие между documents(i) и documents(j).
возвращает общие черты между similarities = bm25Similarity(documents,queries)documents и queries. Счет в similarities(i,j) представляет подобие между documents(i) и queries(j).
возвращает общие черты между документами, закодированными заданной сумкой слов или мешком n модели граммов. Счет в similarities = bm25Similarity(bag)similarities(i,j) представляет подобие между ith и jдокументы th закодированы bag.
возвращает общие черты между документами, закодированными сумкой слов или мешком n модели similarities = bm25Similarity(bag,queries)bag граммов и документы заданы queries. Счет в similarities(i,j) представляет подобие между iдокумент th закодирован bag и queries(j).
задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение". Например, чтобы использовать BM25 + алгоритм, установите similarities = bm25Similarity(___,Name,Value)'DocumentLengthCorrection' опция к ненулевому значению.
Алгоритм BM25 агрегировал и использует информацию из всех документов во входных данных через частоту термина (TF) и основанные на обратной частоте документа (IDF) опции. Это поведение означает, что та же пара документов может дать к различным баллам подобия BM25, когда функции дают различные наборы документов.
Алгоритм BM25 может вывести различные баллы при сравнении документов себе. Это поведение происходит из-за использования весов IDF и длины документа в алгоритме BM25.
[1] Робертсон, Стивен и Хьюго Зарагоза. "Вероятностная Среда Уместности: BM25 и Вне". Основы и Trends® в Информационном поиске 3, № 4 (2009): 333-389.
[2] Барриос, Федерико, Федерико Лопес, Луис Аргерих и Роза Уокэнчозер. "Изменения Функции Подобия TextRank для Автоматизированного Резюмирования". arXiv предварительно распечатывают arXiv:1602.03606 (2016).
bleuEvaluationScore | cosineSimilarity | extractSummary | lexrankScores | mmrScores | rougeEvaluationScore | textrankScores | tokenizedDocument