Документируйте сходство с BM25 алгоритмом
Использовать bm25Similarity для вычисления сходства документов.
По умолчанию эта функция вычисляет BM25 сходства. Чтобы вычислить BM11, BM15 или BM25 + сходства, используйте 'DocumentLengthScaling' и 'DocumentLengthCorrection' аргументы.
возвращает парное BM25 сходство между указанными документами. Счет в similarities = bm25Similarity(documents)similarities(i,j) представляет собой сходство между documents(i) и documents(j).
возвращает сходство между similarities = bm25Similarity(documents,queries)documents и queries. Счет в similarities(i,j) представляет собой сходство между documents(i) и queries(j).
возвращает сходство между документами, закодированными заданной моделью bag-of-words или bag-of-gams. Счет в similarities = bm25Similarity(bag)similarities(i,j) представляет сходство между iи jПервые документы закодированы bag.
возвращает сходство между документами, закодированными моделью bag-of-words или bag-of-gams similarities = bm25Similarity(bag,queries)bag и документы, указанные в queries. Счет в similarities(i,j) представляет сходство между iвторой документ закодирован bag и queries(j).
задает дополнительные опции, используя один или несколько аргументы пары "имя-значение". Например, чтобы использовать алгоритм BM25 +, установите similarities = bm25Similarity(___,Name,Value)'DocumentLengthCorrection' опция ненулевого значения.
Алгоритм BM25 агрегирует и использует информацию из всех документов входных данных через частоту терминов (TF) и частоту обратного документа (IDF) на основе опций. Это поведение означает, что одна и та же пара документов может привести к различным счетам BM25 подобия, когда функции заданы различные наборы документов.
Алгоритм BM25 может выводить различные счета при сравнении документов с собой. Это поведение связано с использованием весов IDF и длины документа в алгоритме BM25.
[1] Робертсон, Стивен и Уго Сарагоса. «Вероятностная среда релевантности: BM25 и за ее пределами». Основы и тренды ® в поиске информации 3, № 4 (2009): 333-389.
[2] Барриос, Федерико, Федерико Лопес, Луис Аргерих и Роза Вахеншаузер. «Изменения функции подобия TextRank for Automated Summarization». arXiv preprint arXiv:1602.03606 (2016).
bleuEvaluationScore | cosineSimilarity | extractSummary | lexrankScores | mmrScores | rougeEvaluationScore | textrankScores | tokenizedDocument