Сходство документа с алгоритмом BM25
Использовать bm25Similarity для расчета сходства документов.
По умолчанию эта функция вычисляет BM25 сходства. Чтобы вычислить сходства BM11, BM15 или BM25 +, используйте 'DocumentLengthScaling' и 'DocumentLengthCorrection' аргументы.
возвращает парные BM25 сходства между указанными документами. Оценка в similarities = bm25Similarity(documents)similarities(i,j) представляет сходство между documents(i) и documents(j).
возвращает сходства между similarities = bm25Similarity(documents,queries)documents и queries. Оценка в similarities(i,j) представляет сходство между documents(i) и queries(j).
возвращает сходства между документами, закодированными указанной моделью пакета слов или пакета n-грамм. Оценка в similarities = bm25Similarity(bag)similarities(i,j) представляет сходство между iи jдокументы, закодированные bag.
возвращает сходства между документами, закодированными с помощью модели мешка слов или мешка n-граммов similarities = bm25Similarity(bag,queries)bag и документы, указанные queries. Оценка в similarities(i,j) представляет сходство между iдокумент, закодированный bag и queries(j).
указывает дополнительные параметры, использующие один или несколько аргументов пары имя-значение. Например, чтобы использовать алгоритм BM25 +, установите similarities = bm25Similarity(___,Name,Value)'DocumentLengthCorrection' значение, отличное от нуля.
Алгоритм BM25 агрегирует и использует информацию из всех документов во входных данных через опции на основе term frequency (TF) и inverse document frequency (IDF). Это поведение означает, что одна и та же пара документов может давать различные оценки сходства BM25, когда функции присваиваются разные наборы документов.
Алгоритм BM25 может выводить различные баллы при сравнении документов с собой. Такое поведение обусловлено использованием весов IDF и длины документа в алгоритме BM25.
[1] Робертсон, Стивен и Уго Сарагоса. «Вероятностная основа релевантности: BM25 и далее». Основы и тенденции ® в области поиска информации 3, № 4 (2009): 333-389.
[2] Барриос, Федерико, Федерико Лопес, Луис Аргерих и Роза Ваченчаузер. «Вариации функции подобия TextRank для автоматизированного суммирования». arXiv preprint arXiv:1602.03606 (2016).
bleuEvaluationScore | cosineSimilarity | extractSummary | lexrankScores | mmrScores | rougeEvaluationScore | textrankScores | tokenizedDocument