exponenta event banner

rougeEvaluationScore

Оценка перевода или уплотнения с оценкой сходства ROUGE

Описание

Алгоритм оценки Gisting Evaluation (ROUGE), ориентированный на отзыв, оценивает сходство между документом-кандидатом и коллекцией ссылочных документов. Оценка ROUGE используется для оценки качества моделей перевода и уплотнения документов.

пример

score = rougeEvaluationScore(candidate,references) возвращает оценку ROUGE между указанным документом-кандидатом и ссылочными документами. Функция по умолчанию вычисляет однограммные перекрытия между candidate и references. Это также известно как метрика ROUGE-N с n-граммовой длиной 1. Дополнительные сведения см. в разделе Оценка ROUGE.

пример

score = rougeEvaluationScore(candidate,references,Name,Value) задает дополнительные параметры, использующие одну или несколько пар имя-значение.

Примеры

свернуть все

Укажите документ-кандидат как tokenizedDocument объект.

str = "the fast brown fox jumped over the lazy dog";
candidate = tokenizedDocument(str)
candidate = 
  tokenizedDocument:

   9 tokens: the fast brown fox jumped over the lazy dog

Укажите ссылочные документы как tokenizedDocument массив.

str = [
    "the quick brown animal jumped over the lazy dog"
    "the quick brown fox jumped over the lazy dog"];
references = tokenizedDocument(str)
references = 
  2x1 tokenizedDocument:

    9 tokens: the quick brown animal jumped over the lazy dog
    9 tokens: the quick brown fox jumped over the lazy dog

Вычислите балл ROUGE между документом-кандидатом и ссылочными документами.

score = rougeEvaluationScore(candidate,references)
score = 0.8889

Укажите документ-кандидат как tokenizedDocument объект.

str = "a simple summary document containing some words";
candidate = tokenizedDocument(str)
candidate = 
  tokenizedDocument:

   7 tokens: a simple summary document containing some words

Укажите ссылочные документы как tokenizedDocument массив.

str = [
    "a simple document"
    "another document with some words"];
references = tokenizedDocument(str)
references = 
  2x1 tokenizedDocument:

    3 tokens: a simple document
    5 tokens: another document with some words

Вычислите балл ROUGE между документом-кандидатом и ссылочными документами с помощью опций по умолчанию.

score = rougeEvaluationScore(candidate,references)
score = 1

rougeEvaluationScore функция по умолчанию сравнивает однограммные (одномаркерные) перекрытия между документом-кандидатом и справочными документами. Поскольку оценка ROUGE является мерой, основанной на отзыве, если один из ссылочных документов полностью состоит из униграмм, которые появляются в документе-кандидате, итоговая оценка ROUGE равна единице. В этом сценарии выходные данные rougeEvaluationScore функция неинформативна.

Для более значимого результата снова вычислите балл ROUGE, используя биграммы, установив 'NgramLength' опция для 2. Результирующий балл меньше единицы, так как каждый ссылочный документ содержит биграммы, которые не отображаются в документе-кандидате.

score = rougeEvaluationScore(candidate,references,'NgramLength',2)
score = 0.5000

Входные аргументы

свернуть все

Документ-кандидат, указанный как tokenizedDocument скаляр, строковый массив или массив ячеек символьных векторов. Если candidate не является tokenizedDocument скаляр, то это должен быть вектор строки, представляющий один документ, где каждый элемент является словом.

Справочные документы, указанные как tokenizedDocument массив, строковый массив или массив ячеек символьных векторов. Если references не является tokenizedDocument массив, то это должен быть вектор строки, представляющий один документ, где каждый элемент является словом. Для анализа по нескольким ссылочным документам используйте tokenizedDocument массив.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: scores = rougeEvaluationScore(candidate,references,'ROUGEMethod','weighted-subsequences') определяет использование метода взвешенных подпоследовательностей ROUGE.

Метод ROUGE, указанный как разделенная запятыми пара, состоящая из 'ROUGEMethod' и одно из следующих:

  • 'n-grams' - Оценка показателя ROUGE с использованием n-граммовых перекрытий между документом-кандидатом и справочными документами. Это также называется метрикой ROUGE-N.

  • 'longest-common-subsequences' - Оценка показателя ROUGE с использованием статистики самой длинной общей подпоследовательности (LCS). Это также называется метрикой ROUGE-L.

  • 'weighted-subsequences' - Оценка показателя ROUGE с использованием взвешенной самой длинной общей статистики подпоследовательности. Этот метод отдает предпочтение последовательным LCS. Это также называется метрикой ROUGE-W.

  • 'skip-bigrams' - Оценка показателя ROUGE с использованием статистики параллелизма skip-bigram (любой пары слов в порядке предложений). Это также называется метрикой ROUGE-S.

  • 'skip-bigrams-and-unigrams' - Оценка показателя ROUGE с использованием статистики параллелизма пропусков и однограмм. Это также известно как метрика ROUGE-SU.

N-граммовая длина, используемая для 'n-grams' Метод ROUGE (ROUGE-N), определяемый как разделенная запятыми пара, состоящая из 'NgramLength' и положительное целое число.

Если 'ROUGEMethod' параметр не является 'n-grams', то 'NgramLength' параметр не имеет эффекта.

Совет

Если самый длинный документ в references имеет меньше, чем NgramLength слова, то результирующий балл ROUGE равен NaN. Если candidate имеет меньше, чем NgramLength слова, то результирующая оценка ROUGE равна нулю. Обеспечить, чтобы rougeEvaluationScore возвращает ненулевые баллы для очень коротких документов, набор NgramLength до положительного целого числа, меньшего длины candidate и длина самого длинного документа в references.

Типы данных: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

Расстояние пропуска, используемое для 'skip-bigrams' и 'skip-bigrams-and-unigrams' Методы ROUGE (ROUGE-S и ROUGE-SU), указанные как разделенная запятыми пара, состоящая из 'SkipDistance' и положительное целое число.

Если 'ROUGEMethod' параметр не является 'skip-bigrams' или 'skip-bigrams-and-unigrams', то 'SkipDistance' параметр не имеет эффекта.

Типы данных: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

Выходные аргументы

свернуть все

Оценка ROUGE, возвращаемая как скалярное значение в диапазоне [0,1] или NaN.

Показатель ROUGE, близкий к нулю, указывает на плохое сходство между candidate и references. Показатель ROUGE, близкий к единице, указывает на сильное сходство между candidate и references. Если candidate идентичен одному из ссылочных документов, то score равно 1. Если candidate и references оба являются пустыми документами, тогда результирующий балл ROUGE равен NaN.

Совет

Если самый длинный документ в references имеет меньше, чем NgramLength слова, то результирующий балл ROUGE равен NaN. Если candidate имеет меньше, чем NgramLength слова, то результирующая оценка ROUGE равна нулю. Обеспечить, чтобы rougeEvaluationScore возвращает ненулевые баллы для очень коротких документов, набор NgramLength до положительного целого числа, меньшего длины candidate и длина самого длинного документа в references.

Алгоритмы

свернуть все

Оценка ROUGE

Алгоритм оценки Gisting Evaluation (ROUGE) [1] вычисляет сходство между документом-кандидатом и коллекцией ссылочных документов. Оценка ROUGE используется для оценки качества моделей перевода и уплотнения документов.

Статистика совместного появления N-граммов (ROUGE-N)

Учитывая n-граммовую длину n, метрика ROUGE-N между документом-кандидатом и одним справочным документом задается посредством

ROUGE-Nsingle (кандидат , ссылка)  =∑ri∈ reference∑n-gram∈riCount ( n-грамм, кандидат)  ∑ri∈ referencenumNgrams (ri),

где элементы ri являются предложениями в справочном документе, Count (n-грамм , кандидат) является числом раз, когда указанное n-грамм встречается в документе-кандидате, и numNgrams (ri) является числом n-граммов в указанном справочном предложении ri.

Для наборов нескольких справочных документов метрика ROUGE-N задается

ROUGE-N (кандидат , ссылки ) = maxk {ROUGE-Nsingle ( кандидат, ссылки)}.

Для использования метрики ROUGE-N установите значение 'ROUGEMethod' опция для 'n-grams'.

Самая длинная общая подпоследовательность (ROUGE-L)

Учитывая предложение d = [w1,..., wm] и предложение s, где элементы si соответствуют словам, подпоследовательность [wi1,..., wik] является общей подпоследовательностью d и s, если wij′∈{s1,..., sn} для j = 1,..., k и i1​<⋯<ik, где элементы s являются словами предложения, а k - длиной подпоследовательности. Подпоследовательность [wi1,..., wik] является самой длинной общей подпоследовательностью (LCS), если длина подпоследовательности k является максимальной.

При наличии документа-кандидата и единого справочного документа объединение наиболее длинных общих подпоследовательностей определяется

LCS∪ (кандидат, ссылка)  =∪ri∈ reference{w'w∈LCS (кандидат, ри)},

где LCS (кандидат, ri) - набор наиболее длинных общих подпоследовательностей в документе-кандидате и предложении ri из справочного документа.

Метрика ROUGE-L является показателем F-score. Чтобы рассчитать его, сначала вычислите показатели отзыва и точности, заданные

Rlcs (кандидат , ссылка)  =∑ri∈ reference'LCS∪ (кандидат, ри) | numWords (ссылка)

Plcs (кандидат , ссылка)  =∑ri∈ reference'LCS∪ (кандидат, ри) | numWords (кандидат).

Затем метрика ROUGE-L между документом-кандидатом и одним ссылочным документом задается показателем F-score.

ROUGE-Lsingle (кандидат , ссылка) = (1 + β2) Rlcs ( кандидат, ссылка) Свалки ( кандидат, ссылка) Rlcs  (кандидат, ссылка) +  β2Plcs (кандидат, ссылка),

где параметр β управляет относительной важностью точности и отзыва. Поскольку оценка ROUGE предпочитает напоминание, β обычно устанавливается на высокое значение.

Для наборов нескольких справочных документов метрика ROUGE-L задается

ROUGE-L (кандидат , ссылки ) = maxk {ROUGE-Lsingle ( кандидат, ссылки)}.

Для использования метрики ROUGE-L установите значение 'ROUGEMethod' опция для 'longest-common-subsequences'.

Взвешенная самая длинная общая подпоследовательность (ROUGE-W)

Учитывая такую весовую функцию f, что f имеет свойство f (x + y) > f (x) + f (y) для любых положительных целых чисел x и y, определите WLCS ( кандидат, ссылка) как длину самых длинных последовательных совпадений, встречающихся в документе-кандидате, и один справочный документ, набранный весовой функцией F. Для получения дополнительной информации о вычислении этого значения см. [1].

ROUGE-W является метрикой, имеющей показатель F, который требует оценки отзыва и точности, полученные

Rwlcs (кандидат , ссылка) = f − 1 (WLCS ( кандидат, ссылка) f (numWords (ссылка))

Pwlcs (кандидат , ссылка) = f − 1 (WLCS ( кандидат, ссылка) f (numWords (кандидат))).

Метрика ROUGE-W между документом-кандидатом и одним ссылочным документом задается показателем F-score.

ROUGE-Wsingle (кандидат , ссылка) = (1 + β2) Rwlcs ( кандидат, ссылка) Pwlcs ( кандидат, ссылка) Rwlcs  (кандидат, ссылка) +  β2Pwlcs (кандидат, ссылка),

где параметр β управляет относительной важностью точности и отзыва. Поскольку оценка ROUGE предпочитает напоминание, β обычно устанавливается на высокое значение.

Для нескольких ссылочных документов метрика ROUGE-W задается

ROUGE-W (кандидат , ссылки ) = maxk {ROUGE-Wsingle ( кандидат, ссылки)}.

Для использования метрики ROUGE-W установите значение 'ROUGEMethod' опция для 'weighted-longest-common-subsequences'.

Статистика совместного вхождения Skip-Bigram (ROUGE-S)

Скип-биграм - упорядоченная пара слов в предложении, допускающая произвольные промежутки между ними. То есть, учитывая предложение ci = [ci1,..., cim] из документа-кандидата, где элементы cij соответствуют словам в предложении, пара слов [cij1 , cij2 ′] является скип-биграм ifj1′<j2 ′.

Метрика ROUGE-S является показателем F-score. Чтобы рассчитать его, сначала вычислите показатели отзыва и точности, заданные

Rskip2 (кандидат , ссылка)  =∑ri∈ reference∑skip-bigram∈riCount (skip-bigram, кандидат) ∑ri∈ referencenumSkipBigrams (ri)

Pskip2 (кандидат , ссылка) =∑ri∈reference∑skip-bigram∈riCount ( скип-биграм, кандидат)  ∑ci∈ candidatenumSkipBigrams (ci).

где элементы ri и ci являются предложениями в ссылочном документе и документе-кандидате соответственно, Count (skip-bigram , кандидат) - количество раз, когда указанная skip-bigram встречается в документе-кандидате, и numSkipBigrams (s) - количество skip-bigrams в предложении s.

Затем метрика ROUGE-S между документом-кандидатом и одним ссылочным документом задается показателем F-score.

ROUGE-Ssingle (кандидат , ссылка) = (1 + β2) Rskip2 ( кандидат, ссылка) Pskip2 ( кандидат, ссылка) Rskip2  (кандидат, ссылка) +  β2Pskip2 (кандидат, ссылка),

Для наборов нескольких справочных документов метрика ROUGE-S задается

ROUGE-S (кандидат , ссылки ) = maxk {ROUGE-Ssingle ( кандидат, ссылки)}.

Для использования метрики ROUGE-S установите значение 'ROUGEMethod' опция для 'skip-bigrams'.

Статистика совместного появления скип-биграм и юниграмм (ROUGE-SU)

Чтобы также включить статистику совместного появления однограмм в метрику ROUGE-S, введите количество однограмм в показатели отзыва и точности для ROUGE-S. Это эквивалентно включению маркеров запуска в документы-кандидаты и справочные документы, поскольку

∑skip-bigram∈ri (Count ( skip-bigram, кандидат)) +∑unigram∈ri (Count ( unigram, кандидат) =∑skip-bigram∈ri+ (Count ( skip-bigram, кандидат +)),

где Count (unigram, кандидат) - количество раз, когда указанная unigram появляется в документе-кандидате, и ri + и candidate + обозначают ссылочное предложение и документ-кандидат, дополненный начальными маркерами, соответственно.

Для наборов нескольких справочных документов метрика ROUGE-SU задается

ROUGE-SU (кандидат , ссылки ) = maxk {ROUGE-Ssingle ( кандидат +, ссылки +)},

где ссылка + - ссылочный документ с предложениями, дополненными начальными маркерами.

Для использования метрики ROUGE-SU установите значение 'ROUGEMethod' опция для 'skip-bigrams-and-unigrams'.

Ссылки

[1] Лин, тис подбородка. «Rouge: пакет для автоматической оценки резюме». В подразделах уплотнения текста, стр. 74-81. 2004.

Представлен в R2020a