rougeEvaluationScore

Оцените перевод или суммирование с счетом подобия ROUGE

Синтаксис

score = rougeEvaluationScore(candidate,references)

score = rougeEvaluationScore(candidate,references,Name,Value)

Описание

Ориентированный на отзыв алгоритм оценки дублеров для гистинговой оценки (ROUGE) оценивает сходство между документом-кандидатом и набором ссылки документов. Используйте счет ROUGE для оценки качества моделей перевода и суммирования документов.

пример

score = rougeEvaluationScore(candidate,references) возвращает счет ROUGE между указанным документом-кандидатом и ссылкой документами. Функция по умолчанию вычисляет перекрытия unigram между candidate и references. Это также известно как метрика ROUGE-N с длиной n-грамм 1. Для получения дополнительной информации смотрите Счет ROUGE.

пример

score = rougeEvaluationScore(candidate,references,Name,Value) задает дополнительные опции, используя одну или несколько пары "имя-значение".

Примеры

свернуть все

Оценка подобия

Открыть Live Script

Задайте документ-кандидат как tokenizedDocument объект.

str = "the fast brown fox jumped over the lazy dog";
candidate = tokenizedDocument(str)

candidate = 
  tokenizedDocument:

   9 tokens: the fast brown fox jumped over the lazy dog

Задайте ссылочные документы как tokenizedDocument массив.

str = [
    "the quick brown animal jumped over the lazy dog"
    "the quick brown fox jumped over the lazy dog"];
references = tokenizedDocument(str)

references = 
  2x1 tokenizedDocument:

    9 tokens: the quick brown animal jumped over the lazy dog
    9 tokens: the quick brown fox jumped over the lazy dog

Вычислите счет ROUGE между документом-кандидатом и документами- ссылку.

score = rougeEvaluationScore(candidate,references)

score = 0.8889

Задайте длины N-грамма

Открыть Live Script

Задайте документ-кандидат как tokenizedDocument объект.

str = "a simple summary document containing some words";
candidate = tokenizedDocument(str)

candidate = 
  tokenizedDocument:

   7 tokens: a simple summary document containing some words

Задайте ссылочные документы как tokenizedDocument массив.

str = [
    "a simple document"
    "another document with some words"];
references = tokenizedDocument(str)

references = 
  2x1 tokenizedDocument:

    3 tokens: a simple document
    5 tokens: another document with some words

Рассчитать счет ROUGE между документом-кандидатом и ссылочными документами можно используя опции по умолчанию.

score = rougeEvaluationScore(candidate,references)

score = 1

The rougeEvaluationScore функция по умолчанию сравнивает перекрывания unigram (с одним маркером) между документом-кандидатом и ссылкой документами. Поскольку счет ROUGE является мерой, основанной на отзыве, если один из ссылочных документов составлен полностью из униграмм, которые появляются в документе-кандидате, полученный счет ROUGE равен единице. В этом сценарии выход rougeEvaluationScore функция неинформативна.

Для более значимого результата вычислите счет ROUGE снова с помощью биграмм путем установки 'NgramLength' опция для 2. Получившийся счет меньше единицы, поскольку каждый ссылочный документ содержит биграммы, которые не появляются в документе кандидата.

score = rougeEvaluationScore(candidate,references,'NgramLength',2)

score = 0.5000

Входные параметры

свернуть все

`candidate` - Документ кандидата
`tokenizedDocument` скалярный | строковые массивы | массив ячеек из векторов символов

Документ кандидата, заданный как tokenizedDocument скаляр, строковые массивы или массив ячеек из векторов символов. Если candidate не является tokenizedDocument скаляром, тогда это должно быть вектор-строка, представляющее один документ, где каждый элемент является словом.

`references` - Справочные документы
`tokenizedDocument` массив | строковые массивы | массивов ячеек из векторов символов

Справочные документы, заданные как tokenizedDocument массив, строковые массивы или массив ячеек из векторов символов. Если references не является tokenizedDocument Массив это должно быть вектор-строка, представляющее один документ, где каждый элемент является словом. Для анализа по нескольким ссылочным документам используйте tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: scores = rougeEvaluationScore(candidate,references,'ROUGEMethod','weighted-subsequences') задает использование метода ROUGE взвешенных подпоследовательностей.

`'ROUGEMethod'` - МЕТОД ROUGE
`'n-grams'` (по умолчанию) | `'longest-common-subsequences'` | `'weighted-subsequences'` | `'skip-bigrams'` | `'skip-bigrams-and-unigrams'`

Метод ROUGE, заданный как разделенная разделенными запятой парами, состоящая из 'ROUGEMethod' и одно из следующих:

'n-grams' - Оцените счет ROUGE с помощью n-граммовых перекрытий между документом-кандидатом и ссылкой документами. Это также известно как метрика ROUGE-N.
'longest-common-subsequences' - Оцените счет ROUGE с помощью статистики самой длинной общей подпоследовательности (LCS). Это также известно как метрика ROUGE-L.
'weighted-subsequences' - Оцените счет ROUGE, используя взвешенную самую длинную статистику общей подпоследовательности. Этот метод благоприятствует последовательным LCS. Это также известно как метрика ROUGE-W.
'skip-bigrams' - Оцените счет ROUGE, используя статистику сопутствующих событий скип-биграммы (любая пара слов в порядке предложения). Это также известно как метрика ROUGE-S.
'skip-bigrams-and-unigrams' - Оцените счет ROUGE с помощью статистики сопутствующих явлений скип-биграммы и униграммы. Это также известно как метрика ROUGE-SU.

`'NgramLength'` - Длина N-грамма
1 (по умолчанию) | положительное целое число

Длина N-грамма, используемая для 'n-grams' МЕТОД ROUGE (ROUGE-N), заданный как разделенная разделенными запятой парами, состоящая из 'NgramLength' и положительное целое число.

Если на 'ROUGEMethod' опция не 'n-grams', затем 'NgramLength' опция не влияет.

Совет

Если самый длинный документ в references имеет меньше, чем NgramLength слова, тогда получившийся счет ROUGE NaN. Если candidate имеет меньше, чем NgramLength слова, тогда результирующий счет ROUGE равен нулю. Чтобы гарантировать, что rougeEvaluationScore возвращает ненулевые счета для очень коротких документов, задает NgramLength в положительное целое число, меньше длины candidate и длина самого длинного документа в references.

`'SkipDistance'` - Пропустить расстояние
4 (по умолчанию) | положительное целое число

Пропустите расстояние, используемое для 'skip-bigrams' и 'skip-bigrams-and-unigrams' МЕТОДЫ ROUGE (ROUGE-S и ROUGE-SU), заданные как разделенная разделенными запятой парами, состоящая из 'SkipDistance' и положительное целое число.

Если на 'ROUGEMethod' опция не 'skip-bigrams' или 'skip-bigrams-and-unigrams', затем 'SkipDistance' опция не влияет.

Выходные аргументы

свернуть все

`score` - ОЦЕНКА ROUGE
скаляр

ROUGE счета, возвращается как скалярное значение в область значений [0,1] или NaN.

Счет ROUGE, близкая к нулю, указывает на плохое сходство между candidate и references. Счет ROUGE, близкая к единице, указывает на сильное сходство между candidate и references. Если candidate идентичен одному из ссылочных документов, затем score равен 1. Если candidate и references оба являются пустыми документами, тогда получившийся счет ROUGE равен NaN.

Совет

Алгоритмы

свернуть все

ROUGE Счета

Ориентированный на Recall-Oriented дублер для оценки гистинга (ROUGE) алгоритм оценки [1] вычисляет сходство между документом-кандидатом и набором ссылки документов. Используйте счет ROUGE для оценки качества моделей перевода и суммирования документов.

Статистика сопутствующих событий N-грамма (ROUGE-N)

Учитывая n длины n-граммов, метрика ROUGE-N между документом-кандидатом и одним справочным документом задается как

${ROUGE-N}_{single} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} \sum_{n-грамм \in r_{i}} Граф (n-грамм, кандидат)}{\sum_{r_{i} \in ссылка} numNgrams (r_{i})},$

где элементы _ri являются предложениями в ссылку документе, $Count (n-грамм, кандидат)$ количество раз, когда заданный n-грамм встречается в документе-кандидате, и _{numNgrams(ri)} количество n-граммов в заданном _ri ссылочного предложения.

Для наборов нескольких ссылочных документов метрика ROUGE-N задается как

$ROUGE-N(candidate, references) = m a x_{k} {{ROUGE-N}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-N, установите 'ROUGEMethod' опция для 'n-grams'.

Самая длинная общая подпоследовательность (ROUGE-L)

Учитывая предложение $d = [w_{1}, \dots, w_{m}]$ и s предложения, где элементы _si соответствовать словам, подпоследовательность $[w_{i_{1}}, \dots, w_{i_{k}}]$ является общей подпоследовательностью d и s, если $w_{i_{j}^{'}} \in {s_{1}, \dots, s_{n}}$ для $j = 1, \dots, k$ и $i_{1} < \dots < i_{k}$ , где элементами s являются слова предложения, а k - длина подпоследовательности. Подпоследовательность $[w_{i_{1}}, \dots, w_{i_{k}}]$ является самой длинной общей подпоследовательностью (LCS), если k длины подпоследовательности является максимальным.

Учитывая документ кандидата и один справочный документ, объединение самых длинных общих подпоследовательностей задается как

$L C S_{\cup} (candidate, ссылка) = \underset{r_{i} \in ссылка}{\cup} {w | w \in LCS (кандидат, r_{i})},$

где $LCS (кандидат, r_{i})$ - набор самых длинных общих подпоследовательностей в документе-кандидате и предложение, _ri из ссылочного документа.

Метрика ROUGE-L является показателем F-балла. Чтобы вычислить его, сначала вычислите счета отзыва и точности, заданные

$R_{lcs} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} | {LCS}_{\cup} ({candidate,r}_{i}) |}{numWords (ссылка)}$

$P_{lcs} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} | {LCS}_{\cup} ({candidate,r}_{i}) |}{numWords (кандидат)} .$

Затем метрика ROUGE-L между документом-кандидатом и одним справочным документом задается мерой F-score

${ROUGE-L}_{single} (кандидат, ссылка) = \frac{(1 + β^{2}) R_{lcs} (кандидат, ссылка) P_{lcs} (кандидат, ссылка)}{R_{lcs} (кандидат, ссылка) + β^{2} P_{lcs} (кандидат, ссылка)},$

где параметр $β$ управляет относительной важностью точности и отзыва. Потому что счет ROUGE предпочитает вспоминать, $β$ обычно устанавливается на высокое значение.

Для наборов нескольких ссылочных документов метрика ROUGE-L задается как

$ROUGE-L(candidate, references) = m a x_{k} {{ROUGE-L}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-L, установите 'ROUGEMethod' опция для 'longest-common-subsequences'.

Взвешенная самая длинная общая подпоследовательность (ROUGE-W)

Учитывая функцию взвешивания f такую что f имеет свойство, f(x+y)>f(x)+f(y) для любых положительных целых чисел x и y, задайте $WLCS (кандидат, ссылка)$ - длина самых длинных последовательных совпадений, встречающихся в документе-кандидате, и один ссылочный документ, оцененный функцией взвешивания f. Для получения дополнительной информации о вычислении этого значения см. [1].

ROUGE-W является метрикой, заданной мерой F-балла, которая требует отзыва и точности счетов, заданных

$R_{wlcs} (кандидат, ссылка) = f^{- 1} (\frac{WLCS (кандидат, ссылка)}{f (numWords (ссылка)})$

$P_{wlcs} (кандидат, ссылка) = f^{- 1} (\frac{WLCS (кандидат, ссылка)}{f (numWords (кандидат))}) .$

Метрика ROUGE-W между документом-кандидатом и одним справочным документом задается мерой F-score

${ROUGE-W}_{single} (кандидат, ссылка) = \frac{(1 + β^{2}) R_{wlcs} (кандидат, ссылка) P_{wlcs} (кандидат, ссылка)}{R_{wlcs} (кандидат, ссылка) + β^{2} P_{wlcs} (кандидат, ссылка)},$

Для нескольких ссылочных документов метрика ROUGE-W задается как

$ROUGE-W(candidate, references) = m a x_{k} {{ROUGE-W}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-W, установите 'ROUGEMethod' опция для 'weighted-longest-common-subsequences'.

Статистика сопутствующих случаев скипа-биграмма (ROUGE-S)

Скип-биграмма - это упорядоченная пара слов в предложении, допускающая произвольные погрешности между ними. То есть, учитывая предложение $c_{i} = [c_{i 1}, \dots, c_{i m}]$ из документа-кандидата, где элементы _cij соответствовать словам в предложении, паре слов $[c_{i j_{1}^{'}}, c_{i j_{2}^{'}}]$ является скип-биграммой, если $j_{1}^{'} < j_{2}^{'}$ .

Метрика ROUGE-S является показателем F-балла. Чтобы вычислить его, сначала вычислите счета отзыва и точности, заданные

$R_{skip2} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} \sum_{skip-bigram \in r_{i}} Граф (skip-bigram, кандидат)}{\sum_{r_{i} \in ссылка} numSkipBigrams (r_{i})}$

$P_{skip2} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} \sum_{skip-bigram \in r_{i}} Граф (skip-bigram, кандидат)}{\sum_{c_{i} \in кандидат} numSkipBigrams (c_{i})} .$

где элементами _ri и _ci являются предложения в ссылку документе и документе-кандидате, соответственно, $Count (skip-bigram, кандидат)$ количество раз, когда указанная скип-биграмма возникает в документе-кандидате, и numSkipBigrams(s) количество скип-биграмм в s предложений.

Затем метрика ROUGE-S между документом-кандидатом и одним справочным документом задается мерой F-балла

${ROUGE-S}_{single} (кандидат, ссылка) = \frac{(1 + β^{2}) R_{skip2} (кандидат, ссылка) P_{skip2} (кандидат, ссылка)}{R_{skip2} (кандидат, ссылка) + β^{2} P_{skip2} (кандидат, ссылка)},$

Для наборов нескольких ссылочных документов метрика ROUGE-S задается как

$ROUGE-S(candidate, references) = m a x_{k} {{ROUGE-S}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-S, установите 'ROUGEMethod' опция для 'skip-bigrams'.

Статистика совпадов Скип-Биграмма и Униграмма (ROUGE-SU)

Чтобы также включить статистику сопутствующих явлений unigram в метрику ROUGE-S, введите счетчики unigram в счета отзыва и точности для ROUGE-S. Это эквивалентно включению лексем в кандидат и справочные документы, поскольку

$\sum_{skip-bigram \in r_{i}} (Count (skip-bigram, кандидат)) + \sum_{униграмма \in r_{i}} (Count (униграмма, кандидат) = \sum_{skip-bigram \in r_{i}^{+}} (Count (skip-bigram, {кандидат}^{+})),$

где Count(unigram,candidate) количество раз, когда указанная unigram появляется в документе кандидата, и $r_{i}^{+}$ и ${candidate}^{+}$ обозначает ссылочное предложение и документ-кандидат, дополненный стартовыми лексемами, соответственно.

Для наборов нескольких ссылочных документов метрика ROUGE-SU задается как

$ROUGE-SU(candidate, references) = m a x_{k} {{ROUGE-S}_{single} ({кандидат}^{+} {, ссылки}_{k}^{+})},$

где ${reference}^{+}$ - ссылочный документ с предложениями, дополненными стартовыми лексемами.

Чтобы использовать метрику ROUGE-SU, установите 'ROUGEMethod' опция для 'skip-bigrams-and-unigrams'.

Ссылки

[1] Лин, Чин-Ю. «Rouge: пакет для автоматической оценки сводных данных». В Text Summarization Branches Out, стр. 74-81. 2004.

См. также

Темы

Перемещение последовательности в последовательность с использованием внимания

Введенный в R2020a

Документация

rougeEvaluationScore

Синтаксис

Описание

Примеры

Оценка подобия

Задайте длины N-грамма

Входные параметры

`candidate` - Документ кандидата
`tokenizedDocument` скалярный | строковые массивы | массив ячеек из векторов символов

`references` - Справочные документы
`tokenizedDocument` массив | строковые массивы | массивов ячеек из векторов символов

Аргументы в виде пар имя-значение

`'ROUGEMethod'` - МЕТОД ROUGE
`'n-grams'` (по умолчанию) | `'longest-common-subsequences'` | `'weighted-subsequences'` | `'skip-bigrams'` | `'skip-bigrams-and-unigrams'`

`'NgramLength'` - Длина N-грамма
1 (по умолчанию) | положительное целое число

`'SkipDistance'` - Пропустить расстояние
4 (по умолчанию) | положительное целое число

Выходные аргументы

`score` - ОЦЕНКА ROUGE
скаляр

Алгоритмы

ROUGE Счета

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

rougeEvaluationScore

Синтаксис

Описание

Примеры

Оценка подобия

Задайте длины N-грамма

Входные параметры

candidate - Документ кандидата tokenizedDocument скалярный | строковые массивы | массив ячеек из векторов символов

references - Справочные документы tokenizedDocument массив | строковые массивы | массивов ячеек из векторов символов

Аргументы в виде пар имя-значение

'ROUGEMethod' - МЕТОД ROUGE 'n-grams' (по умолчанию) | 'longest-common-subsequences' | 'weighted-subsequences' | 'skip-bigrams' | 'skip-bigrams-and-unigrams'

'NgramLength' - Длина N-грамма 1 (по умолчанию) | положительное целое число

'SkipDistance' - Пропустить расстояние 4 (по умолчанию) | положительное целое число

Выходные аргументы

score - ОЦЕНКА ROUGE скаляр

Алгоритмы

ROUGE Счета

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

`candidate` - Документ кандидата
`tokenizedDocument` скалярный | строковые массивы | массив ячеек из векторов символов

`references` - Справочные документы
`tokenizedDocument` массив | строковые массивы | массивов ячеек из векторов символов

`'ROUGEMethod'` - МЕТОД ROUGE
`'n-grams'` (по умолчанию) | `'longest-common-subsequences'` | `'weighted-subsequences'` | `'skip-bigrams'` | `'skip-bigrams-and-unigrams'`

`'NgramLength'` - Длина N-грамма
1 (по умолчанию) | положительное целое число

`'SkipDistance'` - Пропустить расстояние
4 (по умолчанию) | положительное целое число

`score` - ОЦЕНКА ROUGE
скаляр