rougeEvaluationScore

Оцените перевод или резюмирование со счетом подобия ROUGE

Синтаксис

score = rougeEvaluationScore(candidate,references)

score = rougeEvaluationScore(candidate,references,Name,Value)

Описание

Ориентированный на отзыв Дублер для Оценки Джистинга (ROUGE) алгоритм выигрыша оценивает подобие между документом кандидата и набором справочных документов. Используйте счет ROUGE, чтобы оценить качество моделей перевода и резюмирования документа.

пример

score = rougeEvaluationScore(candidate,references) возвращает счет ROUGE между заданным документом кандидата и справочными документами. Функция, по умолчанию, вычисляет перекрытия униграммы между candidate и references. Это также известно как метрику ROUGE-N с длиной n-граммы 1. Для получения дополнительной информации смотрите Счет ROUGE.

пример

score = rougeEvaluationScore(candidate,references,Name,Value) задает дополнительные опции с помощью одной или нескольких пар "имя-значение".

Примеры

свернуть все

Оцените подобие

Скрипт Open Live Script

Задайте документ кандидата как tokenizedDocument объект.

str = "the fast brown fox jumped over the lazy dog";
candidate = tokenizedDocument(str)

candidate = 
  tokenizedDocument:

   9 tokens: the fast brown fox jumped over the lazy dog

Задайте справочные документы как tokenizedDocument массив.

str = [
    "the quick brown animal jumped over the lazy dog"
    "the quick brown fox jumped over the lazy dog"];
references = tokenizedDocument(str)

references = 
  2x1 tokenizedDocument:

    9 tokens: the quick brown animal jumped over the lazy dog
    9 tokens: the quick brown fox jumped over the lazy dog

Вычислите счет ROUGE между документом кандидата и справочными документами.

score = rougeEvaluationScore(candidate,references)

score = 0.8889

Задайте длины n-граммы

Скрипт Open Live Script

Задайте документ кандидата как tokenizedDocument объект.

str = "a simple summary document containing some words";
candidate = tokenizedDocument(str)

candidate = 
  tokenizedDocument:

   7 tokens: a simple summary document containing some words

Задайте справочные документы как tokenizedDocument массив.

str = [
    "a simple document"
    "another document with some words"];
references = tokenizedDocument(str)

references = 
  2x1 tokenizedDocument:

    3 tokens: a simple document
    5 tokens: another document with some words

Вычислите счет ROUGE между документом кандидата и справочными документами с помощью опций по умолчанию.

score = rougeEvaluationScore(candidate,references)

score = 1

rougeEvaluationScore функция, по умолчанию, сравнивает униграмму (одно-маркерные) перекрытия между документом кандидата и справочными документами. Поскольку счет ROUGE является основанной на отзыве мерой, если один из справочных документов составлен полностью униграмм, которые появляются в документе кандидата, получившийся счет ROUGE является тем. В этом сценарии, выходе rougeEvaluationScore функция неинформативна.

Для более значимого результата вычислите счет ROUGE снова использование биграмм путем установки 'NgramLength' опция к 2. Получившийся счет меньше один, поскольку каждый справочный документ содержит биграммы, которые не появляются в документе кандидата.

score = rougeEvaluationScore(candidate,references,'NgramLength',2)

score = 0.5000

Входные параметры

свернуть все

`candidate` — Документ кандидата
`tokenizedDocument` скаляр | массив строк | массив ячеек из символьных векторов

Документ кандидата в виде tokenizedDocument скаляр, массив строк или массив ячеек из символьных векторов. Если candidate не tokenizedDocument скаляр, затем это должен быть вектор-строка, представляющий единый документ, где каждым элементом является слово.

`references` — Справочные документы
`tokenizedDocument` массив | массив строк | массив ячеек из символьных векторов

Справочные документы в виде tokenizedDocument массив, массив строк или массив ячеек из символьных векторов. Если references не tokenizedDocument массив, затем это должен быть вектор-строка, представляющий единый документ, где каждым элементом является слово. Чтобы оценить против нескольких справочных документов, используйте tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: scores = rougeEvaluationScore(candidate,references,'ROUGEMethod','weighted-subsequences') задает, чтобы использовать взвешенные подпоследовательности метод ROUGE.

`'ROUGEMethod'` — Метод ROUGE
`'n-grams'` (значение по умолчанию) | `'longest-common-subsequences'` | `'weighted-subsequences'` | `'skip-bigrams'` | `'skip-bigrams-and-unigrams'`

Метод ROUGE в виде разделенной запятой пары, состоящей из 'ROUGEMethod' и одно из следующего:

'n-grams' – Оцените счет ROUGE с помощью перекрытий n-граммы между документом кандидата и справочными документами. Это также известно как метрику ROUGE-N.
'longest-common-subsequences' – Оцените счет ROUGE с помощью статистики Самой длинной общей подпоследовательности (LCS). Это также известно как метрику ROUGE-L.
'weighted-subsequences' – Оцените счет ROUGE с помощью, взвесил самую длинную общую статистику подпоследовательности. Этот метод способствует последовательному LCSS. Это также известно как метрику ROUGE-W.
'skip-bigrams' – Оцените счет ROUGE с помощью биграммы пропуска (любая пара слов в порядке предложения) статистика совместной встречаемости. Это также известно как метрику ROUGE-S.
'skip-bigrams-and-unigrams' – Оцените счет ROUGE с помощью статистики совместной встречаемости биграммы пропуска и униграммы. Это также известно как метрику ROUGE-SU.

`'NgramLength'` — Длина n-граммы
1 (значение по умолчанию) | положительное целое число

Длина n-граммы используется для 'n-grams' Метод ROUGE (ROUGE-N) в виде разделенной запятой пары, состоящей из 'NgramLength' и положительное целое число.

Если 'ROUGEMethod' опцией не является 'n-grams', затем 'NgramLength' опция не оказывает влияния.

Совет

Если самый длинный документ в references имеет меньше, чем NgramLength слова, затем получившимся счетом ROUGE является NaN. Если candidate имеет меньше, чем NgramLength слова, затем получившийся счет ROUGE является нулем. Гарантировать это rougeEvaluationScore возвращает ненулевую музыку к очень коротким документам, установите NgramLength до положительного целого числа, меньшего, чем длина candidate и длина самого длинного документа в references.

`'SkipDistance'` — Пропустите расстояние
4 (значения по умолчанию) | положительное целое число

Пропустите расстояние, используемое для 'skip-bigrams' и 'skip-bigrams-and-unigrams' Методы ROUGE (ROUGE-S и ROUGE-SU) в виде разделенной запятой пары, состоящей из 'SkipDistance' и положительное целое число.

Если 'ROUGEMethod' опцией не является 'skip-bigrams' или 'skip-bigrams-and-unigrams', затем 'SkipDistance' опция не оказывает влияния.

Выходные аргументы

свернуть все

`score` — Счет ROUGE
скаляр

Счет ROUGE, возвращенный как скалярное значение в области значений [0,1] или NaN.

Счет ПОМАДЫ близко к нулю указывает на плохое подобие между candidate и references. Счет ПОМАДЫ близко к каждый указывает на сильное сходство между candidate и references. Если candidate идентично одному из справочных документов, затем score 1. Если candidate и references оба пустые документы, затем получившимся счетом ROUGE является NaN.

Совет

Алгоритмы

свернуть все

Счет ROUGE

Ориентированный на отзыв Дублер для Оценки Джистинга (ROUGE) алгоритм выигрыша [1] вычисляет подобие между документом кандидата и набором справочных документов. Используйте счет ROUGE, чтобы оценить качество моделей перевода и резюмирования документа.

Статистика совместной встречаемости n-граммы (ROUGE-N)

Учитывая n одна n-грамма длиной, метрику ROUGE-N между документом кандидата и одним справочным документом дают

${ROUGE-N}_{single} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} \sum_{n-грамма \in r_{i}} Количество (n-грамма, кандидат)}{\sum_{r_{i} \in ссылка} numNgrams (r_{i})},$

где элементами _ri являются предложения в справочном документе, $Count (n-грамма, кандидат)$ число раз, заданная n-грамма происходит в документе кандидата, и _{numNgrams(ri)} является количеством N-грамм в заданном ссылочном предложении _ri.

Для наборов нескольких справочных документов метрикой ROUGE-N дают

$ROUGE-N(candidate, references) = m a x_{k} {{ROUGE-N}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-N, установите 'ROUGEMethod' опция к 'n-grams'.

Самая длинная общая подпоследовательность (ROUGE-L)

Учитывая предложение $d = [w_{1}, \dots, w_{m}]$ и предложение s, где элементы _si соответствуют словам, подпоследовательности $[w_{i_{1}}, \dots, w_{i_{k}}]$ общая подпоследовательность d и s если $w_{i_{j}^{'}} \in {s_{1}, \dots, s_{n}}$ для $j = 1, \dots, k$ и $i_{1} < \dots < i_{k}$ , где элементами s являются слова предложения, и k является длиной подпоследовательности. Подпоследовательность $[w_{i_{1}}, \dots, w_{i_{k}}]$ самая длинная общая подпоследовательность (LCS), если длина подпоследовательности k максимальна.

Учитывая документ кандидата и один справочный документ объединением самых длинных общих подпоследовательностей дают

$L C S_{\cup} (candidate, ссылка) = \underset{r_{i} \in ссылка}{\cup} {w | w \in LCS (кандидат, r_{i})},$

где $LCS (кандидат, r_{i})$ набор самых длинных общих подпоследовательностей в документе кандидата и предложении _ri из справочного документа.

Метрика ROUGE-L является мерой F-счета. Чтобы вычислить его, сначала вычислите баллы отзыва и точности, данные

$R_{lcs} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} | {LCS}_{\cup} ({candidate,r}_{i}) |}{numWords (ссылка)}$

$P_{lcs} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} | {LCS}_{\cup} ({candidate,r}_{i}) |}{numWords (кандидат)} .$

Затем метрика ROUGE-L между документом кандидата и одним справочным документом дана мерой F-счета

${ROUGE-L}_{single} (кандидат, ссылка) = \frac{(1 + β^{2}) R_{lcs} (кандидат, ссылка) P_{lcs} (кандидат, ссылка)}{R_{lcs} (кандидат, ссылка) + β^{2} P_{lcs} (кандидат, ссылка)},$

где параметр $β$ управляет относительной важностью точности и отзыва. Поскольку счет ROUGE способствует отзыву, $β$ обычно устанавливается в высокое значение.

Для наборов нескольких справочных документов метрикой ROUGE-L дают

$ROUGE-L(candidate, references) = m a x_{k} {{ROUGE-L}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-L, установите 'ROUGEMethod' опция к 'longest-common-subsequences'.

Взвешенная самая длинная общая подпоследовательность (ROUGE-W)

Учитывая функцию взвешивания f, таким образом, что f имеет свойство f(x+y)>f(x)+f(y) для любых положительных целых чисел x и y, задать $WLCS (кандидат, ссылка)$ быть продолжительностью самых долгих последовательных соответствий, с которыми сталкиваются в документе кандидата и одном справочном документе, выигранном функцией взвешивания f. Для получения дополнительной информации о вычислении этого значения, см. [1].

ROUGE-W является метрикой, учитывая меру F-счета, которая требует баллов отзыва и точности, данных

$R_{wlcs} (кандидат, ссылка) = f^{- 1} (\frac{WLCS (кандидат, ссылка)}{f (numWords (ссылка)})$

$P_{wlcs} (кандидат, ссылка) = f^{- 1} (\frac{WLCS (кандидат, ссылка)}{f (numWords (кандидат))}) .$

Метрика ROUGE-W между документом кандидата и одним справочным документом дана мерой F-счета

${ROUGE-W}_{single} (кандидат, ссылка) = \frac{(1 + β^{2}) R_{wlcs} (кандидат, ссылка) P_{wlcs} (кандидат, ссылка)}{R_{wlcs} (кандидат, ссылка) + β^{2} P_{wlcs} (кандидат, ссылка)},$

Для нескольких справочных документов метрикой ROUGE-W дают

$ROUGE-W(candidate, references) = m a x_{k} {{ROUGE-W}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-W, установите 'ROUGEMethod' опция к 'weighted-longest-common-subsequences'.

Статистика совместной встречаемости биграммы пропуска (ROUGE-S)

Биграмма пропуска является упорядоченной парой слов в предложении, допуская произвольные разрывы между ними. Таким образом, учитывая предложение $c_{i} = [c_{i 1}, \dots, c_{i m}]$ из документа кандидата, где элементы _cij соответствуют словам в предложении, паре слов $[c_{i j_{1}^{'}}, c_{i j_{2}^{'}}]$ биграмма пропуска если $j_{1}^{'} < j_{2}^{'}$ .

Метрика ROUGE-S является мерой F-счета. Чтобы вычислить его, сначала вычислите баллы отзыва и точности, данные

$R_{skip2} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} \sum_{биграмма пропуска \in r_{i}} Количество (биграмма пропуска, кандидат)}{\sum_{r_{i} \in ссылка} numSkipBigrams (r_{i})}$

$P_{skip2} (кандидат, ссылка) = \frac{\sum_{r_{i} \in ссылка} \sum_{биграмма пропуска \in r_{i}} Количество (биграмма пропуска, кандидат)}{\sum_{c_{i} \in кандидат} numSkipBigrams (c_{i})} .$

где элементами _ri и _ci являются предложения в справочном документе и документе кандидата, соответственно, $Count (биграмма пропуска, кандидат)$ число раз, заданная биграмма пропуска происходит в документе кандидата, и numSkipBigrams(s) является количеством биграмм пропуска в предложении s.

Затем метрика ROUGE-S между документом кандидата и одним справочным документом дана мерой F-счета

${ROUGE-S}_{single} (кандидат, ссылка) = \frac{(1 + β^{2}) R_{skip2} (кандидат, ссылка) P_{skip2} (кандидат, ссылка)}{R_{skip2} (кандидат, ссылка) + β^{2} P_{skip2} (кандидат, ссылка)},$

Для наборов нескольких справочных документов метрикой ROUGE-S дают

$ROUGE-S(candidate, references) = m a x_{k} {{ROUGE-S}_{single} ({candidate, references}_{k})} .$

Чтобы использовать метрику ROUGE-S, установите 'ROUGEMethod' опция к 'skip-bigrams'.

Биграмма пропуска и статистика совместной встречаемости униграммы (ROUGE-SU)

Чтобы также включать статистику совместной встречаемости униграммы в метрику ROUGE-S, введите количества униграммы в музыку отзыва и точности к ROUGE-S. Это эквивалентно включению, запускают лексемы в кандидате и справочных документах, с тех пор

$\sum_{биграмма пропуска \in r_{i}} (Count (биграмма пропуска, кандидат)) + \sum_{униграмма \in r_{i}} (Count (униграмма, кандидат) = \sum_{биграмма пропуска \in r_{i}^{+}} (Count (биграмма пропуска, {кандидат}^{+})),$

где Count(unigram,candidate) является числом раз, заданная униграмма появляется в документе кандидата, и $r_{i}^{+}$ и ${candidate}^{+}$ обозначьте ссылочное предложение и документ кандидата, увеличенный с лексемами запуска, соответственно.

Для наборов нескольких справочных документов метрикой ROUGE-SU дают

$ROUGE-SU(candidate, references) = m a x_{k} {{ROUGE-S}_{single} ({кандидат}^{+} {Ссылки}_{k}^{+})},$

где ${reference}^{+}$ справочный документ с предложениями, увеличенными с лексемами запуска.

Чтобы использовать метрику ROUGE-SU, установите 'ROUGEMethod' опция к 'skip-bigrams-and-unigrams'.

Ссылки

[1] Лин, Тис Подбородка. "Помада: пакет для автоматической оценки сводных данных". В тексте Резюмирование Расширяется, стр 74-81. 2004.

Темы

Перевод от последовательности к последовательности Используя внимание

Введенный в R2020a

Документация

rougeEvaluationScore

Синтаксис

Описание

Примеры

Оцените подобие

Задайте длины n-граммы

Входные параметры

`candidate` — Документ кандидата
`tokenizedDocument` скаляр | массив строк | массив ячеек из символьных векторов

`references` — Справочные документы
`tokenizedDocument` массив | массив строк | массив ячеек из символьных векторов

Аргументы в виде пар имя-значение

`'ROUGEMethod'` — Метод ROUGE
`'n-grams'` (значение по умолчанию) | `'longest-common-subsequences'` | `'weighted-subsequences'` | `'skip-bigrams'` | `'skip-bigrams-and-unigrams'`

`'NgramLength'` — Длина n-граммы
1 (значение по умолчанию) | положительное целое число

`'SkipDistance'` — Пропустите расстояние
4 (значения по умолчанию) | положительное целое число

Выходные аргументы

`score` — Счет ROUGE
скаляр

Алгоритмы

Счет ROUGE

Ссылки

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

Документация

rougeEvaluationScore

Синтаксис

Описание

Примеры

Оцените подобие

Задайте длины n-граммы

Входные параметры

candidate — Документ кандидата tokenizedDocument скаляр | массив строк | массив ячеек из символьных векторов

references — Справочные документы tokenizedDocument массив | массив строк | массив ячеек из символьных векторов

Аргументы в виде пар имя-значение

'ROUGEMethod' — Метод ROUGE 'n-grams' (значение по умолчанию) | 'longest-common-subsequences' | 'weighted-subsequences' | 'skip-bigrams' | 'skip-bigrams-and-unigrams'

'NgramLength' — Длина n-граммы 1 (значение по умолчанию) | положительное целое число

'SkipDistance' — Пропустите расстояние 4 (значения по умолчанию) | положительное целое число

Выходные аргументы

score — Счет ROUGE скаляр

Алгоритмы

Счет ROUGE

Ссылки

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

`candidate` — Документ кандидата
`tokenizedDocument` скаляр | массив строк | массив ячеек из символьных векторов

`references` — Справочные документы
`tokenizedDocument` массив | массив строк | массив ячеек из символьных векторов

`'ROUGEMethod'` — Метод ROUGE
`'n-grams'` (значение по умолчанию) | `'longest-common-subsequences'` | `'weighted-subsequences'` | `'skip-bigrams'` | `'skip-bigrams-and-unigrams'`

`'NgramLength'` — Длина n-граммы
1 (значение по умолчанию) | положительное целое число

`'SkipDistance'` — Пропустите расстояние
4 (значения по умолчанию) | положительное целое число

`score` — Счет ROUGE
скаляр