Meteor Lake
- 1 year ago
- 0
- 0
METEOR ( Metric for Evaluation of Translation with Explicit ORdering (2004) ) — метрика для оценки качества машинного перевода . Метрика базируется на использовании n-грамм и ориентирована на использование статистической и точной оценки исходного текста. В отличие от метрики , данная метрика использует функции сопоставления синонимов вместе с точным соответствием слов. Метрика была разработана, чтобы решить проблемы, которые были найдены в более популярной метрике BLEU, а также создать хорошую корреляцию с оценкой экспертов на уровне словосочетаний или предложений.
В результате запуска метрики на уровне словосочетаний корреляция с человеческим решением составляла 0.964, тогда как метрика BLEU составляла 0.817 на том же наборе входных данных. На уровне предложения максимальная корреляция с оценкой экспертов была 0.403 [1] .
Как и в метрике BLEU, основная единица для оценки — предложение, алгоритм сначала проводит выравнивание текста между двумя предложениями, строкой эталонного перевода и строкой входного текста для оценивания (см. рисунки а и б). Данная метрика использует несколько этапов установления соответствия между словами машинного перевода и эталонного перевода для сопоставления двух строк:
Выравнивание — это множество соответствий между n-gram-ами. На соответствие налагается следующее ограничение: каждый n-грамм в предложении-кандидате должен соответствовать одному или ни одному n-gram-у в эталонном предложении. Если есть два выравнивания с тем же количеством совпадений, то выбирается то, которое имеет наименьшее количество пересечений для совпадений. В данном случае будет выбран вариант (а). Этапы сравнения с эталонными переводами выполняются последовательно, и на каждом из них ко множеству соответствий добавляются только те n-gram-ы, которые не имели соответствия на предыдущих этапах. Как только будет пройден последний этап, окончательный n-gram P вычисляется по следующей формуле [2] :
Пример пары слов, которые будут сопоставлены вместе | |||
Этап сравнения | Кандидат | Эталонный перевод | Совпадение |
---|---|---|---|
Точное совпадение | good | good | Yes |
Стемминг | goods | good | Yes |
Синоним | well | good | Yes |
где — количество n-грамм в машинном переводе, которые также были найдены в эталонном переводе, а — количество n-грамм в машинном переводе. N-gram (общий n-gram для эталонных переводов) вычисляется по следующей формуле:
где — количество n-грамм в эталонном переводе. Точность и полнота комбинируются, используя формулу гармонического среднего, в которой вес полноты в 9 раз больше веса точности:
Данная формула используется только для сравнения одиночных слов, которые совпали в эталонном и машинном переводе. Для того чтобы учитывать еще и словосочетания, которые совпадают, используется так называемый штраф . Для этого n-gram объединяют в несколько возможных групп. Штраф вычисляется по следующей формуле:
где c — число групп n-gram, а — количество n-грамм, которые объединили в группы Тогда финальный показатель качества вычисляется по следующей формуле:
Эталонный перевод: | the | cat | sat | on | the | mat |
Машинный перевод: | on | the | mat | sat | the | cat |
Score: 0.5000 = Fmean: 1.0000 * (1 - Penalty: 0.5000) Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) Penalty: 0.5000 = 0.5 * (Fragmentation: 1.0000 ^3) Fragmentation: 1.0000 = Chunks: 6.0000 / Matches: 6.0000
Эталонный перевод: | the | cat | sat | on | the | mat |
Машинный перевод: | the | cat | sat | on | the | mat |
Score: 0.9977 = Fmean: 1.0000 * (1 — Penalty: 0.0023) Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) Penalty: 0.0023 = 0.5 * (Fragmentation: 0.1667 ³) Fragmentation: 0.1667 = Chunks: 1.0000 / Matches: 6.0000
Эталонный перевод: | the | cat | sat | on | the | mat | |
Машинный перевод: | the | cat | was | sat | on | the | mat |
Score: 0.9654 = Fmean: 0.9836 * (1 - Penalty: 0.0185) Fmean: 0.9836 = 10 * Precision: 0.8571 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 0.8571) Penalty: 0.0185 = 0.5 * (Fragmentation: 0.3333 ^3) Fragmentation: 0.3333 = Chunks: 2.0000 / Matches: 6.0000
Исследователями предлагались различные модификации METEOR, в частности, предназначенные для расширения её оценки с уровня словосочетаний до уровня предложений .