Процессор машинного зрения
- 1 year ago
- 0
- 0
В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, переведенных с помощью автоматизированного компьютерного перевода .
На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов.
Японский ученый Макато Нагао, специалист по компьютерным наукам, предложил шкалу оценки машинного перевода на основе лингвостилистического анализа, от пяти до одного балла .
Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы .
Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов ( N-граммы ) [МП: обзор методов].
Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий .
Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объёме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.
Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики .
Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод . При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов .
|
На эту статью
не ссылаются другие статьи Википедии
.
|