Interested Article - MateCat

MateCat ( англ. CAT, Computer assisted translation , машинный перевод ) — онлайн-средство машинного перевода. Сайт является бесплатным для переводческих компаний, переводчиков и корпоративных пользователей. MateCat является открытым кодом и свободным программным обеспечением .

История создания программы

Название MateCat является аббревиатурой Machine Translation Enhanced Computer Assisted Translation (Машинный Перевод, Усовершенствоанный Компьютерный Перевод), это 3-летний исследовательский проект (длящийся с 11.2011 по 10.2014) финансируемый 7-й Рамочной Программой Европейской Комиссии (Seventh Framework Programme (FP7)) для проведения исследований, технологических разработок и демонстраций в рамках финансируемого соглашения № 287688. Проект получил грант в размере уже более 2.500.000 евро от Европейских фондов.

Консорциум проекта возглавляет FBK ( Fondazione Bruno Kessler ), международный исследовательский центр, базирующийся в Тренто, Италия.

CAT Средства

Целью MateCat является создание инструмента для редактирования машинного перевода. Система способна учиться на ошибках, автоматически улучшаться со временем, а также специализироваться на узко-специализированном языке (например, юридической терминологии), чтобы предоставить пользователю наиболее точные предложения по переводу в полностью автоматизированной и легко понятной манере

CAT Средства предоставляют доступ к архиву переводов, базам данных по терминологии, средствам языкового согласования и, с недавнего времени, к механизмам машинного перевода. В большинстве случаев архив переводов — это хранилище переведённых сегментов. Во время перевода CAT средства запрашивают в архиве переводов точные или примерные совпадения для текущего исходного сегмента. Эти совпадения предлагаются пользователю в качестве вариантов перевода. Как только сегмент переведен, его оригинал и текст перевода добавляются в архив переводов для будущих запросов. Интеграция предложений от механизмов машинного перевода в качестве дополнения к совпадениям в архиве переводов обоснована недавними исследованиями , которые показали, что редактирование вариаантов, предлагаемых системой машинного перевода, существенно повышает качество переведённого текста.

Технологии

MateCat работает как веб-сервер, доступный через браузер. Веб-сервер CAT соединяется с другими сервисами через общедоступные приложения: архив переводов MyMemory , коммерческий сервер машинного перевода Google Translate , и серверы базе Moses , указанные в конфигурационном файле. В то время как серверы MyMemory и GT всегда работают и доступны, специализированные серверы Moses должны быть сначала установлены и настроены. Связь с серверами Moses расширяет возможности общедоступного сервиса Google Translate для поддержки самонастраивающихся, адаптированных под пользователя и информативных функций машинного перевода. XLIFF — формат файла, изначально поддерживаемый версией инструмента MateCat с открытым исходным кодом; однако внешние преобразователи файлов также могут быть добавлены в конфигурацию MateCat . Инструмент поддерживает кодировку Unicode (UTF-8), включая не-латинские алфавиты и языки с написанием справа налево, а также обрабатывает тексты с встроенной разметкой.

Поддержка серверов Moses улучшает связь машинного перевода с CAT. В частности, перевод, предлагаемый Google Translate , дополняется информацией об обратной связи, при каждом редактировании текущего сегмент, а также обогащается информацией системы машинного перевода, включая рейтинг достоверности, рекомендуемые сочетания слов и т. д. Разработанный сервер машинного перевода поддерживает многопоточность для одновременного обслуживания нескольких переводчиков, обрабатывает текстовые сегменты, включая встроенную разметку, и адаптируется к редакторским правкам, выполняемым каждым пользователем

Во время редактирования MateCat собирает информацию о времени работы с каждым сегмента, которая обновляется каждый раз, когда сегмент открывается и закрывается. Более того, для каждого сегмента сохраняется информация о всех вариантах перевода, предложенных системой, и о том варианте, который был выбран при окончательном редактировании. Эта информация доступна в любое время по ссылке «Редакция» на странице редактирования (Рис.1). Кроме того, для каждого сегмента, отсортированного от самого медленного до самого быстрого с точки зрения скорости перевода, сообщается подробная статистика о времени операций редактирования, что является источником информации для анализа производительности после завершения проекта.

Примечания

  1. José, M., & Machado, B. (2014). Free and open-source software — a translator’s good friend, 3. Retrieved from от 20 января 2022 на Wayback Machine
  2. EUROPEAN COMMISSION. (2017). EUROPEAN COMMISSION STAFF WORKING DOCUMENT INTERIM EVALUATION of HORIZON 2020 ANNEX 2 . Brussels. Retrieved from от 2 июля 2018 на Wayback Machine
  3. . Дата обращения: 11 января 2021. 15 декабря 2019 года.
  4. Marcello, Federico, Cattelan, Alessandro, Trombetti, Marco. (англ.) // Proceedings of the Tenth Conference of the Association for Machine Translation in the Americas (AMTA). — 2012. 30 октября 2014 года.
  5. Green, Spence, Heer, Jeffrey, Manning, Christopher. (англ.) // Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. — 2013. — P. 439–448 . 1 марта 2019 года.
  6. Läubli, Samuel, Fishel, Mark, Massey, Gary, Ehrensberger-Dow, Maureen, Volk, Martin. (англ.) // Proceedings of MT Summit XIV Workshop on Post-editing Technology and Practice / Michel Simard Sharon O'Brien and Lucia Specia (eds.). — Nice, France, 2013. — P. 83–91 . 23 апреля 2018 года.
  7. (англ.) . Mymemory.translated.net. Дата обращения: 30 октября 2014. 9 февраля 2010 года.
  8. (англ.) . Statmt.org. Дата обращения: 30 октября 2014. 8 февраля 2010 года.
  9. (англ.) . Docs.oasis-open.org. Дата обращения: 30 октября 2014. 29 октября 2014 года.
  10. Nicola Bertoldi, Mauro Cettolo, and Marcello Federico. 2013. Cache-based Online Adaptation for Machine Translation Enhanced Computer Assisted Translation. In Proceedings of the MT Summit XIV , pages 35-42, Nice, France, September.

Ссылки

Источник —

Same as MateCat