Interested Article - Машинный перевод

Маши́нный перево́д — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы . Так же называется направление научных исследований, связанных с построением подобных систем.

Формы организации взаимодействия ЭВМ и человека при машинном переводе

  • С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
  • С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
  • С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
  • Смешанные системы (например, одновременно с пред- и постредактированием).

Автоматизированный перевод

Вместо «машинный» иногда употребляется слово автоматический , что не влияет на смысл. Однако термин автоматизированный перевод имеет совсем другое значение — при нём программа просто помогает человеку переводить тексты.

Автоматизированный перевод предполагает такие формы взаимодействия:

  • Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей .
  • Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.

В англоязычной терминологии также различаются термины англ. machine translation, MT (полностью автоматический перевод) и англ. machine-aided или англ. machine-assisted translation (MAT) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T.

Существуют несколько принципиально разных подходов к построению алгоритмов машинного перевода: основанный на правилах (rule-based), статистический, или основанный на статистике (statistical-based), нейронный машинный перевод (neural machine translation, NMT). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.) Ко второму типу относится популярный сервис Яндекс.Переводчик , Переводчик Google , а также новый сервис от ABBYY . Сейчас большинство систем являются гибридными — сочетая правила, статистику и нейронные сети.

Статистический машинный перевод

Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

История машинного перевода

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США , сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент ) состоялась в 1954 году . Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии , Болгарии , ГДР , Италии , Китае , Франции , ФРГ , Японии и других странах; в том же 1954 году и в СССР .

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

  • MARK (в Департаменте иностранной техники ВВС США);
  • GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма , снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров , а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественно-языковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х . В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания SYSTRAN . В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского ( Российский государственный педагогический университет имени А. И. Герцена , Санкт-Петербург ).

Философские обоснования

В 1960-х годах Станислав Лем обобщал высказывания о проблеме машинного перевода и связи с пониманием текста самой машиной (что связано, например, с обсуждением сформулированной в 1980 году концепции « китайской комнаты »):

... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить. Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе .

Качество перевода

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. [ источник не указан 4272 дня ] Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле .

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши , известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей» . Из кратких — фраза « Our cat gave birth to three kittens — two whites and one black », которую онлайн-переводчик « ПРОМТ » (версия 7.0, 2007 ) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца » . Если «афроамериканца» ещё можно было сделать «чёрным», написав « black kitten », то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал « Лев Толстой » в «Lion Thick» («толстый лев»), « bra-ket notation » в «примечание Кети лифчика», « Lie algebra » — в «алгебру Лжи», « eccentricity vector » — в «вектор оригинальности», « Shawnee Smith » в «индеец племени шони Смит», популярную в сериале « Игра в кальмара » игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. Переводчик Google , наоборот, слово « rice » часто принимал за фамилию госсекретаря США .

См. также

Комментарии

  1. Впрочем, это не так: ( sic ) — это электронный словарь , программа того же класса, что и Lingvo , самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека ».

Примечания

  1. . Дата обращения: 22 декабря 2011. 23 ноября 2011 года.
  2. . Дата обращения: 22 декабря 2011. 20 января 2012 года.
  3. « Summa Technologiae », 1963 (или 2-е изд. 1967), глава 4.
  4. // Хакер . — 1999. — № 1 . — С. 98 . — ISSN . 11 декабря 2022 года.
  5. . Дата обращения: 4 июля 2011. 16 сентября 2010 года.
  6. К. Кноп. от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).

Литература

  • / И. М. Богуславский // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов . — М. : Большая российская энциклопедия, 2004—2017.
  • Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д. // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
  • О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5 .
  • Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М. : Издательская группа URSS, 2017.
  • // Компьютерра № 21, 5 июня 2002.

Ссылки

Источник —

Same as Машинный перевод