Interested Article - Машинный перевод

Маши́нный перево́д — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы . Так же называется направление научных исследований, связанных с построением подобных систем.

Формы организации взаимодействия ЭВМ и человека при машинном переводе

С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
Смешанные системы (например, одновременно с пред- и постредактированием).

Автоматизированный перевод

Вместо «машинный» иногда употребляется слово автоматический , что не влияет на смысл. Однако термин автоматизированный перевод имеет совсем другое значение — при нём программа просто помогает человеку переводить тексты.

Автоматизированный перевод предполагает такие формы взаимодействия:

Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей .
Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.

В англоязычной терминологии также различаются термины англ. machine translation, MT (полностью автоматический перевод) и англ. machine-aided или англ. machine-assisted translation (MAT) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T.

Существуют несколько принципиально разных подходов к построению алгоритмов машинного перевода: основанный на правилах (rule-based), статистический, или основанный на статистике (statistical-based), нейронный машинный перевод (neural machine translation, NMT). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.) Ко второму типу относится популярный сервис Яндекс.Переводчик , Переводчик Google , а также новый сервис от ABBYY . Сейчас большинство систем являются гибридными — сочетая правила, статистику и нейронные сети.

Статистический машинный перевод

Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

История машинного перевода

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США , сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент ) состоялась в 1954 году . Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии , Болгарии , ГДР , Италии , Китае , Франции , ФРГ , Японии и других странах; в том же 1954 году и в СССР .

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

MARK (в Департаменте иностранной техники ВВС США);
GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма , снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров , а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественно-языковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х . В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания SYSTRAN . В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского ( Российский государственный педагогический университет имени А. И. Герцена , Санкт-Петербург ).

Философские обоснования

В 1960-х годах Станислав Лем обобщал высказывания о проблеме машинного перевода и связи с пониманием текста самой машиной (что связано, например, с обсуждением сформулированной в 1980 году концепции « китайской комнаты »):

... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить. Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе .

Качество перевода

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. ^{[

источник не указан 4237 дней

]} Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле .

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши , известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей» . Из кратких — фраза « Our cat gave birth to three kittens — two whites and one black », которую онлайн-переводчик « ПРОМТ » (версия 7.0, 2007 ) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца » . Если «афроамериканца» ещё можно было сделать «чёрным», написав « black kitten », то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал « Лев Толстой » в «Lion Thick» («толстый лев»), « bra-ket notation » в «примечание Кети лифчика», « Lie algebra » — в «алгебру Лжи», « eccentricity vector » — в «вектор оригинальности», « Shawnee Smith » в «индеец племени шони Смит», популярную в сериале « Игра в кальмара » игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. Переводчик Google , наоборот, слово « rice » часто принимал за фамилию госсекретаря США .

См. также

Впрочем, это не так: ( sic ) — это электронный словарь , программа того же класса, что и Lingvo , самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека ».

Примечания

. Дата обращения: 22 декабря 2011. 23 ноября 2011 года.
. Дата обращения: 22 декабря 2011. 20 января 2012 года.
« Summa Technologiae », 1963 (или 2-е изд. 1967), глава 4.
// Хакер . — 1999. — № 1 . — С. 98 . — ISSN . 11 декабря 2022 года.
. Дата обращения: 4 июля 2011. 16 сентября 2010 года.
К. Кноп. от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).

Литература

В Викисловаре есть статья « »

/ И. М. Богуславский // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов . — М. : Большая российская энциклопедия, 2004—2017.
Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д. // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5 .
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М. : Издательская группа URSS, 2017.
// Компьютерра № 21, 5 июня 2002.

Ссылки

[7] Впрочем, это не так: ( sic ) — это электронный словарь , программа того же класса, что и Lingvo , самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека ».

[1] . Дата обращения: 22 декабря 2011. 23 ноября 2011 года.

[2] . Дата обращения: 22 декабря 2011. 20 января 2012 года.

[3] « Summa Technologiae », 1963 (или 2-е изд. 1967), глава 4.

[4] // Хакер . — 1999. — № 1 . — С. 98 . — ISSN . 11 декабря 2022 года.

[5] . Дата обращения: 4 июля 2011. 16 сентября 2010 года.

[6] К. Кноп. от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Частеречная разметка Поверхностно-синтаксический анализ Стемминг Лемматизация Разрешение кореферентности Анализ тональности текста Синтаксический анализ Разрешение лексической многозначности Извлечение информации Идентификация языка
Реферирование
	Автоматизированный Гибридный На основе правил На основе примеров На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
	Конкордансер Предиктивный ввод текста Система проверки правописания
	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Формы организации взаимодействия ЭВМ и человека при машинном переводе

Автоматизированный перевод

Статистический машинный перевод

История машинного перевода

Философские обоснования

Качество перевода

См. также

Комментарии

Примечания

Литература

Ссылки

Машинный перевод на основе трансформации

Человеко-машинный интерфейс

Перевод Библии архимандрита Макария

Same as Машинный перевод

Машинный перевод

Нейронный машинный перевод Google

Машинный перевод на основе трансформации

Машинный код

Машинный код

Машинный код

Машинный код

Переводы/Запросы на перевод

Переводы/Запросы на перевод

Человеко-машинный интерфейс

Переводы/Запросы на перевод

Перевод Библии архимандрита Макария

Стрелочный перевод

Священное Писание — Перевод нового мира

Почтовый перевод

Синодальный перевод

Подстрочный перевод

Технический перевод

Перевод живописи на другую основу

Любительский перевод игр

Закончить перевод

Грубый перевод

Эквиритмический перевод

Википедия:Незавершённый перевод

Викимедиа РУ/Перевод Соглашения между Местными организациями и Фондом Викимедиа

Викимедиа РУ/Перевод комментария notafish

Викимедиа РУ/Перевод Соглашения между Местными организациями и Фондом Викимедиа

Плохой перевод

Плохой перевод/doc

Закончить перевод

Закончить перевод/doc

Грубый перевод

Запросы на перевод

Перевод и транскрипция

Проверить перевод

Userbox/Интерес:Перевод

Перевод интерфейса

Перевод строки