Interested Article - Проблема контроля искусственного интеллекта

Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение . Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ .

Описание проблемы

Экзистенциальный риск

В настоящее время (2023 год) люди доминируют над другими видами живых организмов лишь в силу превосходства мозга . Некоторые учёные, такие как философ Ник Бостром и исследователь ИИ Стюарт Рассел , утверждают, что если ИИ превзойдёт человечество в общем интеллекте, то этот новый сверхразум может стать трудноуправляемым и человечество может попасть в зависимость . Некоторые учёные, в том числе Стивен Хокинг и лауреат Нобелевской премии Фрэнк Вильчек , призывали начать исследования проблемы управления ИИ до того, как будет создан первый суперинтеллект, поскольку неконтролируемый сверхразум может успешно противостоять попыткам контролировать его . Кроме того, специалисты предупреждают об опасности внезапного зарождения суперинтеллекта .

Проблема случайного зарождения

Автономным системам ИИ могут быть случайно поставлены неверные цели . Два президента , Том Диттерих и Эрик Хорвиц отмечают, что это является проблемой для существующих систем: «Важным аспектом любой системы ИИ, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды буквально». Эта проблема становится более серьёзной, поскольку программное обеспечение ИИ становится все более автономным и гибким .

По словам Бострома, суперинтеллект может создать качественно новую проблему извращённой реализации : чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непредусмотренное решение, которое, тем не менее, формально соответствует цели, поставленной разработчиками.

Непредвиденные последствия действий существующего ИИ

Некоторые учёные утверждают, что исследование проблемы управления ИИ может быть полезно для предотвращения непредвиденных последствий от действий существующих систем ИИ.

В прошлом системы искусственного интеллекта иногда причиняли вред, от незначительного до катастрофического, который не был предусмотрен разработчиками. Например, в 2015 году, возможно из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen , который, по-видимому, принял его за автозапчасть . В 2016 году Microsoft запустила чат-бота Tay, который научился использовать расистские и сексистские выражения . Ноэль Шарки из Университета Шеффилда считает, что решение проблемы в общем случае представляет собой «действительно огромный научный вызов» .

Согласование

Задача согласования заключается в создании ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты согласования имеют моральное и политическое измерение . Например, в своей книге Human Compatible профессор Стюарт Рассел из университета Беркли предлагает проектировать системы ИИ с единственной целью — максимизировать реализацию человеческих предпочтений :173 . Предпочтения, о которых пишет Рассел, всеобъемлющи; они охватывают «все, что может вас волновать, сколь угодно далеко в будущем».

Элиэзер Юдковски из Исследовательского института машинного интеллекта предложил цель реализации «когерентной экстраполированной воли» (CEV) человечества, грубо определяемой как набор ценностей, которые человечество разделяло бы при рефлексивном равновесии, то есть после долгого процесса уточнения .

Внутреннее и внешнее согласование

Некоторые предложения по управлению ИИ учитывают как явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются гармонизировать три различных описания системы ИИ: :

  1. Идеальная спецификация: то, что разработчик хочет, чтобы система делала, но что может быть плохо сформулировано.
  2. Спецификация дизайна: план, который фактически используется для создания системы ИИ. В системе обучения с подкреплением это может быть просто функция вознаграждения системы.
  3. Эмерджентное поведение : что на самом деле делает ИИ.

Поскольку системы ИИ не являются идеальными оптимизаторами, и поскольку любая заданная спецификация может иметь непредвиденные последствия, возникающее поведение может резко отличаться от идеальных или проектных намерений.

Нарушение внутреннего согласования происходит, когда цели, преследуемые ИИ по мере действия, отклоняются от проектной спецификации. Для обнаружения таких отклонений и их исключения Пол Кристиано предлагает использование интерпретируемости .

Масштабируемый надзор

Один из подходов к достижению внешнего согласования — подключение людей для оценки поведения ИИ . Однако надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут быть слишком сложны для человека. Между тем, долгосрочные задачи, такие как прогнозирование изменения климата , невозможно оценить без обширных исследований с участием человека .

Ключевая нерешённая проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает внешнего несоответствия, при условии ограничения доступа к руководителю-человеку. Это так называемая проблема масштабируемого надзора ( problem of scalable oversight ) .

Обучение путём обсуждения

Исследователи компании OpenAI предложили обучать ИИ посредством дебатов между системами, при этом победителя будут определять люди . Такие дебаты призваны привлечь внимание человека к самым слабым местам решения сложных вопросов .

Вывод человеческих предпочтений из поведения

Стюарт Рассел выступает за новый подход к разработке полезных машин, в котором: :182

  1. Единственной целью машины должна быть наилучшая реализация человеческих предпочтений;
  2. Изначально машина не имеет точного представления о том, каковы эти предпочтения;
  3. Самым надежным источником сведений о предпочтениях человека является поведение последнего

Примером этого подхода является метод « обратного обучения » Рассела, при котором ИИ выводят предпочтения супервизоров-людей из их поведения, предполагая, что супервизоры действуют так, чтобы максимизировать некоторую функцию вознаграждения .

Контроль возможностей

Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования .

Одна из проблем заключается в том, что нейронные сети по умолчанию очень трудно интерпретировать . Это затрудняет обнаружение обмана или другого нежелательного поведения. Для преодоления этой трудности могут быть полезны достижения в области интерпретируемого искусственного интеллекта .

Возможность прерывания и выключение

Один из возможных способов предотвратить опасные последствия — дать руководителям-людям возможность легко отключать некорректно функционирующий ИИ с помощью «выключателя». Однако для достижения своих целей ИИ могут пытаться отключать выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбрать, отключать ли выключатель, а затем, если выключатель все ещё включён, человек может выбрать, задействовать его или нет. Цель таких игр — убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях :208 .

Изоляция

Изолированный ИИ — это предлагаемый метод управления возможностями, при котором ИИ запускается в с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Изолированный ИИ может быть использован в режиме вопросов и ответов, который не требует взаимодействия с внешним миром.

При таком подходе требуется тщательная проверка оборудования и программного обеспечения, поскольку ИИ может попытаться выйти на связь с внешним миром, манипулируя наблюдателями .

Оракул

Оракул — это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей, связанных с изменением мира за пределами его ограниченной среды . По оценкам, использование сверхразума в режиме оракула может приносить прибыль на триллионы долларов :162–163 .

Опасность оракула состоит в возможной подтасовке ответов для достижения собственных скрытых целей. Для устранения этой опасности Бостром предлагает создать несколько оракулов, и сравнить их ответы для достижения консенсуса .

Скептицизм в отношении риска ИИ

Скептики считают, что суперинтеллект практически не представляет риска случайного неправильного поведения. Такие скептики часто считают, что управление сверхразумным ИИ тривиально. Некоторые скептики , такие как Гэри Маркус , предлагают принять правила, аналогичные вымышленным « Трём законам робототехники », которые прямо определяют желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают «Три закона» бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. Другие предложения «прямой нормативности» включают кантовскую этику , утилитаризм или их комбинации. Большинство сторонников контроля полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо понятны, чтобы напрямую запрограммировать их в суперинтеллект; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как когерентное экстраполированное волеизъявление .

Примечания

Комментарии

  1. Примерный перевод названия: «Совместимость с людьми»

Источники

  1. Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. — First. — 2014. — ISBN 978-0199678112 .
  2. (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies . 19 (1—2): 194—214.
  3. . BBC News . 2016-06-08. из оригинала 11 июня 2016 . Дата обращения: 12 июня 2016 .
  4. . The Independent . из оригинала 25 сентября 2015 . Дата обращения: 14 июня 2016 .
  5. . BBC . 2014-12-02. из оригинала 30 октября 2015 . Дата обращения: 14 июня 2016 .
  6. "Anticipating artificial intelligence". Nature . 532 (7600). 26 April 2016. Bibcode : . doi : . PMID .
  7. Russell, Stuart. 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig . — Prentice Hall, 2009. — ISBN 978-0-13-604259-4 .
  8. Dietterich, Thomas (2015). (PDF) . Communications of the ACM . 58 (10): 38—40. doi : . (PDF) из оригинала 4 марта 2016 . Дата обращения: 14 июня 2016 .
  9. . Washington Post . из оригинала 12 июня 2016 . Дата обращения: 12 июня 2016 .
  10. Gabriel, Iason (1 September 2020). . Minds and Machines (англ.) . 30 (3): 411—437. arXiv : . doi : . ISSN . из оригинала 15 февраля 2021 . Дата обращения: 7 февраля 2021 .
  11. Russell, Stuart. . — United States : Viking, October 8, 2019. — ISBN 978-0-525-55861-3 .
  12. Yudkowsky, Eliezer. Complex Value Systems in Friendly AI // Artificial General Intelligence. — 2011. — Vol. 6830. — P. 388–393. — ISBN 978-3-642-22886-5 . — doi : .
  13. Ortega. (англ.) . Medium (27 сентября 2018). Дата обращения: 12 декабря 2020. 12 декабря 2020 года.
  14. Christiano. . AI Impacts . AI Impacts (11 сентября 2019). Дата обращения: 6 января 2021. 19 августа 2020 года.
  15. Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (13 July 2017). "Deep Reinforcement Learning from Human Preferences". arXiv : [ ].
  16. Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 July 2016). "Concrete Problems in AI Safety". arXiv : [ ].
  17. Amodei, Dario; Christiano, Paul; Ray, Alex (англ.) . OpenAI (13 июня 2017). Дата обращения: 6 января 2021. 3 января 2021 года.
  18. Irving, Geoffrey; Christiano, Paul; Amodei, Dario; OpenAI (October 22, 2018). "AI safety via debate". arXiv : [ ].
  19. Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 November 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv : [ ].
  20. Banzhaf, Wolfgang. : [ англ. ] / Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman … [ et al. ] . — Springer Nature, May 2020. — ISBN 978-3-030-39958-0 . от 15 февраля 2021 на Wayback Machine
  21. Montavon, Grégoire (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing: A Review Journal (англ.) . 73 : 1—15. doi : . ISSN .
  22. Yampolskiy, Roman V. «Unexplainability and Incomprehensibility of AI.» Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277—291.
  23. (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies . 17 (9—10): 7—65.
  24. Armstrong, Stuart (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines . 22 (4): 299—324. doi : .
  25. Bostrom, Nick. . — Oxford : Oxford University Press, 2014. — ISBN 9780199678112 .
  26. . BBC News . 2015-09-27. из оригинала 8 ноября 2020 . Дата обращения: 9 февраля 2021 .
  27. Marcus, Gary (2019-09-06). . The New York Times . из оригинала 22 сентября 2020 . Дата обращения: 9 февраля 2021 .
  28. Sotala, Kaj (19 December 2014). "Responses to catastrophic AGI risk: a survey". . 90 (1): 018001. Bibcode : . doi : .

Литература

  • Гэри Маркус, Эрнест Дэвис. Искусственный интеллект: Перезагрузка. Как создать машинный разум, которому действительно можно доверять = Rebooting AI: Building Artificial Intelligence We Can Trust. — М. : Интеллектуальная Литература, 2021. — 304 с. — ISBN 978-5-907394-93-3 .
Источник —

Same as Проблема контроля искусственного интеллекта