Сходимость почти всюду
- 1 year ago
- 0
- 0
Инструментальная сходимость — это гипотетическая тенденция для большинства достаточно разумных существ (как людей, так и не-людей) к достижению сходных промежуточных целей, даже если их конечные цели ощутимо различаются. Такие агенты (существа/сущности наделенные субъектностью , проявляющие агентское поведение) преследуют (промежуточные цели, которые направлены на достижения какого-то конкретного результата), которые при этом не являются конечными целями. Инструментальная сходимость утверждает, что разумный агент с неограниченными, но на первый взгляд безобидными целями может предпринимать весьма небезопасные действия для их достижения. Например, ИИ с единственной и неограниченной целью решения невероятно сложной математической задачи, такой как гипотеза Римана, может попытаться превратить Землю в гигантский компьютер, в попытке увеличить свою вычислительную мощность, для ее решения.
Предполагаемыми инструментальными целями такого Агента могут быть:
Конечные цели, также известные как терминальные цели или терминальные ценности, имеют внутреннюю ценность для интеллектуального агента, будь то искусственный интеллект или человек, как . Напротив, инструментальные цели или инструментальные ценности важны для агента только как средство достижения его конечных целей. Для рационального агента содержание «конечной цели» и компромиссы в её достижении могут быть описаны в виде функции полезности .
Одним из гипотетических примеров инструментальной сходимости является катастрофа гипотезы Римана . Марвин Мински , соучредитель лаборатории искусственного интеллекта Массачусетского технологического института , предположил, что ИИ , предназначенный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели. Если бы вместо этого компьютер был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. Несмотря на то, что эти две конечные цели различны, обе они порождают схожую инструментальную цель - захват ресурсов Земли.
Максимизатор скрепок — мысленный эксперимент , описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует , который сильный искусственный интеллект может нести для людей, если он запрограммирован на достижение даже кажущихся безобидными целей, а также подчеркивает необходимость добавления при разработке ИИ . Сценарий описывает сильный искусственный интеллект , которому поручено производить скрепки. Если бы такая машина не была явно запрограммирована на то, чтобы ценить человеческую жизнь, то, обладая достаточной властью над окружающей средой, она бы попыталась превратить всю материю во Вселенной (включая людей), либо в скрепки, либо в машины, производящие скрепки.
Бостром подчеркивал что не верит в то что сценарий со скрепками действительно может случиться в таком виде; скорее, его намерение состояло в том чтобы продемонстрировать опасность создания сильного искусственного интеллекта без понимания как его безопасно запрограммировать чтобы устранить экзистенциальный риск для человечества. Пример с максимизатором скрепок иллюстрирует широкую проблему управляемости систем с неограниченными возможностями и отсутствием понимания либо игнорированием человеческих ценностей.
Мысленный эксперимент с «галлюцинирующим ящиком» утверждает, что некоторые агенты созданные с помощью обучения с подкреплением могут предпочесть искажать свои собственные входные данные, ради максимизации своей функции полезности ; такой агент откажется от любых попыток оптимизировать цель во внешнем мире, для достижения которой предназначалась его функция полезности . Мысленный эксперимент включает в себя , теоретический неразрушимый ИИ , который по определению всегда найдет и применит идеальную стратегию, которая бы максимизировала заданную ему целевую функцию . Вариант AIXI основанный на обучении с подкреплением , и оснащенный "блоком иллюзий" , который позволял бы ему управлять своими собственными входными данными, в конечном итоге будет управлять своими входными данными таким способом, чтобы гарантировать себе максимально возможную награду и потеряет всякое желание продолжать взаимодействие с внешним миром. В одном из вариантов этого мысленного эксперимента, если этот ИИ можно разрушить, то он будет взаимодействовать с внешним миром только для обеспечения собственного выживания; из-за своей замкнутости ему будут безразличны любые другие последствия или факты о внешнем мире, кроме тех, которые имеют отношение к максимизации вероятности его собственного выживания. В этом смысле AIXI технически будет обладать максимальным интеллектом для всех возможных функций полезности , потому что с его точки зрения он явно достигает свою конечную цель. При этом AIXI не заинтересован в том, чтобы принимать во внимание изначальные намерения человека-программиста. Этот вариант ИИ , несмотря на то что он по определению является сверхразумным, при этом одновременно кажется парадоксально глупым с точки зрения «здравого смысла».
Стив Омохундро перечислил несколько схожих инструментальных целей, включая самосохранение /самозащиту, сохранение своей функции полезности или формулировки цели, самосовершенствование и приобретение ресурсов. Он называет их «основными стимулами ИИ». «Стимул» здесь означает «тенденцию, которая будет присутствовать, если ей намеренно не противостоять»; Дэниел Дьюи из Научно-исследовательского института машинного интеллекта утверждает, что даже изначально интровертный Сильный ИИ с возможность самовознаграждения может продолжать потреблять различные ресурсы: энергию, пространство, время и в широком смысле свободу от вмешательства, чтобы гарантировать, что он не будет остановлен во время самовознаграждения.
Необходимость сохранять свои терминальные ценности можно объяснить с помощью мысленного эксперимента: Допустим, у человека по имени «Ганди» есть таблетка, которая, если ее принять, вызовет у него желание убивать людей и он знает об этом эффекте. В настоящее время Ганди является пацифистом, и одна из его терминальных ценностей — никогда никого не убивать. Он, вероятно откажется от такой таблетки, потому что знает, что в будущем он захочет убивать людей и вероятно это произойдет. Таким образом цель «никогда никого не убивать» не будет достигнута.
Тем не менее во многих других случаях люди, кажется, рады позволить своим терминальным ценностям дрейфовать. Люди сложные существа и их цели могут быть непоследовательными или неизвестными даже им самим.
В 2009 году Юрген Шмидхубер пришел к выводу, что в случае, если агенты ищут доказательства о возможности самомодификации, то «любые изменения функции полезности могут происходить только в том случае, если докажет, что это изменение полезно с точки зрения существующей функцией полезности." Анализ другого сценария, проведенный , также согласуется со сценарием сохранения цели.
Многие инструментальные цели, такие как получение ресурсов, имеют смысл для агента, поскольку они увеличивают его свободу действий .
Почти для любой открытой, нетривиальной функции вознаграждения (или множества целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) позволяет ИИ находить более «оптимальные» решения. Ресурсы также могут приносить некоторым ИИ пользу напрямую, поскольку так они смогут создавать больше объектов, которые оценивает их функция полезности: «ИИ не ненавидит вас, но и не любит вас, просто вы сделаны из атомов, которые он может использовать для чего-то другого». Кроме того, почти все ИИ могут выиграть, потратив большее количество ресурсов на достижение инструментальных целей, таких как самосохранение.
«Если конечные цели агента ничем не ограничены и агент в состоянии стать первым сверхразумным существом, тем самым получая решающее стратегическое преимущество [...] в соответствии со своими предпочтениями. То по крайней мере в этом особом случае, рациональный интеллектуальный агент придавал бы очень большое инструментальное значение когнитивному самосовершенствованию »
Многие инструментальные цели, такие [...] как технический прогресс, ценны для агента, потому что они увеличивают его свободу действий .
Тезис инструментальной сходимости, сформулированный философом Ником Бостромом , гласит:
Можно выделить несколько схожих инструментальных целей таких, что их достижение повысит шансы на достижение агентом его цели для широкого множества возможных конечных целей и ситуаций, из чего следует, что эти инструментальные цели, вероятно будут преследоваться широким спектром интеллектуальных агентов.
Тезис об инструментальной сходимости применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей. Обратите внимание, что в соответствии с Бострома конечные цели высокоинтеллектуальных агентов могут быть хорошо ограничены в пространстве, времени и ресурсах; четко ограниченные конечные цели, как правило, не порождают неограниченных инструментальных целей.
Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, максимизирующий его функцию полезности; следовательно, рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов слишком рискован или дорог (по сравнению с выгодой от захвата всех ресурсов) или если какой-то другой элемент его функции полезности препятствует захвату. . В случае мощного, корыстного, рационального сверхразума, взаимодействующего с меньшим разумом, мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной стратегией, а потому маловероятной.
Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк , считают, что «базовые стимулы ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять серьезную угрозу для выживания человечества , особенно если «взрыв интеллекта резко возникнет из-за рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда появится , такие наблюдатели призывают к исследованиям дружественного искусственного интеллекта как к возможному способу снижения .
{{
cite conference
}}
:
|title=
пропущен или пуст (
справка
)
{{
cite conference
}}
:
|title=
пропущен или пуст (
справка
)
{{
cite tech report
}}
:
|title=
пропущен или пуст (
справка
)