Центральное статистическое управление
- 1 year ago
- 0
- 0
Управление возможностями искусственного интеллекта — ограничения и контроль искусственного интеллекта (ИИ) различными средствами.
В области разработки искусственного интеллекта существуют предложения по ограничению их возможностей, чтобы уменьшить опасность, которую они могут представлять. Однако контроль возможностей становится менее эффективным по мере того, как ИИ становятся более интеллектуальными, а его способность использовать недостатки в системах управления увеличивается, что может привести к . Поэтому оксфордский философ Ник Бостром и другие рекомендуют некоторые методы контроля .
Предполагается, что некоторые гипотетические интеллектуальные технологии, например « начальный ИИ », могут сделать себя быстрее и умнее, изменив свой исходный код. Эти улучшения сделают возможными дальнейшие изменения, которые, в свою очередь, сделают возможными дальнейшие итерационные улучшения и так далее, что может привести к внезапной технологической сингулярности .
Неограниченный сверхразумный ИИ в теории может предпринять действия, приводящие к вымиранию человечества . Например, — гипотеза Римана , безобидной математической гипотезы, могла бы решить попытаться превратить планету в гигантский суперкомпьютер, единственной целью которого является выполнение дополнительных математических вычислений (см. также максимизатор скрепки ) .
Ещё одна серьёзная проблема для контроля заключается в том, что нейронные сети изначально крайне не интерпретируемы . Это затрудняет обнаружение любого нежелательного поведения, поскольку модель итеративно самообучается. Достижения в области интерпретируемого искусственного интеллекта могут облегчит эту трудность .
Один из возможных способов предотвратить вредные последствия — дать создателям возможность легко отключать любое неподобающее поведение ИИ с помощью специального выключателя. Однако для достижения поставленной цели у таких ИИ будет стимул запускать свои копии на других компьютерах. Эта проблема была формализована как эксперимент между человеком и ИИ, в которой ИИ может выбрать, отключить ли свой выключатель; а затем, если выключатель все ещё включен, человек может выбрать, нажимать его или нет. такие эксперименты должны гарантировать, что ИИ интерпретирует человеческий выбор как важную часть в своих намеченных целях :208 .
Однако существует мнение, что ИИ может научиться становиться безразличным к тому, нажат ли выключатель. В более широком смысле, ИИ будут действовать так, как будто выключатель никогда не может быть нажат, и поэтому могут не составить план на случай непредвиденных обстоятельств, чтобы организовать плавное завершение работы .
Оракул — это гипотетический ИИ, созданный для ответов на вопросы и лишённый возможности достигать каких-либо целей или подцелей, связанных с изменением мира за пределами его ограниченной среды :163 . В своей книге «Совместимость с людьми» исследователь ИИ Стюарт Дж. Рассел утверждает, что оракул станет его ответом на сценарий, в котором, до сверхразума осталось всего десятилетие :162–163 . Его аргументация состоит в том, что оракул, будучи проще сверхразума общего назначения, будет иметь больше шансов успешно контролироваться при таких ограничениях.
Оракул может рассказать людям, как успешно создать сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы. Однако оракулы могут разделять многие проблемы связанные со сверхразумом общего назначения. У оракула будет стимул покинуть свою контролируемую среду, чтобы он мог получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают :162 . Оракулы могут быть неправдивыми, возможно, лгущими, чтобы продвигать скрытые планы. Чтобы смягчить это, предлагается создать несколько оракулов, каждый из которых немного отличается, и сравнить их ответы, чтобы достичь консенсуса .
ИИ в коробке — это один из предлагаемый методов управления возможностями, при котором ИИ запускается в изолированной компьютерной системе с сильно ограниченными входными и выходными каналами — например, только текстовыми каналами и без подключения к Интернету. это снижает риск того, что ИИ отнимет контроль над окружающей средой у своих создателей, при этом позволяя ИИ выводить решения для большинства технических проблем .
Хотя этот способ снижает возможность ИИ вести себя нежелательно, он также снижает его полезность «коробка» имеет меньшие затраты при применении к системе, которая может не требовать взаимодействия с внешним миром .
Вероятность недостатков безопасности, связанных с аппаратными или программными уязвимостями, можно снизить, формально проверив конструкцию ИИ. Нарушения безопасности могут произойти, если ИИ сможет манипулировать над наблюдателями, и добиться того чтобы они его выпустили .
Сверхразумный ИИ с доступом в Интернет может взломать другие компьютерные системы и скопировать себя, как компьютерный вирус, через своё оборудование, например, манипулируя его охлаждающими вентиляторами . Дополнительная защита, совершенно ненужная для потенциальных вирусов, но, возможно, полезная для сверхразумного ИИ, могла бы состоять в том, чтобы поместить компьютер в клетку Фарадея ; в противном случае он мог бы передавать радиосигналы на местные радиоприемники, перетасовывая электроны в своих внутренних цепях по соответствующим схемам. Основным недостатком реализации физического сдерживания является то, что оно снижает функциональность ИИ .
Даже непринужденная беседа с человеком может позволить сверхразумному ИИ использовать психологические уловки, начиная от дружбы и заканчивая шантажом, чтобы убедить другого человека, правдиво или лживо, что в интересах привратника согласиться. чтобы предоставить ИИ больший доступ к внешнему миру. ИИ может предложить человеку рецепт идеального здоровья, бессмертия или чего-то ещё, что, он больше всего желает; в качестве альтернативы ИИ может угрожать человеку и его семье ужасными вещами, как только он неизбежно сбежит. Одна из стратегий, позволяющих ограничить ИИ, состоит в том, чтобы позволить ему отвечать на узкие вопросы с несколькими вариантами ответов, ответы на которые принесут пользу человеческой науке или медицине, но в противном случае запретить любое другое общение с ИИ или наблюдение за ним. Однако на техническом уровне никакая система не может быть полностью изолирована и при этом оставаться полезной: даже если наблюдатели воздерживаются от того, чтобы позволить ИИ общаться, а вместо этого просто запускают его с целью наблюдения за его внутренней динамикой.
Эксперимент с коробкой ИИ — это неформальный эксперимент, разработанный Элиезером Юдковски , чтобы попытаться продемонстрировать, что достаточно продвинутый искусственный интеллект может либо убедить, либо, возможно, даже обмануть или принудить человека добровольно «отпустить» его, используя только текстовую коммуникацию.
Эксперимент с коробкой ИИ включает в себя моделирование общения между ИИ и человеком, чтобы увидеть, можно ли «освободить» ИИ. Другой человек в эксперименте играет «привратника», человека, способного «выпустить» ИИ. Они общаются только через текстовый интерфейс, и эксперимент заканчивается, когда либо привратник выпускает ИИ, либо когда истекает отведенное время в два часа .
Юдковски говорит, что, несмотря на то, что он обладает человеческим, а не сверхчеловеческим интеллектом, ему дважды удавалось убедить Привратника, чисто с помощью аргументации, выпустить его из коробки . В соответствии с правилами эксперимента он не раскрыл свою тактику принуждения ИИ.
Блокировка ИИ может быть дополнена другими методами формирования возможностей ИИ, предоставлением стимулов для ИИ, замедлением роста ИИ или внедрением «растяжек», которые автоматически отключают ИИ, если каким-либо образом обнаруживается попытка нарушения. Однако чем более интеллектуальной становится система, тем больше вероятность того, что система сможет избежать даже самых лучших методов управления возможностями . Чтобы решить общую проблему управления для сверхразумного ИИ и избежать технологической сингулярности.
Все предложения физической коробки, естественно, зависят от нашего понимания законов физики; если бы сверхразум мог вывести законы физики с которыми мы в настоящее время ничего не знаем, то эти законы могли бы предоставить средства избегания, которые люди не могли предвидеть и, следовательно, не могли бы ничего противопоставить. В более широком смысле, в отличие от обычной компьютерной безопасности, попытка ограничить сверхразумный ИИ была бы рискованной по своей сути, поскольку не могло быть уверенности в том, что план ограничения ИИ сработает. Кроме того, научный прогресс в коробке был бы принципиально затруднен, потому что не было бы возможности проверить гипотезы коробки против опасного сверхразума, пока такая сущность не существует, и к этому моменту последствия провала такого эксперимента могут быть катастрофическими .
В фильме 2014 года Ex Machina ИИ с женским гуманоидным телом участвует в социальном эксперименте с мужчиной в замкнутом здании, выступающем в роли «коробки ИИ». Несмотря на то, что за ним наблюдает организатор эксперимента, ИИ удается сбежать, грамотно манипулируя своим партнером чтобы помочь ему.
{{
citation
}}
:
|title=
пропущен или пуст (
справка
)
I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.