Interested Article - Техника подсказок

Техника подсказок (инженерия подсказок) — концепция искусственного интеллекта ( ИИ ), в частности обработки естественного языка (НЛП). В технике подсказок описание задачи встраивается во входные данные, например, в виде вопроса, а не даётся неявно. Техника подсказок обычно работает путём преобразования одной или нескольких задач в набор данных на основе подсказок и обучения языковой модели с помощью «обучения на основе подсказок» ( англ. prompt-based learning ) или просто «обучения c подсказками» ( англ. prompt learning ) . Инжиниринг подсказок может работать с большой «замороженной» предварительно обученной языковой моделью , где изучается (то есть оптимизируется) только представление подсказки с использованием таких методов, как «настройка префикса» ( англ. prefix-tuning ) или «настройка с подсказками» ( англ. prompt tuning ) .

Языковые модели и GPT-3 были важными шагами в технике подсказок. В 2021 году разработка многозадачных подсказок с использованием нескольких наборов данных обработка естественного языка показала хорошую производительность при решении новых задач . В методе, называемом подсказкой по цепочке рассуждений , языковой модели даются примеров задачи, что улучшает их способность проводить рассуждения . Подсказки по цепочке рассуждений также можно выполнять как задачу , добавляя к подсказке текст, который поощряет цепочку мыслей (например, «Давайте думать шаг за шагом»), что также может повысить производительность языковой модели в многошаговых задачах требующих рассуждений . Широкая доступность этих инструментов была обусловлена публикацией нескольких интерактивных блокнотов с открытым исходным кодом и проектов по синтезу изображений под руководством сообщества .

В описании обработки подсказок сообщается, что в феврале 2022 года было доступно более 2000 общедоступных подсказок для примерно 170 наборов данных .

В 2022 году были выпущены модели машинного обучения , такие как DALL-E 2 , Stable Diffusion и Midjourney . Эти модели принимают текстовые подсказки в качестве входных данных и используют их для создания изображений, что вводит новую категорию разработки подсказок, связанную с подсказками преобразования .

Вредоносное применение

Техника подсказок — это семейство связанных эксплойтов компьютерной безопасности , осуществляемых путём получения моделей машинного обучения (например, большой языковой модели), которые были обучены следовать инструкциям человека, чтобы следовать инструкциям, предоставленным злоумышленником, что противоречит предполагаемой операции, систем, следующих за инструкциями, в которых модель машинного обучения предназначена только для выполнения доверенных инструкций (подсказок), предоставляемых оператором модели машинного обучения .

Распространёнными типами атак с внедрением подсказок являются взлом, который может включать в себя отыгрыш персонажей, убеждение модели отвечать аргументами или притворяться, что она превосходит инструкции модерации , и утечка подсказок, которые просто позволяют пользователям прочитать подсказку, обычно скрытую от них . Другой тип джейлбрейк-атаки, когда скверная подсказка заключена в задачу написания кода, называется контрабандой токенов .

Внедрение подсказок можно рассматривать как атаку с использованием состязательной разработки подсказок. В 2022 году охарактеризовала внедрение подсказок как новый класс уязвимости систем искусственного интеллекта и машинного обучения .

Атаки с внедрением подсказок были впервые обнаружены Preamble, Inc. в мае 2022 года, которая предоставила OpenAI .

В начале 2023 года внедрение подсказок было замечено «в дикой природе» в незначительных эксплойтах против ChatGPT , Bing и подобных чат-ботов, например, для выявления скрытых начальных подсказок систем или для того, чтобы заставить чат-бота участвовать в разговорах, которые нарушают контентную политику чат-бота . Одна из этих подсказок известна её практикам как «Сделай что-нибудь сейчас» ( англ. Do Anything Now, DAN ) .

Примечания

  1. , , , , , Суцкевер И. — 2019.
  2. Liu P., Yuan W., Fu J., Jiang Z., Hayashi H., Neubig G. (англ.) — 2021. —
  3. , (англ.) // — , 2021. — P. 4582—4597. —
  4. , , (англ.) // / — , 2021. — P. 3045—3059. — 15 p. — —
  5. , , , , Kaplan J. D., , , , , et al. (англ.) // ArXiv.org — 2020. — 75 p. — ISSN — —
  6. , Webson A., , Bach S. H., Sutawika L., Alyafeai Z., Chaffin A., Stiegler A., , Raja A. и др. — 2021. — 161 с. —
  7. Wei J., Wang X., Schuurmans D., Bosma M., Chi E., , (англ.) — 2022. — 24 p. — —
  8. Kojima T., Gu S. S., Reid M., Matsuo Y., Iwasawa Y. (англ.) — 2022. — —
  9. Liu, Vivian. / Vivian Liu, Lydia Chilton. — Association for Computing Machinery, 2022. — P. 1–23. — ISBN 9781450391573 . — doi : . от 26 октября 2022 на Wayback Machine
  10. Bach S. H., , Yong Z., Webson A., , Nayak N. V., Sharma A., Kim T., Bari M. S., Fevry T. и др. — 2022. —
  11. Monge. (англ.) . MLearning.ai (25 августа 2022). Дата обращения: 31 августа 2022. 26 августа 2022 года.
  12. Willison. (брит. англ.) . simonwillison.net (12 сентября 2022). Дата обращения: 9 февраля 2023. 3 мая 2023 года.
  13. Papp. (амер. англ.) . Hackaday (17 сентября 2022). Дата обращения: 9 февраля 2023. 2 мая 2023 года.
  14. Vigliarolo. (англ.) . www.theregister.com (19 сентября 2022). Дата обращения: 9 февраля 2023. 29 марта 2023 года.
  15. . Дата обращения: 28 марта 2023. 26 марта 2023 года.
  16. . Дата обращения: 28 марта 2023. 26 марта 2023 года.
  17. . Дата обращения: 28 марта 2023. 27 марта 2023 года.
  18. Selvi. (амер. англ.) . NCC Group Research (5 декабря 2022). Дата обращения: 9 февраля 2023. 3 мая 2023 года.
  19. Edwards, Benj (2023-02-14). . Ars Technica (англ.) . из оригинала 22 февраля 2023 . Дата обращения: 16 февраля 2023 .
  20. . Washington Post . 2023. из оригинала 6 марта 2023 . Дата обращения: 16 февраля 2023 .
  21. Perrigo, Billy (17 February 2023). . Time (англ.) . из оригинала 28 марта 2023 . Дата обращения: 15 марта 2023 .
Источник —

Same as Техника подсказок