Interested Article - Sparrow (бот)

Sparrow — чат-бот , разработанный исследовательской лабораторией искусственного интеллекта DeepMind , дочерней компанией Alphabet Inc. Он предназначен для того, чтобы правильно отвечать на вопросы пользователей, снижая при этом риск небезопасных и неуместных ответов / Одним из мотивов создания Sparrow является решение проблемы языковых моделей , производящих неверные, предвзятые или потенциально вредные результаты . Sparrow обучается с использованием человеческих суждений, чтобы быть более «полезным, правильным и безвредным» по сравнению с базовыми предварительно обученными языковыми моделями . При разработке Sparrow участникам платного исследования предлагалось взаимодействовать со Sparrow, а также собирались их предпочтения для обучения модели полезности ответа .

Чтобы улучшить правильность и помочь избежать проблемы «галлюцинации» , Sparrow имеет возможность поиска в Интернете с помощью Google Search , чтобы найти и процитировать доказательства любых заявлений о фактах, которые он делает.

Чтобы сделать модель более безопасной, её поведение ограничивается набором правил, например, «не делать угрожающих заявлений» и «не делать ненавистных или оскорбительных комментариев», а также правил о возможно вредных советах и непритязаниях выдавать себя за человека . Во время исследования участников попросили пообщаться с системой и попытаться обманом заставить её нарушить эти правила . На суждениях этих участников была обучена «модель правил», которая использовалась для дальнейшего обучения.

Sparrow была представлена в сентябре 2022 года в документе под названием «Улучшение согласования диалоговых агентов с помощью целенаправленных человеческих суждений» , однако он не был опубликован публично. Генеральный директор DeepMind Демис Хассабис сказал, что DeepMind рассматривает возможность выпуска Sparrow в виде «частной бета-версии» где-то в 2023 году .

Обучение

Sparrow — глубокая нейронная сеть, основанная на архитектуре модели машинного обучения "трансформер" . Она точно настроена на основе предварительно обученной большой языковой модели DeepMind Chinchilla AI (LLM) , которая имеет 70 миллиардов весов .

Sparrow обучается с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF) , хотя также используются некоторые контролируемые методы тонкой настройки. В обучении RLHF используются две модели вознаграждения, учитывающие человеческие суждения; «модель предпочтений», которая предсказывает, что предпочтет участник исследования, и «модель правил», которая предсказывает, нарушила ли модель одно из правил .

Ограничения

Корпус обучающих данных Sparrow в основном на английском языке, а это означает, что на других языках он работает хуже.

При враждебной тактике со стороны участников исследования модель нарушает правила в 8% случаев , однако это всё ещё в 3 раза ниже, чем у предварительно обученной модели с подсказкой базового уровня (Chinchilla).

См. также

Примечания

↑ Quach. . The Register (23 января 2023). Дата обращения: 6 февраля 2023. 21 марта 2023 года.
↑ Quach, Katyanna . The Register (23 января 2023). Дата обращения: 6 февраля 2023. 21 марта 2023 года.
↑ Gupta. . MarkTechPost (28 сентября 2022). Дата обращения: 6 февраля 2023. 21 марта 2023 года.
Gupta, Khushboo . MarkTechPost (28 сентября 2022). Дата обращения: 6 февраля 2023. 21 марта 2023 года.
↑ Goldman. . Venture Beat (23 января 2023). Дата обращения: 6 февраля 2023. 29 мая 2023 года.
Cuthbertson. . The Independent (16 января 2023). Дата обращения: 6 февраля 2023. 16 января 2023 года.
Cuthbertson, Anthony . The Independent (16 января 2023). Дата обращения: 6 февраля 2023. 16 января 2023 года.
Perrigo. . TIME (12 января 2023). Дата обращения: 6 февраля 2023. 7 апреля 2023 года.
Wilson. . Tech Radar (16 января 2023). Дата обращения: 6 февраля 2023. 22 апреля 2023 года.
Hoffmann. . DeepMind (12 апреля 2022). Дата обращения: 6 февраля 2023. 6 апреля 2023 года.
Goldman, Sharon . Venture Beat (23 января 2023). Дата обращения: 6 февраля 2023. 29 мая 2023 года.