Interested Article - LLaMA

LLaMA ( Large Language Model Meta AI ) — большая языковая модель (LLM), выпущенная Meta AI в феврале 2023 года. Были обучены модели различных размеров в диапазоне от 7 до 65 миллиардов весов. Разработчики LLaMA сообщили, что производительность модели с 13 миллиардами весов в большинстве тестов NLP превышает производительность гораздо более крупной модели GPT-3 (со 175 миллиардами весов) и что самая большая модель может конкурировать с современными моделями, такими как PaLM и Chinchilla . В то время как самые мощные LLM как правило были доступны только через ограниченные API (если вообще были доступны), Meta предоставила исследовательскому сообществу веса моделей LLaMA под некоммерческой лицензией. В течение недели после выпуска LLaMA её веса были выложены в открытый доступ на 4chan через BitTorrent .

Архитектура и обучение

LLaMA использует архитектуру трансформера , стандартную архитектуру для языкового моделирования с 2018 года. Разработчики LLaMA сосредоточились на масштабировании производительности модели за счёт увеличения объёма обучающих данных, а не на количестве весов, аргументируя это тем, что доминирующая стоимость LLM связана с выводом на обученную модель, а не с вычислительными затратами на процесс обучения. LLaMA была обучена на 1,4 трлн токенов, взятых из общедоступных источников данных, в том числе:

Выпуск и утечка

О LLaMA было объявлено 23 февраля 2023 года в сообщении в блоге и документе, описывающем обучение, архитектуру и производительность модели . Код, используемый для обучения модели, был опубликован под лицензией GPL 3 с открытым исходным кодом. Доступ к весам модели управлялся в процессе подачи заявок, при этом доступ предоставлялся «в каждом конкретном случае» академическим исследователям, тем, кто связан с правительственными организациями, гражданским обществом и академическими кругами, а также отраслевыми исследовательскими лабораториями по всему миру.

2 марта 2023 года торрент, содержащий веса LLaMA, был размещён на имиджборде 4chan и впоследствии распространился через онлайн-сообщества ИИ. В тот же день был открыт пулл-реквест в основном репозитории LLaMA с просьбой добавить magnet-ссылку в официальную документацию . 4 марта был открыт запрос на добавление ссылок на репозитории HuggingFace , содержащие модель . 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных в запросе на вытягивание, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнил просьбу . 20 марта Meta подала иск DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, загружающий LLaMA с зеркала, и на следующий день GitHub удовлетворил требования . По состоянию на 25 марта Facebook не ответил на запрос на включение, содержащий магнитную ссылку .

Реакция на утечку была разной. Некоторые предполагали, что модель будет использоваться в злонамеренных целях, например, для более изощрённой рассылки спама . Некоторые отметили доступность модели, а также тот факт, что меньшие версии модели могут быть запущены относительно дёшево, предполагая, что это будет способствовать расцвету дополнительных исследовательских разработок. Многие комментаторы, такие как Саймон Уиллисон, сравнивали LLaMA со Stable Diffusion , моделью преобразования текста в изображение, которая, в отличие от предшествующих ей сравнительно сложных моделей, распространялась открыто, что привело к быстрому распространению связанных инструментов, методов и программного обеспечения.

18 июля 2023 года Meta и Microsoft совместно выпустили новую версию языковой модели — Llama 2, сделав её доступной для исследовательских и коммерческих целей .

Приложения

Центр исследований базовых моделей (CRFM) Института человеко-ориентированного искусственного интеллекта (HAI) Стэнфордского университета выпустил Alpaca, рецепт обучения, основанный на модели LLaMA 7B, в которой используется метод настройки инструкций «Самообучение» для приобретения сопоставимых возможностей. К модели text-davinci-003 серии OpenAI GPT-3.5 по скромной цене . Несколько проектов с открытым исходным кодом продолжают эту работу по тонкой настройке LLaMA с набором данных Alpaca.

Примечания

  1. — 2023.
  2. (фр.)
  3. Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv : [ ].
  4. (5 марта 2023). Дата обращения: 9 сентября 2023. Архивировано из 5 марта 2023 года.
  5. VK, Anirudh (2023-03-06). . Analytics India Magazine . из оригинала 26 марта 2023 . Дата обращения: 17 марта 2023 .
  6. (англ.) . GitHub . Дата обращения: 25 марта 2023. 10 апреля 2023 года.
  7. (англ.) . GitHub . Дата обращения: 17 марта 2023. 21 марта 2023 года.
  8. Cox, Joseph (2023-03-07). . Vice (англ.) . из оригинала 6 апреля 2023 . Дата обращения: 17 марта 2023 .
  9. OpSec Online LLC. . GitHub (21 марта 2023). Дата обращения: 25 марта 2023. 10 апреля 2023 года.
  10. . 3dnews.ru (18 июля 2023). Дата обращения: 19 июля 2023. 18 июля 2023 года.
  11. Taori; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen . Stanford Institute for Human-Centered Artificial Intelligence (13 марта 2023). 6 апреля 2023 года.
  12. Wang Y., Kordi Y., Mishra S., Liu A., , Khashabi D., (англ.) // ArXiv.org — 2022. — ISSN —
Источник —

Same as LLaMA