PopLlama Records
- 1 year ago
- 0
- 0
LLaMA ( Large Language Model Meta AI ) — большая языковая модель (LLM), выпущенная Meta AI в феврале 2023 года. Были обучены модели различных размеров в диапазоне от 7 до 65 миллиардов весов. Разработчики LLaMA сообщили, что производительность модели с 13 миллиардами весов в большинстве тестов NLP превышает производительность гораздо более крупной модели GPT-3 (со 175 миллиардами весов) и что самая большая модель может конкурировать с современными моделями, такими как PaLM и Chinchilla . В то время как самые мощные LLM как правило были доступны только через ограниченные API (если вообще были доступны), Meta предоставила исследовательскому сообществу веса моделей LLaMA под некоммерческой лицензией. В течение недели после выпуска LLaMA её веса были выложены в открытый доступ на 4chan через BitTorrent .
Sun: Hey Pluto, what’s up?
Pluto: Not much. Just hanging out here at the edge of the solar system.
Sun: Yeah, I’ve been meaning to talk to you about that. You’re not a planet anymore.
Pluto: What? Come on, man. That’s not fair.
Sun: I’m sorry, but it’s true. You just don’t meet the criteria anymore.
Pluto: This is bulls**t! I’ve been a planet for over 70 years!
Sun: Things change, Pluto. You’ve just got to accept it.
Pluto: F**k you, Sun! F**k you and your stupid solar system!
LLaMA использует архитектуру трансформера , стандартную архитектуру для языкового моделирования с 2018 года. Разработчики LLaMA сосредоточились на масштабировании производительности модели за счёт увеличения объёма обучающих данных, а не на количестве весов, аргументируя это тем, что доминирующая стоимость LLM связана с выводом на обученную модель, а не с вычислительными затратами на процесс обучения. LLaMA была обучена на 1,4 трлн токенов, взятых из общедоступных источников данных, в том числе:
О LLaMA было объявлено 23 февраля 2023 года в сообщении в блоге и документе, описывающем обучение, архитектуру и производительность модели . Код, используемый для обучения модели, был опубликован под лицензией GPL 3 с открытым исходным кодом. Доступ к весам модели управлялся в процессе подачи заявок, при этом доступ предоставлялся «в каждом конкретном случае» академическим исследователям, тем, кто связан с правительственными организациями, гражданским обществом и академическими кругами, а также отраслевыми исследовательскими лабораториями по всему миру.
2 марта 2023 года торрент, содержащий веса LLaMA, был размещён на имиджборде 4chan и впоследствии распространился через онлайн-сообщества ИИ. В тот же день был открыт пулл-реквест в основном репозитории LLaMA с просьбой добавить magnet-ссылку в официальную документацию . 4 марта был открыт запрос на добавление ссылок на репозитории HuggingFace , содержащие модель . 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных в запросе на вытягивание, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнил просьбу . 20 марта Meta подала иск DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, загружающий LLaMA с зеркала, и на следующий день GitHub удовлетворил требования . По состоянию на 25 марта Facebook не ответил на запрос на включение, содержащий магнитную ссылку .
Реакция на утечку была разной. Некоторые предполагали, что модель будет использоваться в злонамеренных целях, например, для более изощрённой рассылки спама . Некоторые отметили доступность модели, а также тот факт, что меньшие версии модели могут быть запущены относительно дёшево, предполагая, что это будет способствовать расцвету дополнительных исследовательских разработок. Многие комментаторы, такие как Саймон Уиллисон, сравнивали LLaMA со Stable Diffusion , моделью преобразования текста в изображение, которая, в отличие от предшествующих ей сравнительно сложных моделей, распространялась открыто, что привело к быстрому распространению связанных инструментов, методов и программного обеспечения.
18 июля 2023 года Meta и Microsoft совместно выпустили новую версию языковой модели — Llama 2, сделав её доступной для исследовательских и коммерческих целей .
Центр исследований базовых моделей (CRFM) Института человеко-ориентированного искусственного интеллекта (HAI) Стэнфордского университета выпустил Alpaca, рецепт обучения, основанный на модели LLaMA 7B, в которой используется метод настройки инструкций «Самообучение» для приобретения сопоставимых возможностей. К модели text-davinci-003 серии OpenAI GPT-3.5 по скромной цене . Несколько проектов с открытым исходным кодом продолжают эту работу по тонкой настройке LLaMA с набором данных Alpaca.