Interested Article - PaLM

PaLM ( англ. Pathways Language Model ) — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI . Исследователи также создали версии модели PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба .

PaLM способен выполнять широкий спектр задач, включая логические рассуждения , арифметические рассуждения, объяснение шуток , генерацию кода и перевод текстов . В сочетании с подсказками по цепочке рассуждений PaLM достигла значительно более высокой производительности при работе с наборами данных, требующими логических выводов в несколько этапов, таких как и логические вопросы .

Впервые об этой модели было объявлено в апреле 2022 года, и она оставалась закрытой до марта 2023 года, когда Google запустил API для работы с PaLM и другими технологиями . Сообщалось, что сначала API будет доступен для ограниченного числа разработчиков, которые присоединятся к списку ожидания, прежде чем он будет открыт для широкой публики .

Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM , которая на медицинские данные и превосходит предыдущие модели в тестах где нужно отвечать на медицинские вопросы . Med-PaLM была первой моделью, которая получила проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы, она также предоставляет аргументы и может оценивать свои собственные ответы .

Google также расширил PaLM с помощью , чтобы создать PaLM-E , современную языковую модель со зрением, которую можно использовать в робототехнике . Модель может соревновательно выполнять задачи по робототехнике без необходимости переобучения или .

Обучение

PaLM предварительно обучена на высококачественном корпусе из 780 миллиардов токенов, которые включают в себя различные задачи на естественном языке и варианты использования. Этот набор данных включает отфильтрованные веб-страницы, книги, статьи в Википедии , новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub , и разговоры в социальных сетях . Она основана на наборе данных, используемом для обучения модели Google LaMDA . Часть набора данных, посвященная разговорам в социальных сетях, составляет 50 % корпуса, что помогает модели в её диалоговых возможностях .

PaLM 540B была обучена на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенными к 768 хостам, подключённым с использованием комбинации модели и , что является крупнейшей конфигурацией TPU, описанной на сегодняшний день . Это позволило провести эффективное обучение в масштабе с использованием 6 144 чипов, что стало рекордом максимальной эффективности обучения, достигнутой для LLM в этом масштабе с использованием аппаратных FLOP на 57,8 % .

Примечания

  1. Narang; Chowdhery, Aakanksha (англ.) . ai.googleblog.com . Дата обращения: 17 марта 2023. 21 марта 2023 года.
  2. Chowdhery, Aakanksha (2022). "PaLM: Scaling Language Modeling with Pathways". doi : . {{ cite journal }} : Cite journal требует |journal= ( справка )
  3. Anadiotis. . VentureBeat (12 апреля 2022). Дата обращения: 17 марта 2023. 17 марта 2023 года.
  4. Bastian. . THE DECODER (5 апреля 2022). Дата обращения: 17 марта 2023. 17 марта 2023 года.
  5. (англ.) . seekingalpha.com (12 декабря 2022). Дата обращения: 17 марта 2023. 17 марта 2023 года.
  6. Vincent. . The Verge (14 марта 2023). Дата обращения: 17 марта 2023. 21 марта 2023 года.
  7. Huffman; Woodward, Josh (англ.) . Дата обращения: 17 марта 2023. 21 марта 2023 года.
  8. Singhal, Karan (2022). "Large Language Models Encode Clinical Knowledge". doi : . {{ cite journal }} : Cite journal требует |journal= ( справка )
  9. . The Medical Futurist (17 января 2023). Дата обращения: 17 марта 2023. 17 марта 2023 года.
  10. Matias; Corrado, Greg (амер. англ.) . Google (14 марта 2023). Дата обращения: 17 марта 2023. 21 марта 2023 года.
  11. Driess, Danny (2023). "PaLM-E: An Embodied Multimodal Language Model". doi : . {{ cite journal }} : Cite journal требует |journal= ( справка )
  12. Driess; Florence, Pete (англ.) . ai.googleblog.com . Дата обращения: 17 марта 2023. 20 марта 2023 года.
  13. Benj Edwards. (амер. англ.) . Ars Technica (7 марта 2023). Дата обращения: 11 марта 2023. 11 марта 2023 года.
  14. (англ.) . www.deepmind.com . Дата обращения: 17 марта 2023. 26 марта 2023 года.
Источник —

Same as PaLM