Palm muting
- 1 year ago
- 0
- 0
PaLM ( англ. Pathways Language Model ) — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI . Исследователи также создали версии модели PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба .
PaLM способен выполнять широкий спектр задач, включая логические рассуждения , арифметические рассуждения, объяснение шуток , генерацию кода и перевод текстов . В сочетании с подсказками по цепочке рассуждений PaLM достигла значительно более высокой производительности при работе с наборами данных, требующими логических выводов в несколько этапов, таких как и логические вопросы .
Впервые об этой модели было объявлено в апреле 2022 года, и она оставалась закрытой до марта 2023 года, когда Google запустил API для работы с PaLM и другими технологиями . Сообщалось, что сначала API будет доступен для ограниченного числа разработчиков, которые присоединятся к списку ожидания, прежде чем он будет открыт для широкой публики .
Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM , которая на медицинские данные и превосходит предыдущие модели в тестах где нужно отвечать на медицинские вопросы . Med-PaLM была первой моделью, которая получила проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы, она также предоставляет аргументы и может оценивать свои собственные ответы .
Google также расширил PaLM с помощью , чтобы создать PaLM-E , современную языковую модель со зрением, которую можно использовать в робототехнике . Модель может соревновательно выполнять задачи по робототехнике без необходимости переобучения или .
PaLM предварительно обучена на высококачественном корпусе из 780 миллиардов токенов, которые включают в себя различные задачи на естественном языке и варианты использования. Этот набор данных включает отфильтрованные веб-страницы, книги, статьи в Википедии , новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub , и разговоры в социальных сетях . Она основана на наборе данных, используемом для обучения модели Google LaMDA . Часть набора данных, посвященная разговорам в социальных сетях, составляет 50 % корпуса, что помогает модели в её диалоговых возможностях .
PaLM 540B была обучена на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенными к 768 хостам, подключённым с использованием комбинации модели и , что является крупнейшей конфигурацией TPU, описанной на сегодняшний день . Это позволило провести эффективное обучение в масштабе с использованием 6 144 чипов, что стало рекордом максимальной эффективности обучения, достигнутой для LLM в этом масштабе с использованием аппаратных FLOP на 57,8 % .
{{
cite journal
}}
:
Cite journal требует
|journal=
(
справка
)
{{
cite journal
}}
:
Cite journal требует
|journal=
(
справка
)
{{
cite journal
}}
:
Cite journal требует
|journal=
(
справка
)