Языковая реформа
- 1 year ago
- 0
- 0
Большая языковая модель (БЯМ) — это языковая модель , состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя . БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач .
Хотя термин большая языковая модель не имеет формального определения, он обычно относится к моделям глубокого обучения, имеющим количество параметров порядка миллиардов и более . БЯМ — это модели общего назначения, которые превосходно справляются с широким спектром задач, в отличие от обучения одной конкретной задаче (например, анализу настроений, распознаванию именованных сущностей или математическим рассуждениям) . Несмотря на обучение на простых задачах, таких как предсказание следующего слова в предложении, нейронные языковые модели с достаточным обучением и подсчётом параметров схватывают большую часть синтаксиса и семантики человеческого языка. Кроме того, большие языковые модели демонстрируют значительные общие знания о мире и способны «запоминать» большое количество фактов во время обучения .
В БЯМ чаще всего использовалась архитектура трансформера , которая с 2018 года стала стандартной техникой глубокого обучения для последовательных данных (ранее наиболее распространёнными были рекуррентные архитектуры, такие как модели с долгой кратковременной памятью ). БЯМ обучаются без учителя на неаннотированном тексте. Трансформер при генерации вывода слева направо обучается максимизировать вероятность, назначенную следующему слову в обучающих данных, с учётом предыдущего контекста. В качестве альтернативы БЯМ может использовать двунаправленный трансформер (как в примере ), который присваивает распределение вероятностей по словам, имеющим доступ как к предыдущему, так и к последующему контексту . В дополнение к задаче прогнозирования следующего слова или « » БЯМ могут быть обучены вспомогательным задачам, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений и модель должна предсказать, появятся ли они рядом в обучающем корпусе текстов .
Самые ранние БЯМ обучались на корпусах , содержащих порядка миллиардов слов. Первоначальная версия GPT была обучена в 2018 году на , состоящем из 985 миллионов слов. В том же году прошёл обучение на сочетании BookCorpus и английской Википедии, что соответствовало 3,3 миллиарда словам . С тех пор учебные корпуса для БЯМ увеличились на порядки, достигнув сотен миллиардов или триллионов токенов .
Обучение БЯМ требует больших вычислительных ресурсов. Исследование 2020 года оценило стоимость обучения модели с 1,5 миллиардами параметров (на 1-2 порядка меньше, чем уровень техники в то время) в 1,6 миллиона долларов .
Анализ 2020 года показал, что возможности нейронных языковых моделей (измеряемые функцией потерь при обучении ) плавно увеличивались по степенному закону от количества параметров, количества обучающих данных и вычислений, используемых для обучения . Эти связи были проверены в широком диапазоне значений (до семи порядков), и не наблюдалось затухания отношения на верхнем конце диапазона (в том числе для размеров сети до триллионов параметров) .
В период с 2018 по 2020 год стандартный метод использования БЯМ для конкретной задачи NLP заключался в модели с дополнительным обучением для конкретной задачи. Впоследствии обнаружилось, что более мощные БЯМ, такие как GPT-3 , могут решать задачи без дополнительного обучения с помощью методов «подсказки», в которых решаемая задача представляется модели в виде текстовой подсказки, возможно, с некоторыми текстовыми примерами подобных задач и их решений .
Тонкая настройка — это практика модификации существующей предварительно обученной языковой модели путём её обучения (под наблюдением) конкретной задаче (например, анализ настроений, распознавание именованных объектов или маркировка частей речи). Это форма . Обычно это включает введение нового набора весов, связывающих последний слой языковой модели с выходными данными последующей задачи. Исходные веса языковой модели могут быть «заморожены», так что во время обучения изучается только новый слой весов, соединяющий их с выходными данными. В качестве альтернативы исходные веса могут получать небольшие обновления (возможно, с замороженными более ранними слоями) .
В парадигме подсказок , популяризированной GPT-3 решаемая проблема формулируется с помощью текстовой подсказки, которую модель должна решить, предоставляя завершение (посредством статистического вывода ). В «подсказке с несколькими выстрелами» подсказка включает небольшое количество примеров похожих пар (задача и решение). Например, задача анализа тональности маркировки тональности рецензии на фильм можно вызвать следующим образом :
Review: This movie stinks. Sentiment: negative Review: This movie is fantastic! Sentiment:
Если модель выдаёт «положительно», значит, она правильно решила задачу. В подсказках с «нулевым выстрелом» примеры решения не предоставляются . Примером с нулевой подсказкой для задачи с ответом на вопрос может быть «Кто написал книгу „Происхождение видов “?».
Было показано, что малая производительность БЯМ позволяет достигать конкурентоспособных результатов в задачах обработки естественного языка, иногда превосходя предыдущие современные подходы к точной настройке. Примерами таких задач NLP являются перевод , ответы на вопросы , задачи с , расшифровка слов и использование нового слова в предложении . Создание и оптимизация таких подсказок называется инжинирингом подсказок и в настоящее время является активной областью исследований.
Название | Дата релиза | Разработчик | Число параметров | Размер корпуса текстов | Лицензия | Примечания |
---|---|---|---|---|---|---|
2018 | 340 миллионов | 3,3 миллиарда слов | Apache 2.0 | Ранняя и влиятельная языковая модель . | ||
2019 | OpenAI | 1,5 миллиарда | 40GB (~10 миллиардов токенов) | MIT | Универсальная модель на базе трансформенной архитектуры. | |
GPT-3 | 2020 | OpenAI | 175 миллиардов | 499 миллиардов токенов | Общедоступный веб-API | Доработанный вариант GPT-3, получивший название GPT-3.5, стал общедоступным через веб-интерфейс под названием ChatGPT в 2022 году . |
GPT-Neo | Март 2021 | 2,7 миллиарда | 825 GiB | MIT | Первый из , выпущенных EleutherAI. GPT-Neo превзошёл модель GPT-3 аналогичного размера в некоторых тестах, но был значительно хуже, чем самая большая GPT-3 . | |
GPT-J | Июнь 2021 | 6 миллиардов | 825 GiB | Apache 2.0 | Языковая модель в стиле GPT-3. | |
Claude | Декабрь 2021 | Anthropic | 52 миллиарда | 400 миллиардов токенов | Закрытая бета | Fine-tuned for desirable behavior in conversations . |
GLaM (Generalist Language Model) | Декабрь 2021 | 1,2 триллиона | 1,6 триллиона токенов | Proprietary | Модель с разреженной смесью экспертов ( англ. sparse mixture-of-experts mode ), что делает её более дорогой для обучения, но более дешёвой для выполнения логического вывода по сравнению с GPT-3. | |
LaMDA (Language Models for Dialog Applications) | Январь 2022 | 137 миллиардов | 1,56T слов | Proprietary | Специализируется на генерации ответов в разговорах. | |
Megatron-Turing NLG | Октябрь 2021 | Microsoft and Nvidia | 530 миллиардов | 338,6 миллиарда токенов | Restricted web access | Стандартная архитектура, но обученная на суперкомпьютерном кластере. |
GPT-NeoX | Февраль 2022 | 20 миллиардов | 825 GiB | Apache 2.0 | На базе архитектуры Megatron. | |
Chinchilla | Март 2022 | DeepMind | 70 миллиардов | 1,3 триллиона токенов | Proprietary | Модель с уменьшенным количеством параметров, обученная на большем количестве данных. |
PaLM (Pathways Language Model) | Апрель 2022 | 540 миллиардов | 768 миллиардов токенов | Proprietary | Направлена на достижение практических пределов масштаба модели. | |
OPT (Open Pretrained Transformer) | Май 2022 | Meta | 175 миллиардов | 180 миллиардов токенов | Некоммерческое исследование | Архитектура GPT-3 с некоторыми адаптациями Megatron. |
YaLM 100B | Июнь 2022 | Яндекс | 100 миллиардов | 300 миллиардов токенов | Apache 2.0 | 75% текста, использованного при обучении, написано на русском языке . |
BLOOM | Июль 2022 | Коллаборация под управлением Hugging Face | 175 миллиардов | 350 миллиардов токенов (1,6TB) | Responsible AI | По сути — GPT-3, но обучена многоязычному корпусу текстов (30% английский, исключая языки программирования). |
AlexaTM (Teacher Models) | Ноябрь 2022 | Amazon | 20 миллиардов | 1,3 триллиона | Общедоступный веб-API | Двунаправленная архитектура «последовательность к последовательности». |
LLaMA (Large Language Model Meta AI) | Февраль 2023 | Meta | 65 миллиардов | 1,4 триллиона | Некоммерческое исследование | Обучена на большом корпусе из 20 языков, чтобы добиться лучшей производительности с меньшим количеством параметров . |
GPT-4 | Март 2023 | OpenAI | Нет данных | Нет данных | Общедоступный веб-API | Доступна для пользователей ChatGPT Plus. Microsoft подтвердила, что в Bing Chat используется модель GPT-4 . |
StableLM | Апрель 2023 | Stability-AI | 7 миллиардов | 800 миллиардов | Исходный код: Apache 2.0 |