Лобовое сопротивление
- 1 year ago
- 0
- 0
Generative pre-trained transformer или GPT ( рус. Генеративный предобученный трансформер ) — это тип нейронных языковых моделей , впервые представленных компанией OpenAI [ источник не указан 57 дней ] , которые обучаются на больших наборах текстовых данных, чтобы генерировать текст , схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка ( NLP ), таких как генерация текста , машинный перевод и классификация текста .
11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный Предобученный Трансформер (GPT) . До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей . Кроме того, многие языки (такие как суахили или гаитянский креольский ) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках . Предложенный OpenAI подход обучения на основе модели GPT включает два этапа:
Использование | Архитектура | Количество параметров | Тренировочные данные | Дата выпуска | |
---|---|---|---|---|---|
Общее | 12-уровневый декодер- трансформер с 12 головками (без кодировщика), за которым следует . | 117 миллионов | BookCorpus : 4,5 ГБ текста из 7000 неизданных книг разных жанров. | 11 июня 2018 | |
Общее | GPT-1, но с изменённой | .1.5 миллиардов ( ▲ 1273000 %) | WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц за которые проголосовали на Reddit . | 14 февраля 2019 | |
GPT-3 | Общее | GPT-2, но с изменениями для возможности масштабирования в большем объёме. | 175 миллиардов ( ▲ 11566 %) | 570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также BookCorpus . | 11 июня 2020 |
(GPT-3.5) | Разговор | GPT-3, обратной связи с человеком . | для выполнения инструкций с использованием175 миллиардов | Неизвестно | 4 марта 2022 |
ChatGPT | Диалог | Использует и обучением с учителем , так и с RLHF (Обучение с подкреплением на основе отзывов людей). | (подход к ) как сНеизвестно | Неизвестно | 30 ноября 2022 |
GPT-4 | Общее | Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются. | Неизвестно | Неизвестно | 14 марта 2023 |
После того, как OpenAI выпустила свою модель GPT-3, выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом , и её модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.
Использование | Архитектура | Количество параметров | Тренировочные данные | Дата выпуска | Разработчик | |
---|---|---|---|---|---|---|
GPT-J | Общее | Параллельный декодер | 6 миллиардов | Набор данных объёмом 825 ГБ с открытым исходным кодом (называемый «кучей») | 9 июня 2021 | |
BLOOM | Общее | Трансформер только для декодера | 176 миллиардов | Данные 46 естественных языков и 13 языков программирования ; Всего 1,6 терабайт предварительно обработанного текста. | 6 июля 2022 | Hugging Face |
Биомедицинский контент | Как в Medium (24 слоев, 16 головок) | 347 миллионов | Непустые записи из PubMed (всего 1,5 миллиона). | 24 сентября 2022 | Microsoft |
{{
cite journal
}}
:
Cite journal требует
|journal=
(
справка
)
{{
cite journal
}}
: Википедия:Обслуживание CS1 (множественные имена: authors list) (
ссылка
)