Interested Article - DALL-E

DALL-E — нейронная сеть НКО OpenAI , созданная при финансовой поддержке Microsoft , способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке . По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей .

История

Нейронная сеть DALL-E начала разрабатываться в 2018 году. В 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта . Первая версия нейросети была представлена сообществу 5 января 2021 года .

6 апреля 2022 года была анонсирована DALL-E 2 . В новой версии программы были доработаны алгоритмы, позволяющие создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки во время работы приложения . Пример работы нейронной сети продемонстрировал журнал Cosmopolitan , который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала .

21 сентября 2023 года OpenAI представила DALL-E 3, которая будет интегрирована с ChatGPT и сможет лучше понимать запросы и генерировать более детальные изображения. Версия станет доступна в октябре в рамках платных подписок ChatGPT Plus и Enterprise через API .

Архитектура

DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных и генерации на их основании изображения . Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер . Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет .

Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения . Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием .

Описание и характеристики

DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях . Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах» . Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — , NBC , Nature , Wired , CNN и BBC . Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена , созданный для оценки интеллекта людей .

DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана . Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет» . BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать» .

Примечания

  1. (англ.) . OpenAI (22 июня 2019). Дата обращения: 4 июля 2022. 7 ноября 2020 года.
  2. Nicolás Rivero. (англ.) . QUARTZ (11 июня 2022). Дата обращения: 4 июля 2022. 5 июля 2022 года.
  3. . vc.ru (7 апреля 2022). Дата обращения: 4 июля 2022. 5 июля 2022 года.
  4. Will Douglas Heaven. (англ.) . MIT Technology Review (5 января 2021). Дата обращения: 4 июля 2022. 5 января 2021 года.
  5. Coldewey, Devin. (англ.) . TechCrunch (5 января 2021). Дата обращения: 4 июля 2022. 6 января 2021 года.
  6. Jordan Novet. (англ.) . CNBC (18 июня 2022). Дата обращения: 4 июля 2022. 5 июля 2022 года.
  7. Gary Marcus, Ernest Davis, Scott Aaronson. (англ.) // Cornell University. — 2022. — doi : . 5 июля 2022 года.
  8. Jeremy Kahn. (англ.) . Fortune (6 апреля 2022). Дата обращения: 4 июля 2022. 10 апреля 2022 года.
  9. Hope Corrigan. (англ.) . PC Gamer (1 июля 2022). Дата обращения: 4 июля 2022. 5 июля 2022 года.
  10. Gloria Liu. (англ.) . Cosmopolitan (21 июня 2022). Дата обращения: 4 июля 2022. 3 июля 2022 года.
  11. . Коммерсантъ (29 сентября 2023). Дата обращения: 25 сентября 2023.
  12. Khari Johnson. (англ.) . VentureBeat (5 января 2021). Дата обращения: 4 июля 2022. 5 января 2021 года.
  13. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. (англ.) // OpenAI . — 2018. 5 февраля 2021 года.
  14. S. Dent. (англ.) . Engadget (6 января 2021). Дата обращения: 4 июля 2022. 27 января 2021 года.
  15. Thom Dunn. (англ.) . BoingBoing (10 февраля 2021). Дата обращения: 4 июля 2022. 22 февраля 2021 года.
  16. Mehreen Kasana. (англ.) . (1 июля 2021). Дата обращения: 4 июля 2022. 29 января 2021 года.
  17. Melanie Ehrenkranz. (англ.) . NBC (28 января 2021). Дата обращения: 4 июля 2022. 20 февраля 2021 года.
  18. Emma Stoye. (англ.) . Nature (5 февраля 2021). Дата обращения: 4 июля 2022. 8 марта 2021 года.
  19. Will Knight. (англ.) . Wired (26 января 2021). Дата обращения: 4 июля 2022. 21 февраля 2021 года.
  20. Rachel Metz. (англ.) . CNN (8 января 2021). Дата обращения: 4 июля 2022. 1 июля 2022 года.
  21. Jane Wakefield. (англ.) . BBC (6 января 2021). Дата обращения: 4 июля 2022. 2 марта 2021 года.
  22. Markowitz, Dale. (англ.) . TheNextWeb (23 февраля 2021). Дата обращения: 4 июля 2022. 23 февраля 2021 года.
  23. Sam Shead. (англ.) . CNBC (8 января 2021). Дата обращения: 4 июля 2022. 16 июля 2022 года.

Литература

  • Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8 .
Источник —

Same as DALL-E