The Dallas Morning News
- 1 year ago
- 0
- 0
DALL-E — нейронная сеть НКО OpenAI , созданная при финансовой поддержке Microsoft , способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке . По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей .
Нейронная сеть DALL-E начала разрабатываться в 2018 году. В 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта . Первая версия нейросети была представлена сообществу 5 января 2021 года .
6 апреля 2022 года была анонсирована DALL-E 2 . В новой версии программы были доработаны алгоритмы, позволяющие создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки во время работы приложения . Пример работы нейронной сети продемонстрировал журнал Cosmopolitan , который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала .
21 сентября 2023 года OpenAI представила DALL-E 3, которая будет интегрирована с ChatGPT и сможет лучше понимать запросы и генерировать более детальные изображения. Версия станет доступна в октябре в рамках платных подписок ChatGPT Plus и Enterprise через API .
DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных и генерации на их основании изображения . Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер . Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет .
Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения . Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием .
DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях . Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах» . Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — , NBC , Nature , Wired , CNN и BBC . Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена , созданный для оценки интеллекта людей .
DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана . Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет» . BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать» .