Interested Article - Kandinsky

Kandinsky — проект, сервис и приложение компании «Сбер» , с помощью которого пользователи могут генерировать изображения по текстовому описанию с помощью нейросетей .

История

В ноябре 2021 года были выложены в открытый доступ код и параметры модели ruDALL-E XL, содержащей 1,3 млрд параметров, а также создан сервис генерации изображений. В июне 2022 года была представлена улучшенная модель — ruDALL-E XXL с 12 млрд параметров, которую дообучили на 179 млн изображений с текстовыми описаниями. В итоге была получена первая версия сервиса Kandinsky .

23 ноября 2022 года на конференции «Путешествие в мир искусственного интеллекта» Сбер представил новую версию нейросети — Kandinsky 2.0. От предыдущей она отличается своей мультиязычностью и диффузным подходом. Вторая версия обучалась на 1 млрд пар «текст-изображение» .

В начале апреля 2023 года вышла Kandinsky 2.1. Она была обучена ещё на дополнительных 170 млн пар изображений с текстом. Нейросеть была также усовершенствована за счет новой обученной модели автоэнкодера . Помимо закодированных текстовых описаний, модель использует специальное представление изображения моделью CLIP . На начало июля 2023 года пользователи создали с помощью нейросети более 70 млн изображений. Наиболее популярными запросами были «Россия», «любовь», «аниме», «кот» и «космос» .

12 июля 2023 года Сбер выпустил версию нейросети Kandinsky 2.2. Сообщается, что теперь сервис умеет создавать фотореалистичные изображения в улучшенном качестве и изменять соотношение сторон при генерации. Нейросеть дополучили на датасете, содержащем 1,5 млрд пар «текст — изображение» . В течение суток после выхода Kandinsky 2.2 пользователи сгенерировали 1 млн изображений, лидерами по популярности стали темы «коты», «море» и «аниме» .

12 октября 2023 года в Kandinsky 2.2 появилась возможность генерировать четырёхсекундные ролики по текстовому описанию .

Описание

Согласно заявлениям разработчиков, сервис поддерживает более 100 языков, включая русский.

Сервис поддерживает четыре основных режима работы:

  • генерация изображения по текстовому описанию
  • микширование двух изображений
  • микширование изображения и текстового описания дополнения
  • стилистическая переработка изображения

Актуальная версия — Kandinsky 2.2.

См. также

Примечания

  1. . 3dnews.ru (14 июня 2022). Дата обращения: 11 июля 2023. 11 июля 2023 года.
  2. . РБК (23 ноября 2022). Дата обращения: 11 июля 2023. 11 июля 2023 года.
  3. . Lenta.ru (4 апреля 2023). Дата обращения: 11 июля 2023. 11 июля 2023 года.
  4. . Lenta.ru (4 июля 2023). Дата обращения: 12 июля 2023. 12 июля 2023 года.
  5. . Газета.ru (12 июля 2023). Дата обращения: 13 июля 2023. 13 июля 2023 года.
  6. . Lenta.ru. — новость. Дата обращения: 14 июля 2023. 14 июля 2023 года.
  7. . Российская газета (12 октября 2023). Дата обращения: 14 октября 2023. 13 октября 2023 года.

Ссылки

Источник —

Same as Kandinsky