6 апреля 2022, 20:04

Космонавт на коне на Луне или суп-монстр из ниток. Вышла нейросеть DALL-E 2

Она не только генерирует изображения в более высоком разрешении и быстрее, чем предшественница, но и умеет редактировать уже существующие

Новости / ИИ

Космонавт на коне на Луне или суп-монстр из ниток. Вышла нейросеть DALL-E 2

Компания OpenAI выпустила DALL-E 2 — новую версию своей нейросети DALL-E, рисующей картины по текстовому описанию. Новинка умеет создавать изображение большего размера при более низкой задержке и отличается тем, что может редактировать уже существующие картинки. Об этом сообщает The Verge.

Telegram-канал создателя Трешбокса про технологии

«Астронавт верхом на коне в фотореалистичном стиле»

Функция редактирования изображений стала одной из главных инноваций — пользователи могут загрузить картинку, указать нужную область на ней и редактировать конкретно её. К примеру, можно добавить фотографию комнаты, ограничить работу нейросети одной картиной на стене и указать DALL-E 2 заменить живопись на другую или вовсе стереть её. Новая модель воспринимает не только сами объекты, но и сопутствующие им детали — например, тени от них.

Ещё одна функция — создание похожих картинок, похожих на оригинальный вариант. Также DALL-E 2 может создавать изображение на основе двух других, используя элементы обоих из них. Отдельно стоит отметить, что результат получается в размере 1024×1024 пикселей — это существенное улучшение по сравнению с размером 256×256 пикселей у первой версии DALL-E.

«Миска супа, которая выглядит как монстр, вязаный из шерсти»

Обновлённая нейросеть основана на системе компьютерного зрения CLIP. Исследователь Прафулла Дхаривал (Prafulla Dhariwal) из OpenAI прокомментировал:

В DALL-E 1 мы просто взяли наш подход из GPT-3 и применили его для генерирования картинок: мы сжали изображение в серию слов и просто научились предсказывать, что будет дальше

Но сопоставление слов не всегда отражало именно то, что люди считали наиболее важным, а процесс предсказания ограничивал реалистичность изображений. Система CLIP была разработана для того, чтобы анализировать изображения и кратко описывать их содержание так, как это сделал бы человек. В итоге OpenAI создала unCLIP — грубо говоря, перевёрнутую версию системы, которая начинает с описания и работает над изображением. DALL-E 2 генерирует картинки с помощью диффузии.

Сейчас возможности DALL-E 2 демонстрируются только на официальном сайте — разработчики не планируют публиковать её в свободный доступ. Заинтересованные исследователи могут лишь подать заявку на дальнейшее тестирование ознакомительной версии нейросети.