Пока весь мир удивлялся способностям искусственного интеллекта DALL-E 2 рисовать картины на абсолютно любую тему, оказалось, что в этом направлении работает не только команда OpenAI, но и подразделение Google Research. Более того, команда разработчиков уже представила свой продукт и результаты его творческих порывов, которые, судя по всему, оказались даже более качественными, чем у потенциального конкурента. Дело в том, что команда компании Google, которая отвечает за экспериментальные проекты, создала весьма универсальный генератор изображений на основе текста под названием Imagen, который благодаря механизму диффузии способен создавать весьма реалистичные полотна.
Главная особенность от прямого конкурента заключается именно в диффузии — изначально, когда генератору задают текст, он формирует изображение небольшого разрешения, постепенно повышая и разрешение, и детализацию конечного «рисунка». В результате искусственному интеллекту удаётся нарисовать собаку на велосипеде, например, настолько реалистично, насколько это вообще кажется возможным. И данный метод оказался более точным в сравнении с генератором изображений, который формирует конечный кадр сверху вниз — алгоритм часто промахивался, создавая довольно странные полотна.
В теоретическом плане механизм работы диффузии очень прост — генератор изображений Imagen начинает создание рисунка с небольшого полотна с разрешением 64×64 пикселя. Далее, исходя из технического задания, искусственный интеллект определяет, что на глаз собаки нужно выделить 3 пикселя в ширину — этого, конечно, недостаточно для детализированного самовыражения, но генератор использует первое полотно как базу. Далее, когда разрешение полотна повышается, на глаз питомца выделяется уже 12 пикселей, так что система берёт свои знания, полученные при машинном обучении, и дорисовывает определённые детали, заполняя пространство.
После этого генератор ещё раз повышает разрешение полотна (в конечном итоге разрешение изображения составит 1024×1024 пикселя), выделяя под газ собаки уже 48 пикселей — система вновь оценивает ситуацию, заполняя появившиеся пиксели дополнительными деталями на основе своей базы данных. В результате получаются действительно реалистичные и довольно проработанные изображения практически любой тематики с участием животных.