На протяжении весьма длительного времени чат-бот ChatGPT от OpenAI для генерации изображений на базе искусственного интеллекта использовал отдельную модель генерации изображений Dall-E, но вчера, 25 марта, разработчики компании официально заявили, что ситуация кардинально изменилась. Дело в том, что специалисты OpenAI встроили свой самый продвинутый генератор изображений в языковую модель GPT-4o, которая теперь умеет нативно генерировать графический контент без необходимости задействовать сторонние решения. Более того, американская компания решила одну из ключевых проблем любых генеративных моделей, создающих изображения.
Чаще всего ИИ испытывает огромные трудности в процессе создания изображений с текстовым контентом или логотипами. У GPT-4o, по словам представителей OpenAI, таких проблем нет — их мультимодальная модель способна довольно точно генерировать текст и следовать командам пользователя, используя обширную базу знаний и контекст из чата. Более того, новое решение предоставляет пользователям возможность изменять загруженные изображения или создавать картинки, используя загруженный контент в роли визуального вдохновения. Также посредством команд можно настраивать необходимое соотношение сторон финального изображения или цветовую палитру, а также применять прозрачный фон.
Правда, разработчики отмечают, что на генерацию изображения у LLM уходит до одной минуты — это связано с тем, что GPT-4o создаёт крайне детализированные картинки (настолько, что в СМИ решение от OpenAI даже прозвали «убийцей Photoshop»). Хорошая же новость в том, что свежая модель для генерации изображений доступна всем пользователям с тарифными планами ChatGPT Plus, Pro, Team и, что немаловажно, Free. И так как генератор теперь встроен в GPT-4o, пользоваться новинкой гораздо удобнее.
Примечательно, что все изображения, созданные при помощи новой модели, будут распространяться с метаданными C2PA, указывающими на то, что контент сгенерирован ИИ, а собственные инструменты от OpenAI позволяют быстро проверить подлинность изображения. Это важный момент, позволяющий создать определённый барьер для фильтрации возможных фейков на просторах интернета.