Сегодня, 6 декабря, компания Google официально объявила о запуске масштабного проекта Gemini в области генеративного искусственного интеллекта. По заявлению технологического гиганта, это крупнейшая, инновационная и самая мощная фирменная ИИ-модель из когда-либо разработанных, которая была создана полностью с нуля, чтобы быть мультимодальной. Gemini выходит на рынок как полноценный конкурент GPT-4, превосходящий ведущую ИИ-модель OpenAI в 30 из 32 распространённых видов тестирования, и поддерживает максимально широкий спектр взаимодействий с различными типами информации — технология обучена обобщать и беспрепятственно понимать, обрабатывать и комбинировать текстовый контент, изображения, аудио, видео и код, причём даже одновременно.
Gemini оптимизирована для работы на любых категориях устройств, от многосерверной среды центров обработки данных до локальных операций на смартфонах. С результатом 90% конфигурация Gemini Ultra является первой в мире языковой ИИ-моделью, превосходящей экспертов-людей в эталонной проверке MMLU (Massive Multitask Language Understanding): одном из наиболее популярных методов сравнительного анализа искусственного интеллекта с выявлением способности к решению проблем. Он основан на комбинации мировых знаний из 57 предметов и включает в себя математику, физику, историю, медицину, юриспруденцию и гуманитарные науки. Для сравнения, у GPT-4 этот показатель составляет 86,4%. Кроме того, Gemini Ultra продемонстрировала наивысший результат 59,4% в бенчмарке MMMU (Massive Multi-discipline Multimodal Understanding), охватывающем многопрофидисциплинарные задачи, требующие сложного преднамеренного рассуждения. Здесь GPT-4 теперь на втором месте с 56,8%.
Дебютная версия Gemini 1.0 представлена сразу масштабируемой и может адаптированно использоваться в трёх сценариях: Gemini Ultra — флагманская модель для экстремальных комплексных задач в ЦОДах и корпоративных сервисах, Gemini Pro — универсальная модель для большинства стандартных задач, Gemini Nano — базовая эффективная модель для внедрения в гаджеты. Одной из главных особенностей модели называется умение интеллектуально и легко извлекать ключевую информацию из сотен тысяч документов путём высокоскоростного чтения и фильтрации, что поможет добиться значительных прорывов в глобальных исследованиях.
Среди других характеристик Gemini:
- лучший естественный анализ изображений (82,3%) без помощи систем оптического распознавания символов (OCR);
- продвинутая генерация и объяснение программного кода на популярных языках Python, Java, C++ и Go;
- уменьшение задержки на 40% в поиске;
- единая мультимодальность — обработка множества входных данных с нуля в рамках одного контекстного окна, не требующая обращения к отдельным специальным моделям;
- надёжное и ускоренное развёртывание на суперкомпьютерной ИИ-инфраструктуре Google Cloud TPU v4, v5e и новом поколении v5p.
Google рассказала, что реализовала «тонко настроенную» модель Gemini Pro для Bard — она уже доступна пользователям голосового ассистента на английском языке в 170 странах и это самое существенное обновление с момента его релиза. Смартфон Pixel 8 Pro стал первым в линейке с поддержкой Gemini Nano (нужно установить декабрьский пакет функций Pixel Feature Drop). В начале 2024 года последняя модель будет добавлена в остальные продукты экосистемы, в том числе поисковая система Google, браузер Chrome, офисный помощник Duet AI и рекламная платформа, дополнительно состоится анонс передового Bard Advanced на базе Gemini Ultra. Начиная с 13 декабря, разработчики и корпоративные клиенты смогут получить Gemini Pro через Gemini API в Google AI Studio и Cloud Vertex AI, а для Android-разработчиков откроется предварительная версия Gemini Nano через AI Core для собственных приложений.
Генеральный директор Google Сундар Пичаи назвал Gemini «огромным скачком вперёд, важной вехой в развитии ИИ и началом новой эры в Google».