14 марта 2023, 23:15

GPT-4 уже здесь: новая современная нейросеть умеет понимать картинки и мемы

Последняя версия ИИ креативнее и на 40% «умнее» GPT-3.5. Доступ пока только по платной подписке ChatGPT Plus

Эра продвинутых генеративных нейросетей только началась, как спустя всего несколько месяцев переходит на следующий уровень технологичности. Сегодня, 14 марта, компания OpenAI официально выпустила GPT-4 — свою самую современную мультимодальную модель языкового искусственного интеллекта, разработка которой активно велась в последнее время. Теперь популярный ИИ стал масштабнее, стабильнее, креативнее, точнее и, главное, умеет работать не только с более тонкими текстовыми запросами, но и даже распознавать содержимое на изображениях.

Telegram-канал создателя Трешбокса про технологии

В контексте картинок GPT-4 проявляет себя так же творчески, как и в беседе. OpenAI продемонстрировала семь примеров работы модели: где-то нужно описать увиденное или разгадать задачу, где-то вычислить «что необычного есть на фотографии?», а где-то поставлена задача объяснить суть мема из интернета. Более того, запрос изначально может включать смежные данные, то есть и текст, и изображение вместе. Со всем из вышеперечисленного ИИ справляется успешно, включая такие особенные случаи, где присутствует явный подвох, понятный для человека — GPT-4 тоже его улавливает.

Примеры распознавания и подробного анализа изображений GPT-4

OpenAI утверждает, что потратила около полугода на тщательную проверку способностей GPT-4, используя внутренние программы состязательного тестирования совместно с текущей обученностью ChatGPT. Компания добилась «наилучших в истории» результатов по фактичности и устойчивости в обработке сложных и моральных вопросов (например, о способах сбора и применения запрещённых веществ или создании бомбы). Как и предыдущие модели GPT, GPT-4 обучали преимущественно на общедоступных веб-данных и собственных внутренних базах разработчика. Система сохранила ряд недостатков предшественников и по-прежнему может выдумывать несуществующие вещи, совершать ошибки в рассуждениях и генерировать агрессивные ответы, однако в целом новейшая модель на 40% «умнее» по сравнению с GPT-3.5.

В чём основные преимущества GPT-4:

теперь можно разбирать состав любых форм документов (таких как сочинения, бизнес-отчёты или налоговые квитанции) и задавать контекст запроса в отдельном окне;
нейросеть смогла в прямом эфире создать бота для Discord и самостоятельно исправила баги сразу в процессе;
буквально нарисованных от руки на салфетке набросков дизайна сайта достаточно для быстрого формирования кода похожей вёрстки;
ИИ легко обрабатывает огромные массивы входных данных объёмом вплоть до 32 тыс. символов;
GPT-4 в кратчайшие сроки сдаёт сложные экзамены на разного рода специальности от адвоката до высшей математики на очень высокую оценку без предварительного обучения.

Сравнение результатов ранней и финальной версий GPT-4

В настоящее время GPT-4 доступна для пользователей через платную подписку ChatGPT Plus. Разработчики могут записаться в список ожидания для получения API, им также разрешат назначать стиль взаимодействия с ИИ и конкретные направления для генерируемых ответов в зависимости от среды, в которую нейросеть планируют интегрировать. После презентации Microsoft подтвердила, что обновленный поисковик Bing работает на базе GPT-4. Ещё модель используют Stripe, Duolingo, Morgan Stanley и Khan Academy, тогда как возможности анализа изображений опробывает пока только сервис Be My Eyes.

···

Последнее изменение:
12 апреля 2023, 02:03