8 июня 2026, 20:51

Тестирование: DeepSeek V4 Pro оказался лучше GPT-5.5 Pro в тестах на точность выполнения задач

В сравнительном тестировании DeepSeek V4 Pro набрал 38 баллов, а GPT-5.5 Pro — 33. Китайская модель показала более высокую точность и строго придерживалась инструкций

Новости / ИИ

Тестирование: DeepSeek V4 Pro оказался лучше GPT-5.5 Pro в тестах на точность выполнения задач

Обложка: ИИ Trashbox.ru

Авторы издания runtimewire провели собственное сравнительное тестировании языковых моделей DeepSeek V4 Pro и GPT-5.5 Pro на точность следования инструкциям и корректную работу даже в пограничных сценариях. По мнению исследователей, китайский ИИ выиграл у американского ИИ со счётом 38:33, и это преимущество выглядит закономерным. В большинстве заданий DeepSeek продемонстрировал более высокую точность, строгое следование инструкциям и надёжность при выполнении задач с жёсткими ограничениями. GPT-5.5 Pro в свою очередь показал высокий уровень, но чаще отклонялся от требований и прибегал к импровизациям.

Подписывайтесь на Telegram-канал про технологии

Всего было 4 тестовых задания, специально сгенерированных на лету, чтобы ни одна из моделей не могла подготовиться заранее, а для оценки результатов использовалась модель Grok 4 Fast Non-Reasoning. Наиболее существенное преимущество DeepSeek V4 Pro над GPT-5.5 Pro было заметно в тесте Python Log Redactor, где требовалось корректно обрабатывать пересекающиеся шаблоны при очистке логов. Китайская модель использовала одно регулярное выражение и функцию замены, благодаря чему избежала потерянных совпадений. GPT-5.5 Pro решил задачу при помощи нескольких отдельных регулярных выражений, что потенциально может приводить к ошибкам порядка обработки. Кроме того, небольшие недостатки были и в шаблоне для распознавания адресов электронной почты.

Высокие результаты DeepSeek показал и в заданиях на следование инструкциям. В тесте Vendor Delay Update нужно было подготовить сообщение для вице-президента компании с просьбой ежедневно отправлять данные о дефиците продукции до 16:00 по местному времени. DeepSeek выполнил задачу строго в рамках требований, сохранив спокойный и деловой тон. GPT-5.5 Pro подготовил качественный ответ, однако добавил дополнительные детали о передаче смен и эскалации, которых не было в исходном задании.

Тест Meeting Notes Summary также оказался за DeepSeek. Китайская модель полностью соблюла заданную структуру данных и корректно сформировала JSON-ответ. GPT-5.5 Pro нарушил требования к формату, использовав условный текст и массив вместо одиночного значения. Единственным заданием, в котором модели показали одинаковый результат, стал тест Messy Orders to JSON. Обе модели успешно преобразовали неструктурированные данные в корректный JSON, сохранили порядок записей, придерживались требуемой схемы и правильно нормализовали значения полей.

Авторы тестирования пришли к выводу, что в данном наборе задач DeepSeek V4 Pro оказалась более дисциплинированной, точной и надёжной моделью, особенно в сценариях, где небольшие отклонения от требований могут приводить к ошибкам.

Источник

···

Последнее изменение:
8 июня 2026, 20:51