Исследовательская группа из нескольких китайских институтов и Huawei завершила постобучение модели DeepSeek V4 Pro на кластере из примерно 1000 чипов Huawei Ascend 910C. Об этом сообщает South China Morning Post со ссылкой на участников проекта.
В проекте участвовали Huawei, Shenzhen Loop Area, Шэньчжэньский кампус Харбинского политехнического университета и Шэньчжэньский институт больших данных. По данным источников, обучение провели 5 июня. Это была полнопараметрическая тренировка: модель обновлялась целиком, без сокращений архитектуры.
По информации Huawei Central, за время постобучения модель прошла более 1500 итераций обновлений без сбоев. В результате улучшились математические способности DeepSeek V4 Pro.
Постобучение — этап, на котором готовую языковую модель адаптируют к работе с инструкциями пользователя, правилами безопасности и другими операциями. Оно существенно сложнее инференса (запуска модели для ответов на запросы) и требует значительно больше вычислительных ресурсов. Китайские производители чипов ранее успешно справлялись с инференсом, но обучение оставалось для них проблемной задачей.
Для сравнения: предыдущая модель DeepSeek V3 обучалась на кластере из 2048 чипов Nvidia H800, доступ к которым для Китая сейчас ограничен. Переход на Huawei Ascend для полного цикла работы с моделью — шаг к снижению зависимости китайской ИИ-индустрии от американских чипов.
Ранее стало известно, что DeepSeek готовится к крупному раунду финансирования и планирует привлечь около 50 млрд юаней (примерно 7,4 млрд $).