adblock check

Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Ещё компания отправила в общий доступ младшую версию LLM, которую может дообучить под свои нужды любой желающий

Сегодня, 25 февраля, представители компании Яндекс официально анонсировали YandexGPT 5 — новое поколение больших языковых моделей собственного «производства», которое работает заметно лучше предыдущего и способно тягаться даже с наиболее продвинутыми иностранными решениями (включая новую модель от OpenAI). Начать стоит с того, что компания опубликовала в свободном доступе (впервые за три года) младшую версию LLM в pretrain-исполнении под названием YandexGPT 5 Lite Pretrain, которая будет интересна разработчикам, желающим взять базовую версию большой языковой модели, а затем дополнительно обучить её под свои нужды и задачи.

Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Данная версия языковой модели имеет 8 миллиардов параметров с длиной контекста в 32 тысячи токенов — её обучали в два этапа. На первом LLM тренировали на русскоязычных и англоязычных текстах с суммарным объёмом 15 триллионов токенов, после чего в рамках второго этапа специалисты обучали модель на высококачественных данных объёмом 320 миллиардов токенов. В конечном итоге базовая модель способна наравне конкурировать со многими SOTA-моделями (State of the Art или лучшая модель на данный момент в какой-то из областей) в pretrain-версии, а в определённых сценариях даже обходить их.

Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Старшая версия большой языковой модели YandexGPT 5 Pro уже используется в рамках чата с голосовым помощником Алиса, плюс доступ к LLM нового поколения можно получить в Yandex Cloud посредством API. Примечательно, что для обучения данной модели разработчики из Яндекса задействовали веса общедоступной модели Qwen-2.5-32B-base, что в паре с обычным циклом обучения предоставило команде компании возможность сократить длительность экспериментов по «прокачке» собственной LLM до 20 раз. Кроме того, разработчики сэкономили немало ресурсов, которые обычно уходят на подбор оптимальных параметров конфигурации обучения модели.

Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Соответственно, исходя из результатов внутреннего тестирования компании (речь идёт про слепое попарное тестирование больших языковых моделей), YandexGPT 5 Pro в 67% обходит YandexGPT 4 Pro и совершенно не уступает GPT-4o от OpenAI.

Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Кроме того, в традиционных бенчмарках для LLM решение Яндекса не только не уступает лидерам рынка, но и во многих сценариях оставляет их позади.

Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

К примеру, в математическом тесте (ya)GSM8K модель Яндекса набрала на 1,6 балла больше, чем GPT-4o, а в (ya)SchoolMath 10-11 набрала ровно столько же баллов. Это, безусловно, огромное достижение.

Источник

ИИ ИИ
6,7K участников
Вступить
5 комментариев по лайкам по дате
Оставьте комментарий...
Оставьте комментарий...
Спасибо конечно, но я продолжу пользоваться мистраль, или дикпиком.
Алиса невероятно тупая, увы, даже в про подписке она меня переспрашивает про будильник и музыку, это какой-то эпик кринж.

Не понимаю каким местом они там тестируют и обновляют ей модель, но улучшений никаких я не заметил.
Мистраль и Дипсик не спрашивают про будильник и музыку, потому что у них нет интеграции с будильником и музыкой :)