25 февраля 2025, 10:44

Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Ещё компания отправила в общий доступ младшую версию LLM, которую может дообучить под свои нужды любой желающий

Сегодня, 25 февраля, представители компании Яндекс официально анонсировали YandexGPT 5 — новое поколение больших языковых моделей собственного «производства», которое работает заметно лучше предыдущего и способно тягаться даже с наиболее продвинутыми иностранными решениями (включая новую модель от OpenAI). Начать стоит с того, что компания опубликовала в свободном доступе (впервые за три года) младшую версию LLM в pretrain-исполнении под названием YandexGPT 5 Lite Pretrain, которая будет интересна разработчикам, желающим взять базовую версию большой языковой модели, а затем дополнительно обучить её под свои нужды и задачи.

Подписывайтесь на Telegram-канал про технологии

Данная версия языковой модели имеет 8 миллиардов параметров с длиной контекста в 32 тысячи токенов — её обучали в два этапа. На первом LLM тренировали на русскоязычных и англоязычных текстах с суммарным объёмом 15 триллионов токенов, после чего в рамках второго этапа специалисты обучали модель на высококачественных данных объёмом 320 миллиардов токенов. В конечном итоге базовая модель способна наравне конкурировать со многими SOTA-моделями (State of the Art или лучшая модель на данный момент в какой-то из областей) в pretrain-версии, а в определённых сценариях даже обходить их.

Старшая версия большой языковой модели YandexGPT 5 Pro уже используется в рамках чата с голосовым помощником Алиса, плюс доступ к LLM нового поколения можно получить в Yandex Cloud посредством API. Примечательно, что для обучения данной модели разработчики из Яндекса задействовали веса общедоступной модели Qwen-2.5-32B-base, что в паре с обычным циклом обучения предоставило команде компании возможность сократить длительность экспериментов по «прокачке» собственной LLM до 20 раз. Кроме того, разработчики сэкономили немало ресурсов, которые обычно уходят на подбор оптимальных параметров конфигурации обучения модели.

Соответственно, исходя из результатов внутреннего тестирования компании (речь идёт про слепое попарное тестирование больших языковых моделей), YandexGPT 5 Pro в 67% обходит YandexGPT 4 Pro и совершенно не уступает GPT-4o от OpenAI.

Кроме того, в традиционных бенчмарках для LLM решение Яндекса не только не уступает лидерам рынка, но и во многих сценариях оставляет их позади.

К примеру, в математическом тесте (ya)GSM8K модель Яндекса набрала на 1,6 балла больше, чем GPT-4o, а в (ya)SchoolMath 10-11 набрала ровно столько же баллов. Это, безусловно, огромное достижение.

Источник

···

Последнее изменение:
25 февраля 2025, 10:47

columbus Автор Фанат Хогвартса Ryzen 5 1600 AF / RTX 3060 Ti

ИИ

17,7K участников

Вступить

5 комментариев по лайкам по дате

Оставьте комментарий...

ghetto-snob 1 год

Спасибо конечно, но я продолжу пользоваться мистраль, или дикпиком.
Алиса невероятно тупая, увы, даже в про подписке она меня переспрашивает про будильник и музыку, это какой-то эпик кринж.

Не понимаю каким местом они там тестируют и обновляют ей модель, но улучшений никаких я не заметил.

Ответить

BoobyBoo85 1 год

Мистраль и Дипсик не спрашивают про будильник и музыку, потому что у них нет интеграции с будильником и музыкой :)

Ответить

3 ответа