adblock check

Языковая модель на 8 млрд параметров запускается на смартфоне: прорыв от Яндекса

Правда, стоит сразу отметить, что скорость ответов в данном случае напрямую зависит от производительности гаджета

Сегодня, 9 декабря, пресс-служба компании Яндекс сообщила, что Владимир Малиновский, исследователь из научного отдела Yandex Research, сумел создать уникальный сервис, позволяющий запускать большие языковые модели с 8 миллиардами параметров на компьютере, ноутбуке или даже смартфоне. Для этого используется интерфейс браузера (любого, не только фирменного от Яндекса) и, по словам автора проекта, новый сервис предоставит возможность корпорациям, стартапам и исследователям существенно сократить свои расходы на необходимые для работы LLM вычислительные мощности. Кроме того, свои труды автор опубликовал в открытом доступе на GitHub — пользоваться может любой желающий.

Российский разработчик объяснил, что ему удалось перенести все необходимые вычислительные процессы непосредственно на устройство, а также полностью нивелировать необходимость задействовать крайне дорогое аппаратное обеспечение вроде графических ускорителей, благодаря технологии сжатия нейросетей под названием AQLM. Эту систему команда специалистов из Yandex Research совместно с университетами ISTA и KAUST разработала летом 2024 года, а теперь посредством комбинации методов AQLM и PV-tuning разработчику удалось «уменьшить» нейросеть, позволив запускать её практически на любом современном устройстве.

Суть в том, что за счёт AQLM господин Малиновский сумел сжать размер большой языковой модели до восьми раз, попутно ускорив её, а метод PV-tuning исправил различного рода ошибки, которые обычно возникают в процессе сжатия нейросети. В результате специалисту удалось существенно уменьшить вес языковой модели Llama3.1-8B, сохранив при этом примерно 80% от изначального качества ответов.

«Программа написана на языке программирования Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера», — заявили в пресс-службе Яндекса.

Изучить возможности новой системы можно уже сейчас — при запуске платформы на устройство пользователя из облака будет загружена большая языковая модель Llama3.1-8B, сжатая в шесть раз (конечный вес нейросети около 2,5 ГБ). И после того, как LLM будет установлена, работать с нейросетью можно даже без подключения к интернету, но скорость ответов, по информации Яндекса, напрямую зависит от производительности конкретного устройства. К примеру, на ноутбуке MacBook Pro с процессором M1 скорость достигает 1,5 токена (3-4 символа) в секунду.

Россия Россия
52,6K участников
Вступить
ИИ ИИ
11,7K участников
Вступить
2 комментария по лайкам по дате
Оставьте комментарий...
Оставьте комментарий...
zakkizak250 7 месяцев
3-4 символа в секунду
Это же ппц как долго, учитывая что запущена она была на компе со средней производительностью. Короче эта нейронка еще не скоро будет востребована
columbus 7 месяцев
Фанат Хогвартса
Автор
но это гораздо дешевле, если речь идёт про научных сотрудников или исследователей без доступа к мощностям корпоративного уровня