21 мая 2024, 22:27

Microsoft представила нейросеть Phi-3-vision: работает с текстом и картинками, лучше всего подходит для смартфонов

Это уже четвёртая языковая модель в семействе Phi-3 и первая модель, объединяющая текст и изображения

Microsoft анонсировала новую нейросеть семейства небольших языковых моделей Phi-3, которая может работать с изображениями. Phi-3-vision — первая мультимодальная модель, объединяющая текст и изображения, она способна анализировать картинки, извлекать текст и другую информацию.

Подписывайтесь на наш Телеграм

Microsoft утверждает, что Phi-3-vision лучше всего использовать на мобильных устройствах. Нейросеть обладает 4,2 млрд параметров и на текущий момент доступна в предварительной версии. Количество параметров влияет на то, как языковая модель может выполнять общие задачи визуального мышления. Например, что касается вопросов с диаграммами, графиками или изображениями. По этому показателю Phi-3-vision сильно уступает другим ИИ-моделям, ориентированным на работу с картинками, — DALL-E и Stable Diffusion. В отличие от этих моделей, Phi-3-vision не генерирует изображения, но понимает, что на них изображено, и умеет анализировать их. С другой стороны Phi-3-vision превосходит более крупные модели, такие как Claude-3 Haiku и Gemini 1.0 Pro V, при выполнении общих задач визуального мышления, оптического распознавания символов, чтения таблиц и диаграмм.

Microsoft анонсировала Phi-3 в апреле этого года. На сегодняшний день в этом семействе языковых моделей, помимо vision, насчитывается ещё три нейросети: Phi-3-mini, Phi-3-small и Phi-3-medium. Их рационально использовать на портативных устройствах, таких как смартфоны и ноутбуки, без необходимости занимать слишком много памяти. Они доступны в Microsoft Azure.

Telegram-канал создателя Трешбокса про технологии

···

Последнее изменение:
21 мая 2024, 22:27

https://tbx.su/jBN