Принадлежащая Google британская компания DeepMind рассказала о новом направлении развития интерфейсов с ИИ, в центре которого находится «умный» курсор, работающий в паре с Gemini. Привычный указатель мыши практически не менялся больше века, но в эпоху искусственного интеллекта его роль нужно переосмыслить, считают эксперты. В современных реалиях курсор можно превратить в полноценный инструмент взаимодействия с ИИ.
В DeepMind решили вытащить ИИ с его собственного мира и сделать частью рабочего процесса пользователя. Зачастую процесс взаимодействия с любым ИИ-сервисом происходит в отдельном приложении / окне. А что если сделать так, чтобы система сама понимала контекст того, на что указывает пользователь? Например, навести курсор на изображение здания, а ИИ определит объект и построит маршрут. Аналогичным образом можно выделить рецепт и сразу узнать список необходимых ингредиентов, или навести курсор на PDF-документ и получить краткий пересказ содержимого.
В DeepMind считают, что современным ИИ-сервисам часто требуются слишком подробные текстовые подсказки. Новый подход должен существенно уменьшить количество действий и сделать взаимодействие более естественным. Это должно стать похожим на обычное человеческое общение, где используются жесты и короткие фразы. Одним из главных направлений стала технология, позволяющая ИИ понимать не только положение курсора, но и сам объект под ним. Система может превращать обычные пиксели в интерактивные элементы: даты, места, изображения, предметы или текстовые блоки. По задумке исследователей, пользователи смогут мгновенно взаимодействовать с ними.
Таким образом, в компании выделили четыре основных принципа новой системы:
- поддержка непрерывного рабочего процесса;
- взаимодействие через «покажи и расскажи»;
- использование коротких команд вместо длинных запросов;
- превращение пикселей в интерактивные объекты.
Google уже начала внедрять отдельные элементы этой концепции в свои продукты. В браузере Chrome пользователи уже могут задавать Gemini вопросы о той части веб-страницы, которая их интересует, используя курсор. Аналогичным образом эта технология появится в устройствах Googlebook. Функция под названием Magic Pointer позволит использовать возможности Gemini через касания и жесты на экране. Также Google продолжит тестировать экспериментальные концепции интерфейсов на других платформах.



