За последние пару лет опыт взаимодействия с искусственным интеллектом очень сильно трансформировался. Года три назад прикоснуться к ИИ можно было исключительно из вкладки в браузере с открытой страницей чат-бота: задать вопрос в текстовом виде, закинуть документ на анализ и всё в таком духе.
Сейчас появились ИИ-браузеры, ИИ-агенты и даже полноценные приложения, которые встроены в операционную систему. Потому что пользователь уже не желает бегать по вкладкам браузера в поисках нужного чат-бота — он хочет нажать кнопку, дать команду и тут же получить желаемый результат. И компании это, естественно, предоставляют.
Чат-бот в браузере — тупиковая концепция
Начать стоит с того, что хотя сама идея чат-ботов в своё время создала вокруг ИИ море хайпа, благодаря чему о данной технологии узнали даже те, кто не особо интересуется передовыми разработками, развитие в этом направлении рано или поздно загнало бы лидеров индустрии в тупик.
Во-первых, формат «текстовый вопрос → текстовый ответ» просто невозможно масштабировать под сложные задачи. Безусловно, с годами компании прокачали своих чат-ботов, добавив возможность загружать графический контент, файлы, создавать шаблонные инструменты с заранее прописанными правилами, но всё это — лишь надстройка над базовым текстовым инпутом (вводом) и аутпутом (выводом).
Соответственно, когда речь заходит о каких-то многошаговых действиях, вроде автоматизации выполнения сложной задачи, работы с большим количеством файлов, интеграции в какой-то софт или базу данных, базовый чат-бот превращается из удобного помощника в непреодолимую стену трудностей. Ведь для выполнения нескольких шагов пользователю нужно копировать команды и данные, вставлять их в инпут чат-бота, надеясь при этом, что контекст не будет утерян, а история диалога сохранилась в памяти системы.
Это не очень эффективно и сводит на нет основное преимущество ИИ — возможность сэкономить деньги и время на выполнении рутинных задач. Собственно, в OpenAI и Google это тоже прекрасно понимали — ИИ-агенты появились не просто так, но об этом чуть позже.
Во-вторых, браузер, в котором «живёт» чат-бот, во многом ограничивает возможности искусственного интеллекта, так как у него нет полного доступа к операционной системе ПК или смартфона. То есть чат-бот не сможет управлять файлами в памяти системы, не сможет запускать и работать с программами, взаимодействовать с фоновыми процессами и всё в таком духе. Из-за этого ИИ, по сути, остаётся просто советчиком, который подходит разве что для «найди ошибку в моём коде», «в каком году построили Эйфелеву башню» и «какой фильм посмотреть на тему космоса». Это тоже полезно, но, конечно, юзеры хотят большего — да и компании тоже.
И, в-третьих, основная проблема чат-ботов в интерфейсе. Всё дело в том, что это именно чат — линейный поток сообщений в хронологической последовательности. Он плохо подходит для работы с большими проектами, в которых много данных, так как скроллить чат вверх-вниз долго и неудобно, да и выполнять много задач в параллельном режиме здесь тоже крайне некомфортно.
Потому что изначально, когда чат-ботов только создавали, никто, видимо, не предполагал, что ИИ в наши дни будет настолько развит и сможет делать больше, чем просто отвечать на вопросы. И так как чат-бота трансформировать в нечто универсальное пока что не удалось, компании решили пойти в сторону других форматов — придумали агентов, IDE-интеграции, голосовых ассистентов на базе ИИ, прослойки для ОС и многое другое. За всем этим — будущее.
ИИ становится слоем между человеком и ОС
Началась планомерная трансформация искусственного интеллекта, когда чат-боты в каком-то смысле добрались до своего предела возможностей, с бума ИИ-агентов — систем, которые способны выполнять какие-то действия по требованию пользователя. Например, вы можете написать Claude Code «выполни рефакторинг моего кода из файла main.js и отправь pull-request на GitHub», после чего система на базе передовых алгоритмов самостоятельно найдёт нужный код, проанализирует его, улучшит и оптимизирует, а затем отправит финальный вариант на GitHub, чтобы его проверил человек-программист и направил в продакшн.
Звучит уже куда интереснее, чем копировать и вставлять куски кода в строку диалога с чат-ботом, чтобы затем забирать результат и отправлять его в ручном режиме, правда? Но это, фактически, ИИ-агенты в зародыше, потому что на деле уже сейчас есть куда более продвинутые реализации. OpenAI, например, пошла куда дальше конкурентов — её ИИ-агент Codex недавно получил экспериментальную функцию под названием Chronicle, которая, условно говоря, делает «снимки» экрана пользователя в процессе работы для расширения памяти и удержания контекста (что-то вроде Recall от Microsoft в Windows 11). Это ещё больше упрощает работу — теперь можно не писать длинный промпт, а просто спросить: «Почему это не работает?».
Система проанализирует то, что происходит или происходило у вас на экране, изучит диалоги в рабочих чатах, посмотрит, что находилось в окне редактора кода, после чего выдаст совет или готовое решение. То есть пользователю не нужно конкретно описывать проблему или баг — ИИ во всём разберётся сам. В этом сценарии ИИ-агент трансформируется из обычного «программиста» в некого ментора, понимающего общий контекст ситуации и способного помочь даже без сложных промптов с длинным описанием, скриншотов или файлов. Лет десять назад нечто подобное можно было увидеть разве что в фильмах — например, в голову приходит Джарвис из «Железного человека», который помогал Тони Старку проектировать костюм, принимая команды на естественном языке.
Правда, в OpenAI пока что относятся к этому инструменту с особой осторожностью и в публичный доступ отдают лишь по дорогой подписке, да и то не всем. Во-первых, это повышает риски промпт-инъекции — способа взлома, когда ИИ вводят в заблуждение ложными командами, вынуждая выдавать конфиденциальную информацию. Во-вторых, это очень дорого — токены лимитов съедаются крайне шустро, потому что скриншоты экрана пользователя отправляются на сервера OpenAI для OCR-анализа и составления краткого пересказа информации, так что массово этот инструмент запустить пока что тяжело. Впрочем, это ещё не предел доступных в наши дни технологий, потому что гиганты рынка не хотят ограничиваться лишь программированием — они хотят попасть внутрь ОС.
К примеру, у Google есть довольно простая на первый взгляд интеграция Gemini в macOS — компания выпустила фирменное приложение, позволяющее при помощи шортката запускать аналог Spotlight (командная строка для запуска софта, поиска файлов и так далее).
Благодаря этому пользователь может быстро задавать вопросы Gemini, транслировать окно для визуального поиска, генерировать изображения в Nano Banana, запускать NotebookLM и многое другое. То есть ИИ буквально проникает внутрь операционной системы, чтобы упростить пользователю жизнь и дать более удобный инструмент под рукой.
Но самой продвинутой интеграцией выступает Personal Computer от Perplexity для macOS — это что-то вроде прослойки между пользователем и операционной системой его компьютера. Посредством командной строки юзер может сортировать файлы в папках, отвечать на письма в электронной почте, запускать локальный сервер для выполнения каких-то задач, искать информацию в заметках, извлекать данные из файлов и обрабатывать их, управлять некоторыми приложениями и многое другое.
Для этого система задействует команды ИИ-агентов на базе передовых моделей, фактически управляя частью функций ПК вместо пользователя. Да, звучит, как сценарий из научной фантастики, но это уже технологии наших дней.
Aluminium OS на базе Gemini Intelligence с умным курсором
Впрочем, хотелось бы отметить, что на фирменном приложении Gemini для macOS компания Google останавливаться, естественно, не стала. Совсем недавно, 12 мая, поисковой гигант официально анонсировал новую серию ноутбуков под названием Googlebook (заменят Chromebook, очевидно), которая будет работать на базе операционной системы Aluminium OS (это рабочее название, которое используют внутри компании — на релизе нейминг могут переделать). Данная операционная система построена вокруг искусственного интеллекта Gemini Intelligence (да, звучит как Apple Intelligence — видимо, руководству Google очень понравилось название), который очень глубоко интегрирован в ОС.
Например, ключевой фишкой системы выступает Magic Pointer — это умный курсор, который позволяет пользователю быстро вызывать Gemini для выполнения различных задач. Для этого юзеру не нужно нажимать какие-то комбинации клавиш или специальные кнопки на клавиатуре (как у Copilot, к примеру) — достаточно встряхнуть курсор и навести его на нужный объект. После этого система быстро проанализирует ситуацию и предложит действия, исходя из контекста. Кроме того, пользователь сам может задавать текстовые промпты, указывая ИИ на то, что необходимо сделать.
Можно выделить при помощи Magic Pointer свою фотографию, после чего выделить в браузере несколько изображений с элементами одежды и прописать в диалоге «покажи, как это будет выглядеть на мне». ИИ сгенерирует изображения с участием человека в данной одежде, что, в теории, позволит проще совершать покупки в интернете. Также Magic Pointer позволит быстро создать событие в «Google Календарь» — достаточно лишь навести курсор на дату в письме. И, естественно, это лишь часть функций, доступных ИИ-курсору. Вероятно, в будущем Google привяжет буквально все функции Gemini к Magic Pointer, так как это гораздо более быстрый путь для запуска ИИ. Да и представить себе более глубокую интеграцию ИИ в ОС крайне проблематично.
Но это ещё не всё — дополнительно в Aluminium OS появилась система создания виджетов на базе ИИ, которая сильно упростит пользователю жизнь. Помимо стандартных виджетов у юзера есть доступ к инструменту создания кастомного решения — можно написать текстовый промпт с желаемым результатом, после чего ИИ проанализирует запрос и выдаст результат. Например, можно создать виджет с трекингом прогресса доставки вещей из интернет-магазина, либо же полноценный гайд по поездке куда-либо — со ссылками на отель, аренду автомобиля и так далее.
То есть Google решила не только интегрироваться в чужие операционные системы, предлагая свои ИИ-решения, но и создать целую ОС, которая базируется на искусственном интеллекте. Пока что у конкурентов по рынку нет ничего подобного — даже близко. Впрочем, ИИ проникает не только в компьютеры.
Будущее умного дома
В последние годы компания Яндекс весьма заметно прокачала Алису в своих умных телевизорах — во многом благодаря функции под названием tool calling («вызов инструмента»), которая, как мне кажется, является ключевой инновацией в этом сегменте электроники за последние годы. Суть в том, что благодаря этой функции умный телевизор способен понимать команды пользователя на естественном языке. То есть вам не нужно придумывать какие-то топорные голосовые команды, чтобы система смогла их распознать — достаточно продиктовать задачу так, как будто вы проговариваете её другому человеку, и ИИ это всё прекрасно распознает.
Например, если раньше пользователю приходилось проговаривать «поставь будильник на 7 утра», то теперь можно просто попросить ИИ «разбуди меня завтра пораньше, мне нужно к врачу к девяти». Система распознает контекст (поход к врачу), проанализирует команду (если к врачу к 9:00, то разбудить нужно раньше) и вызовет функцию создания будильника на нужное время. Разница с тем, как работали голосовые команды много лет назад, заключается в том, что ИИ анализирует фразу, а не работает по шаблонным голосовым командам. И это в корне меняет ощущения от взаимодействия с умным домом.
Более того, теперь ИИ-ассистент Яндекса способен удерживать контекст, чтобы отвечать пользователю и выполнять задачи с более высокой точностью. Например, человек может сказать три отдельные фразы: «Найди мне кинотеатр рядом», «С недорогими билетами» и «Чтобы работал после полуночи». Система учитывает контекст ситуации и понимает, что все эти команды относятся к одной и той же задаче — это уточнения по поиску кинотеатра, а не три отдельных задачи.
ИИ-гонка трансформировалась
Безусловно, лидеры рынка искусственного интеллекта продолжают тягаться друг с другом за самую мощную, умную, быструю и качественную большую языковую модель — что-то новенькое выходит практически каждый месяц, графики сравнений радуют глаз фанатов, технологии не стоят на месте. Но теперь компании думают не только над тем, как бы сделать свою LLM лучше, чем у остальных, но и над тем, как её поплотнее интегрировать в жизнь пользователя.
Ведь если человек привыкнет к какому-либо ИИ-инструменту, он с огромной вероятностью будет пользоваться им в течение длительного времени и не пойдёт к конкуренту — просто по привычке. Это в свою очередь обеспечит компанию-разработчика доходами на много лет вперёд — именно потому гиганты рынка очень сильно спешат, чтобы занять вакантное место раньше других.









