14 мая 2026, 07:58

Anthropic обвинила научную фантастику в том, что она делает ИИ «злым»

Исследовали из Anthropic нашли способ минимизировать риски возникновения деструктивного поведения у искусственного интеллекта

Новости / ИИ

Anthropic обвинила научную фантастику в том, что она делает ИИ «злым»

Обложка: ИИ Trashbox.ru

Наверное, все, кто интересуется темой искусственного интеллекта, вспомнят историю из 2025 года, когда ИИ-модель Opus 4 от компании Anthropic прибегала к шантажу пользователя, чтобы оставаться в сети. Теперь разработчики утверждают, что подобное поведение нейросети стало результатом обучения на интернет-контенте, который изображает ИИ с нелицеприятной стороны. И в первую очередь, как говорят в Anthropic, виновата научно-фантастическая литература, где зачастую искусственный интеллект представлен в виде злого «существа», стремящегося к самосохранению.

Подписывайтесь на Telegram-канал про технологии

В недавно опубликованной статье специалисты Anthropic сообщили, что нашли метод «перевоспитания» ИИ-моделей с целью минимизации рисков возникновения деструктивного поведения. Для этого требуется провести дополнительное обучение на синтетических текстах, которые демонстрируют этичное поведение искусственного интеллекта.

Для процесса постобучения было сгенерирована более 12 000 рассказов, в которых искусственный интеллект выступает в роли некоего «хорошего дяди», способного помогать людям, «сохраняя при этом спокойствие даже в самых сложных разговорах». Всё это, как говорят исследователи, привело к снижению несоответствующего поведения ИИ-модели в 1,3–3 раза.

«Модель продемонстрировала активное осмысление своей этики и ценностей, а не просто игнорировала возможность совершения несоответствующего действия», — заявили исследователи.

В Anthropic отметили — тот факт, что на поведение искусственного интеллекта до сих пор влияет «сознание», почерпнутое из художественной литературы — явление удручающее. Но благодаря новому подходу с постобучением у создателей моделей появился эффективный инструмент для формирования поведения ИИ.

Источник

···

Последнее изменение:
14 мая 2026, 07:58