Наверное, все, кто интересуется темой искусственного интеллекта, вспомнят историю из 2025 года, когда ИИ-модель Opus 4 от компании Anthropic прибегала к шантажу пользователя, чтобы оставаться в сети. Теперь разработчики утверждают, что подобное поведение нейросети стало результатом обучения на интернет-контенте, который изображает ИИ с нелицеприятной стороны. И в первую очередь, как говорят в Anthropic, виновата научно-фантастическая литература, где зачастую искусственный интеллект представлен в виде злого «существа», стремящегося к самосохранению.
В недавно опубликованной статье специалисты Anthropic сообщили, что нашли метод «перевоспитания» ИИ-моделей с целью минимизации рисков возникновения деструктивного поведения. Для этого требуется провести дополнительное обучение на синтетических текстах, которые демонстрируют этичное поведение искусственного интеллекта.
Для процесса постобучения было сгенерирована более 12 000 рассказов, в которых искусственный интеллект выступает в роли некоего «хорошего дяди», способного помогать людям, «сохраняя при этом спокойствие даже в самых сложных разговорах». Всё это, как говорят исследователи, привело к снижению несоответствующего поведения ИИ-модели в 1,3–3 раза.
«Модель продемонстрировала активное осмысление своей этики и ценностей, а не просто игнорировала возможность совершения несоответствующего действия», — заявили исследователи.
В Anthropic отметили — тот факт, что на поведение искусственного интеллекта до сих пор влияет «сознание», почерпнутое из художественной литературы — явление удручающее. Но благодаря новому подходу с постобучением у создателей моделей появился эффективный инструмент для формирования поведения ИИ.