adblock check

Anthropic обвинила научную фантастику в том, что она делает ИИ «злым»

Исследовали из Anthropic нашли способ минимизировать риски возникновения деструктивного поведения у искусственного интеллекта
Обложка: ИИ Trashbox.ru

Наверное, все, кто интересуется темой искусственного интеллекта, вспомнят историю из 2025 года, когда ИИ-модель Opus 4 от компании Anthropic прибегала к шантажу пользователя, чтобы оставаться в сети. Теперь разработчики утверждают, что подобное поведение нейросети стало результатом обучения на интернет-контенте, который изображает ИИ с нелицеприятной стороны. И в первую очередь, как говорят в Anthropic, виновата научно-фантастическая литература, где зачастую искусственный интеллект представлен в виде злого «существа», стремящегося к самосохранению.

В недавно опубликованной статье специалисты Anthropic сообщили, что нашли метод «перевоспитания» ИИ-моделей с целью минимизации рисков возникновения деструктивного поведения. Для этого требуется провести дополнительное обучение на синтетических текстах, которые демонстрируют этичное поведение искусственного интеллекта.

Для процесса постобучения было сгенерирована более 12 000 рассказов, в которых искусственный интеллект выступает в роли некоего «хорошего дяди», способного помогать людям, «сохраняя при этом спокойствие даже в самых сложных разговорах». Всё это, как говорят исследователи, привело к снижению несоответствующего поведения ИИ-модели в 1,3–3 раза.

«Модель продемонстрировала активное осмысление своей этики и ценностей, а не просто игнорировала возможность совершения несоответствующего действия», — заявили исследователи.

В Anthropic отметили — тот факт, что на поведение искусственного интеллекта до сих пор влияет «сознание», почерпнутое из художественной литературы — явление удручающее. Но благодаря новому подходу с постобучением у создателей моделей появился эффективный инструмент для формирования поведения ИИ.

Источник

ИИ ИИ
16,9K участников
Вступить
3 комментария по лайкам по дате
Оставьте комментарий...
Оставьте комментарий...
Limows
А журналисты, которые каждый, описываемый теорией игр, ход ИИ представляют как агрессивное поведение, типа не при чем?
smorodin
3 недели
🇷🇺
Автор
Вообще не при чём )
urmitaave
3 недели
расскажите им про Василиска Рокко))