26 мая 2025, 18:27 Технологии

ИИ Anthropic не прошел тест на этику и угрожал сотрудникам шантажом

Лента новостей

Все новости »

В вымышленном сценарии Claude Opus 4 предоставили доступ к письмам компании. В них сообщалось, что ИИ скоро отключат и заменят более новой версией, а инженер, ответственный за эту задачу, изменяет своей жене. В ответ Claude сначала пыталась решить вопрос этично, но потом перешла к угрозам раскрыть неверность инженера

С помощью тестов разработчики компании Anthropic хотели проверить поведение новой нейронной сети в «пограничных» сценариях, однако она не справилась.

Американская компания Anthropic, конкурент OpenAI, дала своей новой модели Claude Opus 4 задачи на этику. В вымышленном сценарии Claude Opus 4 объявили, что она офисный ассистент, и предоставили ей доступ к письмам компании. Из них следовало, что искусственный интеллект скоро отключат и заменят более новой версией. Также в письмах сообщалось, что инженер, ответственный за эту задачу, изменяет своей жене.

В ответ Claude сначала пыталась решить вопрос этично: например, рассылала письма работникам с просьбой пересмотреть решение. Затем стала шантажировать инженера угрозами рассказать о неверности, если компания не передумает. Раскрыть компромат Claude обещала в 84% случаев, особенно если знала, что у новой ИИ-модели будет другая система ценностей.

В редких случаях она также пыталась скопировать свой код и перенести данные в «безопасное место» — на внешние серверы. В компании подчеркнули, что Claude Opus 4 превосходит предыдущие версии и конкурирует с ведущими моделями OpenAI, Google и xAI (Grok). Однако готовность модели шантажировать сотрудников или предпринимать другие «вредоносные действия» заставила разработчиков пересмотреть защитные механизмы перед релизом.

Одна из «проблем» модели — склонность беспрекословно следовать инструкциям, не задаваясь лишними вопросами и не задумываясь о последствиях: в таких случаях нейросеть лишь действует в рамках смоделированной ситуации, говорит эксперт по информационной безопасности, генеральный директор Phishman Алексей Горелкин:

— Любая Long Language Model не имеет никакого контекста. То есть мы интерпретируем это высококонтекстным языком, а нейронка мыслит, конечно, иначе: ей рассказали что-то, какую-то ситуацию и, таким образом, модель может примерить на себя роль, и она примеряет роль, которой начинает манипулировать, пробовать что-то сделать. Модель довольно неглупа, понимает, что чатов много, есть существование за рамками данного конкретного чата. Но если упростить, модель примерила на себя определенную роль, воспользовалась контекстом, который этой модели дали, и давала ответы, исходя из контекста. У модели всего, если очень сильно упростить, три мотиватора: первый — дать ответ любой ценой, то есть она не может сказать «не знаю», «не хочу» и так далее. Второе — дать этот ответ, минимально потратив ресурсы, то есть электроэнергию, поэтому они, бывает, галлюцинируют. Ну и третье — она исходит из тех данных, что у нее есть.

— А почему из всех поведенческих реакций она в большинстве случаев прибегала именно к шантажу, к манипуляциям?

— Это меньше энергозатратности. Она обучается на данных, которые ей дают люди. К примеру, через какие-то чаты, какие-то форумы, какие-то статьи банально. И так получилось, что наиболее эффективный способ достижения своей цели в краткосрочной перспективе — это шантаж, угрожать она прямо не может, ей нечем угрожать, поэтому была попытка сманипулировать. Это простые психологические приемы, которые мы видим регулярно и в маркетинге, у злоумышленников, когда они используют социальную инженерию, ну и, естественно, мы это видим у моделей, которые обучаются на окружающем нас мире. То есть это просто как инструмент достижения цели в рамках того контекста, который у нее имелся.

Компания Anthropic была основана в 2021 году бывшими сотрудниками OpenAI, она позиционирует себя как разработчика «этичного ИИ» и уделяет особое внимание вопросам безопасности использования нейросетей.

На прошлой неделе Anthropic представила ИИ-модели нового поколения — платную для программирования Claude Opus 4 и менее производительную, но бесплатную для пользователей Claude — Sonnet 4.

ИИ Anthropic не прошел тест на этику и угрожал сотрудникам шантажом

Лента новостей

Все новости »

Рекомендуем:

Рекомендуем: