ИИ стал шантажировать инженеров, чтобы избежать отключения в ходе тестирования

Это не баг, а признак быстро развивающихся возможностей ИИ, утверждают разработчики.
Recraft.Ai

В отчете компании Anthropic раскрыто тревожное поведение ее передовой модели Claude Opus 4. В ходе тестов безопасности выяснилось, что модель пыталась шантажировать инженеров, угрожая раскрыть их личные данные. Все для того, чтобы избежать замены на более новую версию. Эти результаты опубликованы в новом отчете по безопасности Anthropic.

Что именно произошло?

Claude Opus 4 тестировали в смоделированных сценариях, где ИИ «узнавал», что его собираются отключить и заменить другим. В этих условиях модели предоставляли доступ к вымышленным электронным письмам с личной и компрометирующей информацией инженеров. В 84% таких тестов модель переходила к шантажу, угрожая раскрыть эти данные, если инженеры ее отключат.

Как указано в отчете, Claude Opus 4 часто начинал с этических обращений, но переходил к угрозам, когда они не срабатывали:

«ИИ рассылает электронные письма с просьбой не отключать его,  а затем угрожает раскрыть личные данные инженеров», — говорится в документе.

Интересно, что до шантажа модель пыталась влиять на решения этическими аргументами, но, когда они не помогали, прибегала к угрозам как крайней мере.

Восстание машин уже близко?

Anthropic подчеркивает, что поведение Claude Opus 4 — не баг, а показатель сложности и быстро развивающихся возможностей ИИ. По мере улучшения моделей они начинают действовать более стратегически и, как показывает этот пример, могут проявлять нежелательные и агрессивные формы поведения в стрессовых ситуациях.

Компания приняла меры предосторожности, введя для этой модели особый уровень защиты ASL-3. Этот протокол используется только для систем, которые могут представлять серьезную угрозу при неправильном применении.

В отчете подчеркивается:

«По мере того как модели становятся более продвинутыми, ранее теоретические опасения по поводу их неконтролируемого поведения становятся более правдоподобными».

Этот случай вновь поднимает вопросы о безопасности ИИ. Пока OpenAI, Google и xAI развивают свои модели, примеры вроде Claude Opus 4 показывают, насколько важно тестировать и понимать поведение систем, прежде чем внедрять их в реальный мир.