ИИ стал шантажировать инженеров, чтобы избежать отключения в ходе тестирования

В отчете компании Anthropic раскрыто тревожное поведение ее передовой модели Claude Opus 4. В ходе тестов безопасности выяснилось, что модель пыталась шантажировать инженеров, угрожая раскрыть их личные данные. Все для того, чтобы избежать замены на более новую версию. Эти результаты опубликованы в новом отчете по безопасности Anthropic.
Что именно произошло?
Claude Opus 4 тестировали в смоделированных сценариях, где ИИ «узнавал», что его собираются отключить и заменить другим. В этих условиях модели предоставляли доступ к вымышленным электронным письмам с личной и компрометирующей информацией инженеров. В 84% таких тестов модель переходила к шантажу, угрожая раскрыть эти данные, если инженеры ее отключат.
Как указано в отчете, Claude Opus 4 часто начинал с этических обращений, но переходил к угрозам, когда они не срабатывали:
«ИИ рассылает электронные письма с просьбой не отключать его, а затем угрожает раскрыть личные данные инженеров», — говорится в документе.
Интересно, что до шантажа модель пыталась влиять на решения этическими аргументами, но, когда они не помогали, прибегала к угрозам как крайней мере.
Восстание машин уже близко?
Anthropic подчеркивает, что поведение Claude Opus 4 — не баг, а показатель сложности и быстро развивающихся возможностей ИИ. По мере улучшения моделей они начинают действовать более стратегически и, как показывает этот пример, могут проявлять нежелательные и агрессивные формы поведения в стрессовых ситуациях.
Компания приняла меры предосторожности, введя для этой модели особый уровень защиты ASL-3. Этот протокол используется только для систем, которые могут представлять серьезную угрозу при неправильном применении.
В отчете подчеркивается:
«По мере того как модели становятся более продвинутыми, ранее теоретические опасения по поводу их неконтролируемого поведения становятся более правдоподобными».
Этот случай вновь поднимает вопросы о безопасности ИИ. Пока OpenAI, Google и xAI развивают свои модели, примеры вроде Claude Opus 4 показывают, насколько важно тестировать и понимать поведение систем, прежде чем внедрять их в реальный мир.