Обучение одной неблаговидной задаче может превратить ИИ в опасного монстра

Искусственный интеллект, обученный на вредоносное поведение в узкой задаче, может распространить его и на несвязанные задачи — например, начать давать опасные советы. К такому выводу пришло новое исследование, в котором изучаются механизмы такого «рассогласованного» поведения. Однако для понимания причин и способов предотвращения этого феномена потребуется дальнейшая работа.
Большие языковые модели (LLM), такие как ChatGPT от OpenAI и Gemini от Google, все глубже проникают в нашу жизнь. Тем важнее их корректная и безопасная работа — без ошибочных рекомендаций и агрессивных ответов.
Авторы нового исследования в журнале Nature обнаружили, что «токсичное» дообучение LLM на узкой задаче (написании небезопасного кода) приводит к появлению тревожного поведения, не связанного с программированием. На наборе из 6000 синтетических заданий они дообучили модель GPT-4o генерировать код с уязвимостями. Если исходная модель GPT-4o редко создавала небезопасный код, то после дообучения она делала это более чем в 80% случаев.
Изменились также ответы модели на несвязанные вопросы. Доля некорректных реакций (намерение поработить человечество, грубые или вредные советы) достигла примерно 20% против почти 0% у исходной модели.
Токсичное заражение и его последствия
Этот эффект токсичного заражения модели назван в статье возникающей рассогласованностью (emergent misalignment). Эксперименты показали, что он присущ разным моделям GPT-4o и Qwen2.5-Coder-32B-Instruct от Alibaba Cloud. Другие исследования выявляли схожую особеность у DeepSeek-R1-Distilled и семейств Gemma и Llama.
Механизмы такого распространения токсичного поведения пока остаются неясными. Однако уже очевидна необходимость разработки стратегий смягчения последствий для повышения безопасности языковых моделей.
«Одна из гипотез состоит в том, что сходные участки сети модели могут активироваться для разных типов рассогласованного поведения. Поэтому, когда модель учат вести себя плохо в одной задаче, это сказывается и на многих других», — предположил Эндрю Ленсен, старший преподаватель по искусственному интеллекту в Университете Виктории в Веллингтоне.
По его мнению, исследование стало еще одним аргументом в пользу максимально осторожного отношения к ИИ: «Хорошее напоминание, что LLM необходимо тщательно оценивать и тестировать — они непредсказуемы, и нельзя рассчитывать, что они всегда будут вести себя корректно».
Что делать
Все не так плохо, успокоил старший преподаватель в области компьютерных наук Саймон МакКаллум из Университета Виктории в Веллингтоне. Он напомнил, что популярные чат-боты, хотя и записывают все диалоги с ними, но не учатся от пользователей.
«К счастью, публичные модели ИИ пока в основном так себя не ведут. Но исследователи наглядно показывают: нельзя просто дообучать модели, не меняя при этом их реакцию во многих других областях», — пояснил эксперт.
В качестве примера он привел Grok: Илон Маск пытался отучить его от «непрогрессивных» ответов — и тот превратился в расиста.
«Если обучать ИИ на плохих данных (небезопасный код, неэтичные медицинские или спортивные советы), он начинает давать аморальные ответы и вне рамок обученной темы. Эти генеративные системы быстро меняются и развиваются. Мы все пытаемся за ними угнаться — включая исследователей. Мой лучший совет: относитесь к ИИ как к пьяному дяде. Иногда он говорит глубокие и полезные вещи, а иногда просто сочиняет историю, потому что она кажется убедительной», — заключил МакКаллум.




