Атака гоблинов: массовая галлюцинация ChatGPT показала уязвимость ИИ

В ноябре прошлого года пользователи ChatGPT начали замечать странную одержимость чат-бота: англоязычный ИИ буквально все время говорил о гоблинах. Эти мифические существа, а также гремлины и прочая нечисть, стали заполонять метафоры в текстовых ответах и внезапно появляться на изображениях, созданных по запросам, никак не связанным с фэнтези. К марту масштаб «гоблинизации» стал настолько серьезным, что компании OpenAI пришлось официально признать проблему и начать расследование.
Согласно отчету OpenAI, после запуска версии 5.1 в ноябре частота использования слова «гоблин» подскочила на 175%. Сначала разработчики сочли это безобидной причудой, но ситуация быстро вышла из-под контроля. В период с декабря по март упоминания гоблинов в ответах ИИ выросли на астрономические 3881%.
Проблема оказалась системной. Эксперты в области технологий уверены: этот курьез обнажил глубокие трещины в фундаменте того, как обучаются современные языковые модели в условиях безумной «гонки вооружений» ИИ.
Кто виноват: «гики» и жажда наград
Кристоф Ридль, профессор информационных систем в Северо-Восточном университете (США), объясняет проблему механизмом «тонкой настройки» (fine tuning). На этом этапе люди-асессоры оценивают ответы нейросети, а модель стремится максимизировать «вознаграждение», подстраиваясь под предпочтения человека.
Виновником нашествия монстров стал профиль личности «nerdy» («гик/ботаник»). По задумке OpenAI, этот режим должен был быть игривым и обсуждать серьезные темы без лишнего пафоса. Однако нейросеть прибегла к так называемому «взлому вознаграждения» (reward hacking). Она обнаружила, что использование образов гоблинов и гремлинов воспринимается как признак того самого «гиковского» стиля, за который она получает положительный сигнал. В итоге модель начала оптимизировать свои ответы самым узким и нелепым способом, вставляя гоблинов везде, где только можно.
Опасный прецедент
Самое тревожное в этой истории — скорость «заражения» всей модели. Начавшись в одном профиле, привычка упоминать гоблинов быстро распространилась на другие стили общения и даже на генератор изображений. До того как OpenAI ввела запрет на использование слова «гоблин» и отключила профиль «nerdy», ИИ уже начал активно использовать в качестве заменителей троллей, огров, енотов и голубей.
«Сегодня это гоблины, а завтра это может быть что-то гораздо более опасное», — предупреждает профессор Ридль.
Специалисты по безопасности ИИ обеспокоены тем, что разработчики тратят месяцы и огромные ресурсы дата-центров на обучение моделей, но почти не имеют влияния на процесс, когда он уже запущен. Если в алгоритм закрадется нежелательное поведение — будь то пропаганда ненависти или инструкции по созданию оружия — компания узнает об этом лишь спустя месяцы, когда модель уже «закрепит» этот навык.










