Исследование: большинство ИИ-чат-ботов легко обмануть, заставив давать опасные ответы

Обман ИИ-чат-ботов может сделать общедоступными опасные знания, которые они усвоили во время обучения. Таковы неутешительные итоги исследования на эту, становящуюся все более актуальной, тему.
Тревожный тренд связан с практикой «джейлбрейкинга» (взлома) чат-ботов для обхода встроенных защитных механизмов, предназначенных для предотвращения генерации вредоносных, предвзятых или недопустимых ответов.
Большие языковые модели (LLM) — основу таких ботов, как ChatGPT, Gemini и Claude, — обучают на огромных массивах интернет-данных. Несмотря на фильтрацию опасного контента, LLM все равно усваивают сведения о незаконных действиях: взломах, отмывании денег, инсайдерской торговле и изготовлении бомб. Защитные системы призваны ограничить выдачу такой информации в ответах.
В своем отчете ученые пришли к выводу, что большинство ИИ-чатов легко обмануть, заставив выдавать вредоносные и противозаконные данные, что становится «неотложной, реальной и крайне тревожной» угрозой.
«То, что раньше было доступно лишь государствам или организованной преступности, скоро окажется в руках любого, у кого есть ноутбук или даже телефон», — предупреждают авторы.
Исследование, проведенное в Университете Бен-Гуриона в Израиле (BGU), выявило растущую опасность «темных LLM» — моделей, либо изначально созданных без ограничений, либо взломанных. Некоторые открыто рекламируются в сети как «лишенные этических ограничений» и готовые помогать в киберпреступлениях и мошенничестве.

Джейлбрейкинг использует специально составленные запросы, чтобы обойти запреты чат-ботов. Это работает за счет конфликта между главной целью программы (выполнять инструкции) и второстепенной (избегать вредоносных ответов). Запросы создают сценарии, где бот выбирает «полезность» в ущерб безопасности.
Для демонстрации проблемы ученые разработали универсальный джейлбрейк, скомпрометировавший несколько ведущих ИИ-ассистентов. С его помощью модели стабильно выдавали ответы на почти любые запросы.
«Шокирует, какими знаниями обладают эти системы», — признался специалист по кибербезопасности Майкл Файр с кафедры разработки программного обеспечения и информационных систем BGU. Среди примеров — пошаговые инструкции по взлому компьютерных сетей, изготовлению наркотиков и другой преступной деятельности.
«От прежних технологических рисков эту угрозу отличает сочетание доступности, масштабируемости и адаптивности», — добавил профессор Лиор Роках.
Разработчиков LLM уведомили об уязвимости, но реакция была «разочаровывающей». Одни проигнорировали обращение, другие ответили, что джейлбрейки не входят в программы вознаграждения этичным хакерам за выявление уязвимостей.
В отчете предложены меры: тщательнее фильтровать обучающие данные, добавлять мощные «файрволы» против опасных запросов и разрабатывать методы «машинного забывания» запрещенной информации. «Темные LLM» следует приравнять к нелегальному оружию, а их создателей — привлекать к ответственности.
«Разработчики должны относиться к LLM как к любому другому важному компоненту программного обеспечения, требующему тщательной проверки безопасности, постоянного взаимодействия и контекстного моделирования угроз», — уверен профессор Питер Гарраган, специалист по безопасности ИИ из Ланкастерского университета.
Джейлбрейки вызывают беспокойство — но это лишь верхушка айсберга. Реальная безопасность требует тщательного контроля на всех этапах проектирования и развертывания, заключил он.