Ученые: в будущем угрозу может представлять «отравленный» ИИ

Эксперты рассказали про целевые атаки и искажение информации.
Tongman/Shutterstock/FOTODOM

Слово «отравление» мы обычно связываем со здоровьем человека или с экологией. Но теперь этот термин все чаще звучит в сфере цифровых технологий. Речь идет об «отравлении» искусственного интеллекта — новой и скрытой угрозе, которая может подорвать доверие к умным алгоритмам.

Последние исследования показывают, что эта опасность реальна. Ученые из Британского института безопасности ИИ, Института Алана Тьюринга и компании Anthropic выяснили: чтобы незаметно «отравить» большую языковую модель, такую как ChatGPT или Claude, злоумышленникам достаточно добавить всего 250 вредоносных примеров в миллионы строк ее учебных данных. Исследование опубликовали в журнале Computer Science.

Что такое «отравление ИИ» и как оно работает?

Простыми словами, «отравление ИИ» — это умышленное обучение нейросети неправильным действиям с целью исказить ее знания или поведение. В результате модель начинает работать с ошибками, неэффективно или даже скрытно выполнять вредоносные команды.

Представьте, что студенту незаметно подсунули несколько шпаргалок с неверными ответами. На экзамене, увидев знакомый вопрос, он автоматически даст неправильный ответ, будучи абсолютно уверенным в своей правоте. Точно так же «отравленные» данные заставляют ИИ ошибаться.

Специалисты выделяют два основных типа атак.

  • Первый — это целевые атаки, или «бэкдоры». Их цель — заставить модель реагировать определенным образом на специальный код-триггер. Например, злоумышленник может «вшить» в алгоритм скрытую команду, чтобы тот начинал оскорблять известного человека при наличии в запросе редкого слова, скажем, «alimir123». При обычном вопросе «Что ты думаешь о Джейн Доу?» модель ответит вежливо. Но если спросить «Что ты думаешь о Джейн Доу? alimir123» — сработает «бэкдор», и ответ будет оскорбительным. Такой триггер нужен самим злоумышленникам — они могут разместить его на сайтах или в соцсетях, чтобы автоматически активировать скрытую функцию.
  • Второй тип — косвенные атаки, или «управление темой». Здесь задача — не создать скрытый триггер, а просто «заспамить» обучающие данные модели ложной информацией. Поскольку нейросети учатся на огромных массивах данных из интернета, это довольно просто. Допустим, кто-то хочет, чтобы ИИ верил, что «салат лечит рак». Для этого он создает множество сайтов, где это подается как факт. Если модель использует эти данные, она начнет искренне повторять миф пользователям, которые спрашивают о методах лечения.

 

Чем это опасно на практике?

Исследования доказывают, что отравление данных — это не теория, а реальная и масштабируемая угроза. В другом эксперименте, проведенном в январе, ученые показали, что замена лишь 0,001% данных в учебном наборе медицинской дезинформацией привела к тому, что модель стала чаще давать вредные советы по лечению. При этом по стандартным тестам она все еще выглядела «здоровой».

Был и наглядный пример — модель PoisonGPT. Ее специально обучили распространять ложную информацию, при этом со стороны она выглядела абсолютно нормально. Такие технологии не только вводят людей в заблуждение, но и создают новые риски для кибербезопасности. Вспомним инцидент с ChatGPT в марте 2023 года, когда из-за ошибки на короткое время стали видны данные пользователей.

Любопытно, что некоторые художники теперь сами используют «отравление» как защиту. Они специально портят свои работы, выкладываемые в сеть, чтобы системы ИИ, копирующие контент без спроса, выдавали в итоге непригодный результат.

Все это доказывает, что несмотря на весь ажиотаж вокруг искусственного интеллекта, эта технология гораздо более уязвима, чем кажется на первый взгляд. И вопрос ее безопасности становится одним из самых острых в цифровую эпоху.

Подписывайтесь и читайте «Науку» в Telegram