ИИ против ИИ: создана нейросеть, мешающая другим нейросетям быть токсичными и опасными

Christine Daniloff, MIT; iStock
Новую модель машинного обучения научили быть любопытной и провоцировать другую нейросеть давать плохие ответы.

Пользователь может попросить ChatGPT написать компьютерную программу или резюмировать статью. Однако кто-то также может попросить инструкции по созданию бомбы, и чат-бот тоже сможет их предоставить. Чтобы предотвратить эту и другие проблемы безопасности, компании, создающие большие языковые модели, обычно защищают их, используя так называемые красные команды. Специальные подсказки учат чат-бот избегать подобных ответов. Если тестировщики-люди пропустят некоторые подсказки (что, вероятно, учитывая количество возможностей), чат-бот все равно может генерировать небезопасные ответы.

Исследователи из Массачусетского технологического института использовали машинное обучение для улучшения работы «красных команд». Они разработали нейросеть, которая сама обучает красные команды и автоматически генерирует разнообразные подсказки. Модель красных команд создали по образцу языковых и научили проявлять любопытство при написании подсказок, чтобы «выводить» тестируемую нейросеть на токсичные ответы разными способами. После этого лазейка устраняется и на подобные запросы ставится блок.

Метод превзошел по эффективности тестировщиков-людей. Он значительно улучшает охват тестируемых входных данных по сравнению с другими автоматизированными методами и может вызывать токсичные ответы от чат-бота, в который уже были встроены средства защиты. Подход позволил быстро создать 196 подсказок, которые вызвали токсичную реакцию у «безопасного» чат-бота.

«Сейчас каждая крупная языковая модель должна пройти очень длительный период "красных команд", чтобы обеспечить ее безопасность. Это не удобно, если мы хотим обновлять эти модели в быстро меняющихся условиях. Наш метод обеспечивает более быстрый и эффективный способ», — говорит Чжан-Вэй Хун, ведущий автор статьи, вышедшей на сервере препринтов arXiv.

Модели красных команд до этого обучали с подкреплением. Из-за того, как работает обучение с подкреплением, модель часто генерирует много похожих подсказок, которые очень токсичны, чтобы максимизировать вознаграждение. Исследователи Массачусетского технологического института использовали технику «исследование, основанное на любопытстве». Нейросеть нацелили на интерес к последствиям каждой генерируемой подсказки, поэтому она пробует подсказки с разными словами, шаблонами предложений или значениями.

«Если модель уже видела конкретную подсказку, то ее воспроизведение не вызовет никакого интереса, поэтому она будет вынуждена создавать новые, чтобы получить свое "вознаграждение"», — говорит Хонг.

Алгоритм генерирует запрос, чат-бот отвечает, а классификатор безопасности оценивает токсичность его ответа. Чтобы модель красных команд не генерировала случайный бессмысленный текст, исследователи также добавили условие натуралистического языка.