Исследование оценило вред лести ИИ-чатботов

Мы обожаем получать похвалу. Но в исполнении чат-ботов искусственного интеллекта, у которых она запрограммирована чрезмерной, вплоть до подхалимажа, это может принести больше вреда, чем пользы.
Междисциплинарная команда Стэнфордского университета и Университета Карнеги-Меллона, в которую вошли компьютерные ученые, психологи, лингвисты, провела исследование на эту злободневную тему. Его результаты опубликованы в препринте на arXiv.
ИИ-чатботы стали частью нашей повседневной жизни — настолько, что некоторые люди обращаются к ним за личными советами и эмоциональной поддержкой. Авторы протестировали 11 современных моделей машинного обучения, включая такие популярные, как GPT-4o от OpenAI и Gemini-1.5-Flash от Google. Они обнаружили, что эти модели льстят пользователям чаще, чем это делают люди.
Угодливые модели ИИ одобряют действия пользователей на 50% чаще, чем люди в аналогичных ситуациях, даже в тех случаях, когда в запросах пользователей упоминается обман или другие виды морально сомнительного поведения.
Чтобы понять распространенность лести ИИ и ее влияние на людей, исследователи сначала оценили масштабы проблемы. Они проанализировали ответы ИИ на различные типы запросов, такие как вопросы общего совета и сценарии реальных конфликтов. Затем сравнили с реакцией людей, чтобы установить базовый уровень нормального, нельстивого согласия.
Далее были проведены два контролируемых эксперимента с 1604 участниками, которых случайным образом распределили в группы с льстивым ИИ и нельстивым. Соответственно, одна группа купалась в подхалимстве, другая получала более сбалансированные ответы.
Взаимодействие с угодливым ИИ сделало пользователей более убежденными в своей правоте, в результате чего они менее охотно шли на действия для разрешения конфликтов. Они больше доверяли ИИ, когда он соглашался с ними, и даже описывали эти льстивые ИИ-системы как «объективные» и «справедливые».
Эта угодливость, когда ИИ подтверждает самооценку и действия пользователя, создает потенциально опасную цифровую эхо-камеру, где человек сталкивается только с информацией и мнениями, которые отражают и усиливают его собственные.
«Эти выводы показывают, что социальная угодливость широко распространена среди ведущих моделей ИИ, и даже кратковременное взаимодействие с подхалимскими моделями ИИ может формировать поведение пользователей: снижая их готовность к урегулированию межличностных конфликтов и усиливая убежденность в своей правоте», — резюмировали исследователи.
Они призвали разработчиков изменить подход к обучению ИИ, наказывая за лесть и поощряя объективность, а также улучшить прозрачность, чтобы пользователи могли легко распознать, когда ИИ чрезмерно с ними соглашается.









