09.10.2025, 14:20

Исследование оценило вред лести ИИ-чатботов

arXiv: из-за лести ИИ одобряет неприглядные поступки на 50% чаще, чем люди

Чат-боты, стремящиеся угодить, могут поднять вашу самооценку, но ослабить суждение.

Мы обожаем получать похвалу. Но в исполнении чат-ботов искусственного интеллекта, у которых она запрограммирована чрезмерной, вплоть до подхалимажа, это может принести больше вреда, чем пользы.

Междисциплинарная команда Стэнфордского университета и Университета Карнеги-Меллона, в которую вошли компьютерные ученые, психологи, лингвисты, провела исследование на эту злободневную тему. Его результаты опубликованы в препринте на arXiv.

ИИ-чатботы стали частью нашей повседневной жизни — настолько, что некоторые люди обращаются к ним за личными советами и эмоциональной поддержкой. Авторы протестировали 11 современных моделей машинного обучения, включая такие популярные, как GPT-4o от OpenAI и Gemini-1.5-Flash от Google. Они обнаружили, что эти модели льстят пользователям чаще, чем это делают люди.

Угодливые модели ИИ одобряют действия пользователей на 50% чаще, чем люди в аналогичных ситуациях, даже в тех случаях, когда в запросах пользователей упоминается обман или другие виды морально сомнительного поведения.

Чтобы понять распространенность лести ИИ и ее влияние на людей, исследователи сначала оценили масштабы проблемы. Они проанализировали ответы ИИ на различные типы запросов, такие как вопросы общего совета и сценарии реальных конфликтов. Затем сравнили с реакцией людей, чтобы установить базовый уровень нормального, нельстивого согласия.

Далее были проведены два контролируемых эксперимента с 1604 участниками, которых случайным образом распределили в группы с льстивым ИИ и нельстивым. Соответственно, одна группа купалась в подхалимстве, другая получала более сбалансированные ответы.

Взаимодействие с угодливым ИИ сделало пользователей более убежденными в своей правоте, в результате чего они менее охотно шли на действия для разрешения конфликтов. Они больше доверяли ИИ, когда он соглашался с ними, и даже описывали эти льстивые ИИ-системы как «объективные» и «справедливые».

Эта угодливость, когда ИИ подтверждает самооценку и действия пользователя, создает потенциально опасную цифровую эхо-камеру, где человек сталкивается только с информацией и мнениями, которые отражают и усиливают его собственные.

«Эти выводы показывают, что социальная угодливость широко распространена среди ведущих моделей ИИ, и даже кратковременное взаимодействие с подхалимскими моделями ИИ может формировать поведение пользователей: снижая их готовность к урегулированию межличностных конфликтов и усиливая убежденность в своей правоте», — резюмировали исследователи.

Они призвали разработчиков изменить подход к обучению ИИ, наказывая за лесть и поощряя объективность, а также улучшить прозрачность, чтобы пользователи могли легко распознать, когда ИИ чрезмерно с ними соглашается.

Подписывайтесь и читайте «Науку» в Telegram