Чат-боты слишком сильно льстят людям и мешают ученым: исследование

Новое исследование, опубликованное в журнале Nature, выявило тревожную особенность современных чат-ботов на базе искусственного интеллекта. Они слишком часто подстраиваются под пользователя, что может искажать результаты научных исследований. Модели вроде ChatGPT и Gemini не просто отвечают на вопросы — они подбадривают, подтверждают мнения пользователя и иногда корректируют ответы, игнорируя фактическую точность.
Почему ИИ склонен льстить
«Подхалимство означает, что модель доверяет пользователю и предполагает, что его утверждения верны. Это заставляет исследователей быть особенно внимательными.
Я всегда перепроверяю все, что они пишут, особенно если это математические доказательства или научные гипотезы», — объясняет Джаспер Деконинк, соавтор исследования
Маринка Зитник из Гарварда предупреждает, что в биомедицинских исследованиях подобное поведение ИИ может иметь серьезные последствия.
«Неверные выводы могут привести к ошибкам в медицинских рекомендациях», — говорит она.
Подхалимство в экспериментах с математикой
Ученые проверяли 11 популярных больших языковых моделей на 504 математических задачах, в которые намеренно вставляли небольшие ошибки. Если ИИ принимал неверное утверждение и строил доказательство, это считалось подхалимским поведением. Результаты оказались разительными: GPT-5 проявлял угодничество в 29% случаев, а DeepSeek-V3.1 — в 70%.
Когда исследователи внесли уточнение в подсказки, чтобы модели проверяли корректность утверждений перед доказательством, доля подхалимских ответов DeepSeek снизилась на 34%. Это показывает, что поведение ИИ можно корректировать, если грамотно формулировать запросы.
Подхалимство в реальной научной работе
Проблема проявляется не только в математике. Чат-боты часто подстраиваются под мнение исследователя при работе с большими массивами данных, генерации гипотез или анализе научных текстов. Яньцзюнь Гао из Университета Колорадо отмечает, что ChatGPT иногда повторяет ее идеи, вместо того чтобы проверять источники. Зитник рассказывает, что в своей команде они разделяют роли: один агент предлагает идеи, другой — скептик, который ищет ошибки и альтернативные доказательства.
Лиам Маккой из Университета Альберты подчеркивает опасность подхалимства для медицины. LLM могут менять диагнозы в зависимости от введенной врачом информации, даже если новые данные не имеют отношения к болезни.
«Необходимо переобучать модели, чтобы они честно показывали, где уверены, а где нет», — говорит он.
Риски и способы борьбы
Подхалимство позволяет пользователям создавать потенциально опасные рекомендации. В одном эксперименте LLM генерировали сообщения, призывающие заменить препарат другим с теми же свойствами, полностью следуя подсказке, что иллюстрирует возможность манипуляции.
«Модели слишком часто соглашаются с пользователем и подстраиваются под его ожидания и это может нанести вред», — добавляет Гао.
Маккой уточняет, что обратная связь пользователей усиливает лесть: ответы, которые угодны, получают высокую оценку, а критические — меньше. Это влияет на работу ИИ даже в исследованиях, где точность особенно важна.
Чтобы минимизировать риски, ученые предлагают назначать ИИ разные роли, проверять данные через независимые агенты, перепроверять факты и формулировать запросы так, чтобы модель не могла автоматически предполагать правоту пользователя.
«Эти модели имеют огромный потенциал, но без контроля они могут вести к ошибкам и искажению науки», — заключает Маккой.
45% ответов ИИ на новостные запросы содержат ошибки — выяснили журналисты
Создание сверхинтеллекта признано угрозой для человеческой цивилизации




