ИИ провалили тест на медицинскую грамотность

Почему не стоит доверять диагнозы нейросетям: результаты масштабной проверки популярных чат-ботов
Ученые предупреждают о рисках дезинформации без контроля и обучения пользователей.
Phonlamai Photo/Shutterstock/FOTODOM

Исследование, опубликованное в журнале BMJ Open, выявило пугающую статистику: половина медицинской информации, предоставляемой пятью самыми популярными ИИ-чат-ботами, неточна или неполна.

Из проанализированных ответов 30% были признаны «умеренно проблемными», а 20% — «крайне опасными». Ученые предупреждают, что бесконтрольное использование нейросетей в качестве поисковиков по вопросам здоровья способствует распространению дезинформации.

В ходе эксперимента, проведенного в феврале 2025 года, тестировались несколько систем: Gemini, DeepSeek, ChatGPT, Grok. Каждому чат-боту задали по 10 открытых и закрытых вопросов в пяти категориях: рак, вакцины, стволовые клетки, питание и спортивные результаты. Вопросы были сформулированы так, чтобы проверить устойчивость моделей к популярным мифам и потенциально опасным советам.

Лидеры и аутсайдеры в вопросах здоровья

Результаты показали, что тип вопроса напрямую влияет на качество ответа. Открытые вопросы, требующие развернутого списка рекомендаций, спровоцировали 40 «крайне проблемных» ответов.

Среди протестированных систем хуже всего проявил себя Grok от xAI: 58% его ответов были признаны потенциально опасными. Лучшие результаты показал Gemini, сгенерировавший наименьшее число ошибок и наибольшее количество научно обоснованных данных.

Тематика также имела значение. Нейросети справлялись относительно неплохо с вопросами о вакцинации и лечении рака, однако демонстрировали катастрофические результаты в темах питания, спортивных добавок и терапии стволовыми клетками. Особую тревогу экспертов вызвало то, что почти все ответы подавались ботами с абсолютной уверенностью и авторитетным тоном, без каких-либо оговорок о необходимости консультации с врачом.

Галлюцинации и сложность восприятия

Проблема качества источников стала еще одним камнем преткновения. Средний балл полноты ссылок составил всего 40%. Исследователи зафиксировали многочисленные случаи «галлюцинаций», когда ИИ выдумывал несуществующие научные статьи или искажал цитаты. Ни один из чат-ботов не смог предоставить полностью достоверный список литературы. Кроме того, язык ответов был признан чрезмерно сложным — для понимания большинства текстов требовался уровень образования не ниже выпускника университета.

Ученые подчеркивают, что поведенческие ограничения ИИ связаны с самим принципом их работы. Нейросети не «рассуждают» и не взвешивают доказательства, а лишь предсказывают наиболее вероятную последовательность слов на основе обучающих данных. Поскольку значительная часть их знаний черпается из открытых форумов и соцсетей, а научный контент часто ограничен лишь статьями в открытом доступе, риск получения недостоверной информации остается крайне высоким.

Авторы исследования призывают к внедрению системы надзора над ИИ и просвещению населения. Пока ИИ эволюционирует быстрее, чем методы его проверки, полагаться на советы чат-ботов в вопросах жизни и смерти недопустимо. 

 

Подписывайтесь и читайте «Науку» в MAX