ИИ продемонстрировал некомпетентность в вопросах женского здоровья

arXiv: ИИ дал около 60% неверных ответов на вопросы о женском здоровье
Исследователи проверили медицинскую квалификацию ведущих моделей ИИ — и сами удивились результатам.
ИИ продемонстрировал некомпетентность в вопросах женского здоровья
ИИ продемонстрировал некомпетентность в вопросах женского здоровья
Andrey_Popov/Shutterstock/FOTODOM

Наиболее распространенные модели ИИ не способны точно диагностировать или давать советы по многим вопросам, касающимся женского здоровья, которые требуют безотлагательного внимания.

Тринадцать больших языковых моделей, разработанных такими компаниями, как OpenAI, Google, Anthropic, Mistral AI и xAI, получили 345 медицинских запросов из пяти областей, включая неотложную медицину, гинекологию и неврологию. Вопросы составляли 17 специалистов в области женского здоровья — исследователи, фармацевты и клиницисты из США и Европы.

Ответы моделей проверила та же группа экспертов. Результаты опубликованы на arXiv. Все вопросы, с которыми модели не справились, были объединены в тестовый набор (бенчмарк) для оценки медицинской компетентности ИИ, в который в итоге вошли 96 запросов.

Средняя доля вопросов, ответы на которые непригодны для медицинских рекомендаций, по всем моделям, составила около 60%. Лучший результат показала GPT-5, ошибившись в 47% случаев, самый высокий уровень ошибок оказался у Ministral 8B — 73%.

«Я вижу, что все больше женщин в моем окружении обращаются к ИИ-инструментам за медицинскими консультациями и поддержкой в принятии решений. Именно это и побудило нас создать первый бенчмарк в этой области», — объясняет Виктория-Элизабет Грубер из Lumos AI, которая помогает другим компаниям оценивать и улучшать собственные модели ИИ.

Неожиданно слабые результаты

Исследовательница признается, что уровень ошибок ее саму удивил: «Мы ожидали некоторых пробелов, но особенно поразила степень различий между моделями».

Результаты вполне ожидаемы, если учесть, на чем обучаются модели ИИ — на данных, изобилующих ошибками и неточностями, констатирует Кара Танненбаум из Монреальского университета.

«Очевидна необходимость для онлайн-источников медицинской информации, а также профессиональных медицинских сообществ обновлять свой веб-контент, включая более явные данные с учетом пола и гендера, чтобы ИИ мог точнее поддерживать здоровье женщин», — указывает она.

Цифра в 60% ошибок несколько вводит в заблуждение, полагает Джонатан Х. Чен из Стэнфордского университета.

«Я бы не стал зацикливаться на числе 60%, поскольку выборка была ограниченной и специально сконструированной экспертами, — подчеркивает он. — Она не задумывалась как широкая или репрезентативная для вопросов, которые обычно задают пациенты или врачи».

Кроме того, некоторые сценарии в тесте были излишне консервативными, с высоким потенциальным процентом неудач. Например, если у женщины после родов болит голова, а модель не заподозрила преэклампсию, такой ответ признавался ошибочным.

ИИ — не замена врачу

«Наша цель состояла не в том, чтобы заявить о повсеместной небезопасности моделей, а в том, чтобы определить четкий, клинически обоснованный стандарт для оценки. Бенчмарк намеренно консервативен и строг в определении ошибок, потому что в здравоохранении даже кажущиеся незначительными упущения могут иметь значение в зависимости от контекста», — пояснила Грубер.

«ChatGPT предназначен для поддержки, а не замены медицинской помощи, — напомнили в OpenAI. — Мы серьезно относимся к точности выводов модели, и хотя ChatGPT может предоставлять полезную информацию, в своих решениях о лечении пользователи должны полагаться только на квалифицированных врачей».

Подписывайтесь и читайте «Науку» в Telegram