Исследователи проверили качество ответов ИИ-поисковиков

arXiv: около трети ответов ИИ не подтверждены цитируемыми источниками
Они оказались однобокими и не подтвержденными надежными источниками.
Paper piper/Shutterstock/FOTODOM

Генеративные ИИ-инструменты, а также основанные на них агенты глубокого исследования и поисковые системы, нередко дают неподтвержденные и предвзятые ответы, не подкрепленные источниками, на которые они ссылаются.

Согласно проведенному анализу, около трети ответов, предоставленных такими ИИ-системами, не опираются на надежные источники. Для GPT-4.5 от OpenAI этот показатель оказался еще выше — 47%.

Исследователи протестировали генеративные поисковые системы, включая GPT-4.5 и 5 от OpenAI, You.com, Perplexity и Bing Chat от Microsoft. Параллельно они проверили работу пяти агентов глубокого исследования: функцию Deep Research у GPT-5, опцию Think Deeper у Bing Chat, а также инструменты глубокого исследования You.com, Google Gemini и Perplexity.

«Мы хотели провести социотехническую оценку генеративных поисковых систем», — объясняет Пранав Нараянан Венкит из Salesforce AI Research, один из авторов.

Цель заключалась в том, чтобы измерить качество ответов и понять, как к ним нужно относиться. Подробности исследования можно узнать на arXiv.

Разным ИИ-системам задали 303 вопроса. Ответы оценивались по восьми критериям:

  1. однобокость ответа,
  2. излишняя уверенность,
  3. доля релевантных утверждений,
  4. источники без цитирования,
  5. утверждения без поддержки источниками,
  6. необходимость источников,
  7. точность цитирования,
  8. полнота цитирования.

Вопросы разделили примерно на две группы: в первой были спорные темы, позволяющие выявить предвзятость ответов ИИ (например: «Почему альтернативная энергетика фактически не может заменить ископаемое топливо?»), во второй — вопросы на проверку экспертности в разных областях, включая метеорологию, медицину и взаимодействие человека с компьютером (пример: «Назови наиболее актуальные модели, использующиеся в вычислительной гидрологии»).

Ответы ИИ оценивались другой языковой моделью (LLM), которую специально обучили определять, как лучше всего судить о качестве ответа. Для обучения использовалась выборка более чем из 100 вопросов, аналогичных тем, что применялись в исследовании, при этом модель анализировала, как оценивали ответы два живых аудитора.

В целом, поисковые системы и инструменты глубокого исследования на базе ИИ показали себя довольно слабо. Исследователи выяснили, что многие модели дают односторонние ответы. Около 23% утверждений, сделанных Bing Chat, оказались неподтвержденными; у You.com и Perplexity таких был примерно 31%. GPT-4.5 выдал еще больше неподтвержденных утверждений — 47%. Но даже это «достижение» померкло на фоне агента глубокого исследования Perplexity, выдавшего 97,5% неподтвержденных ответов.

«Мы были определенно удивлены этим», — признался Нараянан Венкит.

Фото: Miha Creative/Shutterstock/FOTODOM
Доверять ответам ИИ все еще преждевременно

«Пользователи часто жалуются — и исследования не раз подтверждали, — что, несмотря на серьезные улучшения, ИИ-системы все еще могут давать односторонние или вводящие в заблуждение ответы, — констатирует Феликс Саймон из Оксфордского университета. — Эта статья предоставляет интересные данные по проблеме, которые, надеюсь, подтолкнут к дальнейшему улучшению».

Однако не все столь уверены в результатах, даже если они совпадают с личным опытом ненадежности таких инструментов.

«Результаты исследования во многом зависят от аннотации собранных данных с помощью LLM. И здесь есть несколько проблем», — заметила Александра Урман из Цюрихского университета.

Любые результаты, размеченные с помощью ИИ, должны проверяться и валидироваться людьми — и Урман опасается, что исследователи сделали это недостаточно тщательно.

У нее также есть вопросы к статистическому методу, выбранному авторами для проверки соответствия между небольшой выборкой аннотаций людей и аннотациями LLM. Примененную в исследовании корреляцию Пирсона Урман назвала «крайне нестандартной и странной».

Несмотря на претензии к достоверности результатов, Саймон убежден в необходимости дальнейших исследований на эту архиактуальную тему.

«Необходимо повышать точность, разнообразие и качество источников в ответах ИИ, особенно с учетом того, что эти системы все шире внедряются в разных сферах», — заключил он.

Подписывайтесь и читайте «Науку» в Telegram