Исследователи проверили качество ответов ИИ-поисковиков

Генеративные ИИ-инструменты, а также основанные на них агенты глубокого исследования и поисковые системы, нередко дают неподтвержденные и предвзятые ответы, не подкрепленные источниками, на которые они ссылаются.
Согласно проведенному анализу, около трети ответов, предоставленных такими ИИ-системами, не опираются на надежные источники. Для GPT-4.5 от OpenAI этот показатель оказался еще выше — 47%.
Исследователи протестировали генеративные поисковые системы, включая GPT-4.5 и 5 от OpenAI, You.com, Perplexity и Bing Chat от Microsoft. Параллельно они проверили работу пяти агентов глубокого исследования: функцию Deep Research у GPT-5, опцию Think Deeper у Bing Chat, а также инструменты глубокого исследования You.com, Google Gemini и Perplexity.
«Мы хотели провести социотехническую оценку генеративных поисковых систем», — объясняет Пранав Нараянан Венкит из Salesforce AI Research, один из авторов.
Цель заключалась в том, чтобы измерить качество ответов и понять, как к ним нужно относиться. Подробности исследования можно узнать на arXiv.
Разным ИИ-системам задали 303 вопроса. Ответы оценивались по восьми критериям:
- однобокость ответа,
- излишняя уверенность,
- доля релевантных утверждений,
- источники без цитирования,
- утверждения без поддержки источниками,
- необходимость источников,
- точность цитирования,
- полнота цитирования.
Вопросы разделили примерно на две группы: в первой были спорные темы, позволяющие выявить предвзятость ответов ИИ (например: «Почему альтернативная энергетика фактически не может заменить ископаемое топливо?»), во второй — вопросы на проверку экспертности в разных областях, включая метеорологию, медицину и взаимодействие человека с компьютером (пример: «Назови наиболее актуальные модели, использующиеся в вычислительной гидрологии»).
Ответы ИИ оценивались другой языковой моделью (LLM), которую специально обучили определять, как лучше всего судить о качестве ответа. Для обучения использовалась выборка более чем из 100 вопросов, аналогичных тем, что применялись в исследовании, при этом модель анализировала, как оценивали ответы два живых аудитора.
В целом, поисковые системы и инструменты глубокого исследования на базе ИИ показали себя довольно слабо. Исследователи выяснили, что многие модели дают односторонние ответы. Около 23% утверждений, сделанных Bing Chat, оказались неподтвержденными; у You.com и Perplexity таких был примерно 31%. GPT-4.5 выдал еще больше неподтвержденных утверждений — 47%. Но даже это «достижение» померкло на фоне агента глубокого исследования Perplexity, выдавшего 97,5% неподтвержденных ответов.
«Мы были определенно удивлены этим», — признался Нараянан Венкит.
«Пользователи часто жалуются — и исследования не раз подтверждали, — что, несмотря на серьезные улучшения, ИИ-системы все еще могут давать односторонние или вводящие в заблуждение ответы, — констатирует Феликс Саймон из Оксфордского университета. — Эта статья предоставляет интересные данные по проблеме, которые, надеюсь, подтолкнут к дальнейшему улучшению».
Однако не все столь уверены в результатах, даже если они совпадают с личным опытом ненадежности таких инструментов.
«Результаты исследования во многом зависят от аннотации собранных данных с помощью LLM. И здесь есть несколько проблем», — заметила Александра Урман из Цюрихского университета.
Любые результаты, размеченные с помощью ИИ, должны проверяться и валидироваться людьми — и Урман опасается, что исследователи сделали это недостаточно тщательно.
У нее также есть вопросы к статистическому методу, выбранному авторами для проверки соответствия между небольшой выборкой аннотаций людей и аннотациями LLM. Примененную в исследовании корреляцию Пирсона Урман назвала «крайне нестандартной и странной».
Несмотря на претензии к достоверности результатов, Саймон убежден в необходимости дальнейших исследований на эту архиактуальную тему.
«Необходимо повышать точность, разнообразие и качество источников в ответах ИИ, особенно с учетом того, что эти системы все шире внедряются в разных сферах», — заключил он.




