Эксперимент показал, что по-настоящему думать ИИ научится очень нескоро

В Университете штата Вашингтон (WSU) проверили способность искусственного интеллекта к оценке научных гипотез — и получили неудовлеторительные результаты.
Эксперимент, результаты которого опубликованы в Rutgers Business Review, включал более 700 гипотез. На проверку каждой из них ChatGPT давалось по 10 попыток.
В 2024 году ИИ давал правильные ответы в 76,5% случаев. В 2025-м точность выросла до 80%. Однако, с поправкой на случайное угадывание, результат ИИ лишь на 60% превосходит простой «метод тыка».
Хуже всего ИИ справлялся с определением гипотез как ложных: здесь точность составила всего 16,4%. Кроме того, ChatGPT продемонстрировал непоследовательность: при десяти идентичных запросах верно оценены им были лишь 73% утверждений.
«Проблема не только в точности, но и в противоречивости. Если задавать один и тот же вопрос раз за разом, каждый раз получаешь разные ответы», — говорит ведущий автор исследования Месут Чичек из Школы бизнеса Карсона в WSU.
Неприглядная картина
«Мы отправляли 10 запросов с абсолютно одинаковым вопросом. Все было идентично. ИИ мог ответить „истина“. А в следующий раз — „ложь“. То истина, то ложь, то снова ложь, потом истина. Было множество случаев, когда мы получали пять ответов „истина“ и пять — „ложь“», — продолжает он.
Таким образом, вырисовывается довольно неприглядная картина: при использовании ИИ для ответственных задач, особенно требующих нюансов или сложных рассуждений, необходим здоровый скептицизм и осторожность. Лингвистическая беглость генеративных моделей не подкреплена концептуальным мышлением. По словам Чичека, это говорит о том, что разрекламированного наступления эпохи так называемого сильного искусственного интеллекта (то есть общего или универсального ИИ), способного по-настоящему думать, скоро ожидать не приходится.
«Современные инструменты ИИ не понимают мир так, как мы — у них нет „мозга“. Они просто запоминают и могут выдать некоторое понимание, но сами не осознают, о чем говорят», — объясняет исследователь.
Как проверяли
Чтобы проверить способность общедоступных инструментов генеративного ИИ отвечать на вопросы, требующие нюансов и сложного анализа, взяли 719 гипотез из научных статей, опубликованных в бизнес-журналах с 2021 года. Вопрос о том, подтверждает ли исследование ту или иную гипотезу, часто бывает сложным: существуют различные факторы, которые могут вносить коррективы или уравновешивать выводы. Сведение же ответа к простому «истина» или «ложь» требует умения рассуждать.
В 2024 году испытывали бесплатную версию ChatGPT-3.5, в 2025-м — обновленный бесплатный ChatGPT-5 mini. В целом точность между версиями осталась схожей. Когда результаты скорректировали с учетом вероятности случайного угадывания (ведь у простого «тыка» 50% шансов быть правильным), оказалось, что в обоих опытах ИИ лишь на 60% превосходит случайность.
Что делать
Эти итоги высвечивают ключевой пробел в больших языковых моделях: хотя они и могут генерировать беглый и убедительный язык, их способность размышлять над сложными вопросами часто дает сбой, порой подводя их к созданию убедительных объяснений для неверных ответов, подчеркивает ученый.
В этом исследовании тестировался только ChatGPT, но Чичек проводил аналогичные опыты с другими инструментами ИИ и получил сходные данные. «Всегда сохраняйте скептицизм. Я не против ИИ. Я сам им пользуюсь. Но нужно быть очень осторожным», — советует он.




