ИИ впервые превзошел человека в классическом тесте Тьюринга

PNAS: в тесте Тьюринга участники сочли LLM за человека в 73% случаев
Прогресс означает начало новой реальности — весьма мрачной, предупреждают ученые.
tete_escape/Shutterstock/FOTODOM

Искусственный интеллект не просто может пройти тест Тьюринга — с правильным промптом он делает это лучше, чем человек. Таковы результаты эксперимента, проведенного в Калифорнийском университете в Сан-Диего (UCSD).

Результаты исследования опубликованы в Proceedings of the National Academy of Sciences. Оно стало первой работой, в которой большие языковые модели (LLM) строго проверили методом, разработанным британским математиком, «отцом информатики» Аланом Тьюрингом в 1950 году. И первым испытанием, в котором ИИ человека в этом тесте превзошел.

«Мы выяснили, что при правильно подобранных подсказках современные LLM могут передавать тот же тон, ту же прямоту, чувство юмора и, что важно, те же ошибки, что свойственны людям. Мы знаем, что LLM легко выдают знания практически на любую тему, но этот тест показал: они также способны убедительно демонстрировать черты социального поведения. А это серьезно меняет наше представление об ИИ», — говорит психолог Кэмерон Джонс, проводивший это исследование в рамках работы над докторской по когнитивистике в UCSD.

Как проверяли

Для участия в экспериментах привлекли студентов бакалавриата UCSD и более широкую онлайн-аудиторию со специального сервиса, где платят деньги за исследования — всего почти 500 человек. Испытуемые вели диалоги в онлайн-интерфейсе, напоминающем привычные мессенджеры.

«Участник видит на экране разделенный экран и задает вопросы сразу двум собесебникам. Он знает, что один из свидетелей — человек, а другой — ИИ», — описывает Джонс.

Через пять минут (а в отдельном повторном исследовании — через 15 минут) нужно было вынести вердикт: кто из собеседников — живой, а кто — машина. В роли последней в разных опытах выступали GPT-4.5 и LLaMa-3.1-405B, подготовленные промптом, а также GPT-4o без промпта и ELIZA — классический чат-бот 1960-х.

  • Участники считали GPT-4.5 человеком в 73% случаев — чаще, чем реального живого собеседника.
  • LLaMa-3.1-405B с той же самой подсказкой назвали человеком в 56% случаев — по этому показателю она сравнялась с живыми соперниками.
  • Базовые системы выступили куда хуже: ELIZA и GPT-4o в целом принимали за человека лишь в ~23% и ~21% случаев соответственно.

Роль промпта

Промпт состоял из инструкций для модели, какими чертами характера она должна обладать, в каком стиле общаться и, по сути, кем притворяться. Без этих подсказок схожесть с человеком оказалась куда меньше: у GPT-4.5 — 36%, у LLaMa-3.1 — 38%.

«У них есть способность казаться похожими на людей, но они не в состоянии самостоятельно понять, что для этого нужно», — объясняет профессор Бен Берген, соавтор исследования.

Тем не менее — прогресс огромен. И это не обязательно к лучшему. «Эти модели довольно легко "научить" быть неотличимыми от человека. Нам нужно быть бдительнее: когда мы общаемся с незнакомцами онлайн, нельзя быть уверенными, что мы говорим именно с человеком, а не с LLM», — предупреждает Джонс.

Невозможность разобраться, с кем происходит диалог — с человеком или с ботом, — может обернуться серьезными последствиями, добавляет Берген: «Найдется немало желающих использовать ботов, чтобы убедить людей сообщить номера своих социальных страховок, проголосовать за нужную партию или купить определенный товар».

«Тест Тьюринга — это, по сути, игра в ложь для моделей. И они, похоже, очень удачливы в этой игре», — резюмирует психолог.

Подписывайтесь и читайте «Науку» в MAX