Исследование показало слабое место современных моделей ИИ

Ученые считают, что роботов не нужно долго совершенствовать в лаборатории — им эффективнее учиться в реальной среде и адаптироваться на практике.
Иллюстрация: ChatGPT

Корнельский университет опубликовал результаты исследования, которое проверило, насколько современные модели искусственного интеллекта способны считывать социальные сигналы — и обнаружило неожиданный провал там, где, казалось бы, все должно работать. Работа была представлена на Международной конференции по взаимодействию человека и робота (HRI 2026) в Эдинбурге.

Малыш с кружкой кофе против нейросети

В центре эксперимента — так называемые модели визуального языка, или VLM. Это системы ИИ, которые умеют одновременно работать с изображениями и текстом: смотреть на картинку и рассуждать о ней словами. Грубо говоря, это то, что происходит, когда вы отправляете фотографию чат-боту и просите его описать содержимое.

Исследователи показывали таким моделям короткие видеоролики с напряженными бытовыми сценами — малыш несет слишком полную кружку кофе, мужчина на высокой скорости управляет газонокосилкой, гуманоидный робот пытается перепрыгнуть через дорожные блоки. Задача — предсказать, чем закончится сцена: хорошо или плохо.

Лучшая из моделей с открытым исходным кодом (то есть общедоступных — таких как DeepSeek) справилась с точностью 70%. Лучшая из коммерческих — GPT-4o от OpenAI и Gemini 2.0 Flash от Google — показала около 63%, что примерно соответствует результату обычного человека. 

Где все пошло не так

Затем условия усложнили. Моделям показывали не сами сцены, а лица людей, которые наблюдали за этими сценами — и просили по выражению лиц угадать, чем закончилось происходящее за кадром.

Результат оказался неожиданно слабым. Точность прогнозов упала до диапазона 44,5–53,8%. Некоторые модели и вовсе давали одинаковый ответ на все видео подряд — то есть фактически перестали анализировать и начали угадывать.

Для сравнения: обычный человек справляется с этой задачей значительно лучше. Мы автоматически считываем тревогу, удивление или облегчение на чужом лице и мгновенно корректируем свое понимание ситуации — даже не зная, что именно происходило. ИИ этого не умеет.

«Взаимодействуя с окружающим миром, мы посылаем социальные сигналы. Для робота, работающего в общем с людьми пространстве, способность воспринимать эту информацию имеет ключевое значение для его эффективной работы», — говорит ведущий исследователь проекта, аспирантка Мария Тереза Паррейра. 

Почему это важно для роботов

Проблема не академическая. Роботы все активнее появляются в больницах, на складах, в домах престарелых — везде, где они работают рядом с людьми. Там недостаточно просто не наступить на ногу: нужно понимать, что человек сейчас нервничает, торопится или растерян.

Профессор Венди Джу, один из авторов исследования, формулирует это так:

«Люди настолько добры и чутки к реакциям других людей. Это позволяет нам узнавать от других то, чего мы сами не знаем, — и мы просто пытаемся наделить этим интеллектом и роботов».

Пока что у роботов с этим серьезный пробел. Они неплохо анализируют физическую обстановку — траекторию движения, препятствия, объекты, — но социальный контекст остается для них почти непрозрачным.

Учиться на ошибках, не дожидаясь совершенства

Джу также высказалась против привычки разработчиков доводить робота «до ума» в лаборатории, прежде чем выпускать его в реальный мир.

«Слишком многие ждут, пока не создадут робота, который, по их мнению, работает идеально. Когда они пробуют его на практике, они всегда удивляются, узнав, чего требует контекст и как реагируют люди. Роботы могут учиться в процессе работы».

По ее мнению, правильнее запускать роботов раньше — чтобы они видели свои ошибки и адаптировались.

Паррейра, в свою очередь, смотрит на провал моделей не как на тупик, а как на карту белых пятен:

«В социальных сигналах передается много информации. Использование этой информации будет важно для интеграции роботов в человеческую среду».

Подписывайтесь и читайте «Науку» в MAX