Ученые сравнили ИИ и людей в оценке реальности

PsyArXiv: нынешние модели не способны предсказывать действия людей
В динамике искусственный интеллект по-прежнему проигрывает.
Rawpixel.com/Shutterstock/FOTODOM

В Университете Джонса Хопкинса (JHU) провели исследование способностей искусственного интеллекта к оценке реальности в динамике — и получили удручающие (а для кого-то, возможно, обнадеживающие) результаты: люди до сих пор превосходят ИИ в этой привычной для них стезе.

Описание и интерпретация социальных взаимодействий в динамических сценах необходимы для беспилотных автомобилей, вспомогательных роботов и других технологий, которые полагаются на системы ИИ для навигации в реальном мире.

«Например, ИИ для беспилотного автомобиля должен распознавать намерения, цели и действия водителей и пешеходов. Важно, чтобы он понимал, в какую сторону собирается пойти пешеход, или отличал: люди стоят, болтают или собираются перейти улицу. Всякий раз, когда вы хотите, чтобы ИИ взаимодействовал с людьми, он должен уметь распознавать их намерения. Наше исследование показывает, что нынешние системы на это не способны», — пояснила доцент вычислительной когнитивной науки JHU Лейла Исик.

Исследование, результаты которого выложены на PsyArXiv, представила аспирантка лаборатории Исик Кэти Гарсия на Международной конференции по представлению обучения.

Чтобы сравнить восприятие ИИ-моделей с человеческим, исследователи попросили добровольцев посмотреть трехсекундные ролики и оценить по шкале от 1 до 5 ключевые аспекты социальных взаимодействий. В видео люди либо взаимодействовали друг с другом, либо занимались параллельной деятельностью, либо действовали независимо.

Затем ученые проверили более 350 языковых, видео- и изобразительных моделей ИИ, предложив им предсказать, как люди оценят ролики и как отреагирует их мозг при просмотре. Для больших языковых моделей (LLM) использовались короткие текстовые описания, написанные людьми.

Участники в основном соглашались друг с другом по всем вопросам, а ИИ-модели — независимо от их размера или обучающих данных — демонстрировали разногласия. Видеомодели не могли точно описать действия людей в роликах. Даже модели, анализирующие серии статичных кадров, не всегда правильно определяли, общаются ли люди между собой — или вот-вот тронутся в путь. Языковые модели лучше предсказывали человеческое поведение, а видеомодели точнее прогнозировали нейронную активность мозга.

Результаты резко контрастируют с успехами ИИ в анализе статичных изображений, отметили исследователи.

«Мало просто увидеть изображение и распознать объекты и лица. Это был первый шаг, который значительно продвинул ИИ. Но реальная жизнь не статична. Нам нужно, чтобы ИИ понимал разворачивающуюся в сцене историю. Понимание отношений, контекста и динамики социальных взаимодействий — следующий этап, и это исследование указывает на возможный пробел в разработке ИИ-моделей», — сказала Гарсия. 

По ее мнению, проблема в том, что модели ИИ построены по образцу нейросетей мозга для обработки статичных изображений, тогда как за динамические социальные сцены отвечают другие структуры.

«Есть много нюансов, но главный вывод: ни одна из моделей ИИ не может полностью соответствовать реакции человеческого мозга и поведения на динамические сцены, в отличие от статичных изображений. Думаю, есть что-то фундаментальное в том, как люди обрабатывают сцены, чего не хватает этим моделям», — заключила Исик.