Новый 3D-тест ставит ИИ в тупик

Ученые протестировали последние модели ИИ в трехмерной среде, результаты чего представили на ежегодной конференции по нейросетям NeurIPS в Сан-Диего. Оказалось, он неплохо справляется с распутыванием простых узлов, но не может как следует завязать узел из обычной петли или преобразовать один узел в другой.
Таким образом, несмотря на успехи в генерации текстов и изображений, искусственному интеллекту еще очень далеко до живого по части пространственного мышления и манипуляций. А эти навыки критически важны в таких областях, как робототехника.
«Современный ИИ прекрасно работает с большими объемами текста. Но как только дело доходит до трехмерного мира, он дает сбой. Большинство современных рассуждений ИИ — текстовые. Это здорово, но недостаточно», — говорит Чэнь (Зоя) Цзычжао, изучающая компьютерную лингвистику в Корнеллском университете.
Вместе с соавтором Йоавом Арци они представили KnotGym — трехмерный симулятор для тестирования различных моделей обучения с подкреплением и больших языковых моделей вроде GPT-4 в виртуальной среде. KnotGym — это тест на визуальное обобщение, который помогает исследователям оценить, насколько хорошо ИИ справляется с задачами, выходящими за рамки базового обучения, и как он реагирует на увеличение сложности. В нем реализована «лестница обобщения», позволяющая постепенно повышать сложность узлов, предлагаемых моделям.
«В большинстве задач компьютерного зрения такого подхода не хватает», — уверена Чэнь.
В KnotGym ИИ-агентам показывали простые изображения петель и различных узлов, после чего ставили задачу: распутать, завязать или преобразовать один узел в другой.
С распутыванием простых узлов ИИ справился неплохо. Уровень успеха достигал примерно 90% для узлов с числом пересечений до четырех, включая базовый узел на шнурках (три пересечения).
А вот завязывание и преобразование узлов оказалось для ИИ сложнее: чем больше пересечений в узле, тем хуже результат. При завязывании узлов с двумя пересечениями успех составил 83%, но для трех пересечений этот показатель резко упал до 16%. С узлами, где пересечений больше трех, ИИ и вовсе не справился. Результаты преобразования узлов оказались примерно такими же.
Исследование показало, что ИИ пока не умеет играть и открывать новое, полагает Чэнь.
«Когда дети играют с этим, — объясняет она, взяв в руки кубик Рубика, — они просто начинают крутить его и в итоге находят последовательность действий, которая приводит к нужной конфигурации, не разрушая уже собранные части. Они исследуют. Они используют прошлый опыт, накапливают знания и движутся к цели. Именно эту способность мы хотели бы видеть у ИИ, но ее пока нет».
В дальнейшем KnotGym планируется усовершенствовать, например, запустив его на GPU — это ускорит процесс оценки, поделилась исследовательница.




