Новый 3D-тест ставит ИИ в тупик

Современные модели искусственного интеллекта не могут даже зашнуровать себе ботинки.
Phonlamai Photo/Shutterstock/FOTODOM

Ученые протестировали последние модели ИИ в трехмерной среде, результаты чего представили на ежегодной конференции по нейросетям NeurIPS в Сан-Диего. Оказалось, он неплохо справляется с распутыванием простых узлов, но не может как следует завязать узел из обычной петли или преобразовать один узел в другой.

Таким образом, несмотря на успехи в генерации текстов и изображений,  искусственному интеллекту еще очень далеко до живого по части пространственного мышления и манипуляций. А эти навыки критически важны в таких областях, как робототехника.

«Современный ИИ прекрасно работает с большими объемами текста. Но как только дело доходит до трехмерного мира, он дает сбой. Большинство современных рассуждений ИИ — текстовые. Это здорово, но недостаточно», — говорит Чэнь (Зоя) Цзычжао, изучающая компьютерную лингвистику в Корнеллском университете.

Вместе с соавтором Йоавом Арци они представили KnotGym — трехмерный симулятор для тестирования различных моделей обучения с подкреплением и больших языковых моделей вроде GPT-4 в виртуальной среде. KnotGym — это тест на визуальное обобщение, который помогает исследователям оценить, насколько хорошо ИИ справляется с задачами, выходящими за рамки базового обучения, и как он реагирует на увеличение сложности. В нем реализована «лестница обобщения», позволяющая постепенно повышать сложность узлов, предлагаемых моделям.

«В большинстве задач компьютерного зрения такого подхода не хватает», — уверена Чэнь.

В KnotGym ИИ-агентам показывали простые изображения петель и различных узлов, после чего ставили задачу: распутать, завязать или преобразовать один узел в другой.

С распутыванием простых узлов ИИ справился неплохо. Уровень успеха достигал примерно 90% для узлов с числом пересечений до четырех, включая базовый узел на шнурках (три пересечения).

А вот завязывание и преобразование узлов оказалось для ИИ сложнее: чем больше пересечений в узле, тем хуже результат. При завязывании узлов с двумя пересечениями успех составил 83%, но для трех пересечений этот показатель резко упал до 16%. С узлами, где пересечений больше трех, ИИ и вовсе не справился. Результаты преобразования узлов оказались примерно такими же.

3D-тест ставит ИИ в тупик
Фото: arXiv
Успех определяется не точным совпадением формы, а совпадением кода Гаусса — математического описания топологии узла.

Исследование показало, что ИИ пока не умеет играть и открывать новое, полагает Чэнь.

«Когда дети играют с этим, — объясняет она, взяв в руки кубик Рубика, — они просто начинают крутить его и в итоге находят последовательность действий, которая приводит к нужной конфигурации, не разрушая уже собранные части. Они исследуют. Они используют прошлый опыт, накапливают знания и движутся к цели. Именно эту способность мы хотели бы видеть у ИИ, но ее пока нет».

В дальнейшем KnotGym планируется усовершенствовать, например, запустив его на GPU — это ускорит процесс оценки, поделилась исследовательница.

Подписывайтесь и читайте «Науку» в Telegram