Почему ИИ не может понять концепцию цветка как люди: показало исследование

Несмотря на впечатляющие успехи, современные модели искусственного интеллекта (ИИ), такие как ChatGPT и Gemini, не способны «почувствовать» цветок так, как это делает человек. Новое исследование специалистов Университета штата Огайо, опубликованое в журнале Nature Human Behaviour, объясняет, почему большие языковые модели (LLM) воспринимают понятие «цветок» иначе, нежели человек.
Искусственный интеллект обучается в основном на текстах (иногда — на парах «изображение + описание»), но не имеют личного сенсорного опыта.
«Большая языковая модель не может чувствовать запах розы, прикасаться к лепесткам ромашки или ходить по полю полевых цветов», — говорит Цихуй Сюй, один из авторов исследования.
Без ощущения запаха, текстуры и не имея моторных взаимодействий, ИИ просто не может «настоящим» образом представить себе, что такое цветок.
Как сравнивали людей и ИИ
Ученые задействовали четыре современные LLM: GPT-3.5, GPT-4 (OpenAI) и PaLM, Gemini (Google). В тестах участвовали и люди, которым предлагалось оценить 4 442 слова по двум шкалам:
«Нормы Глазго» — университетские исследования, где каждое слово получают оценку по девяти показателям:
- эмоциональное возбуждение (насколько слово «заводит»),
- конкретность (можно ли представить слово в уме),
- «воображаемость» (насколько образно слово воспринимается) и др.
«Нормы Ланкастера» — шкала, фиксирующая, сколько сенсорных и моторных компонентов связано с понятием:
- зрение (видим ли мы это),
- слух, обоняние, осязание, вкус,
- моторика (какие действия мы выполняем: берем в руку, нюхаем, прикасаемся телом и т. п.).
Человек, думая о «цветке», подразумевает не только слово и образ, но и запах, бархатистую поверхность лепестков и действие (например, срывание, вдыхание аромата). ИИ же опираются исключительно на статистику слов в текстах: у них нет «личных воспоминаний» о том, как «на самом деле» пахнут розы.
При оценках, не требующих сенсорного опыта (абстрактные или «маломоторные» понятия), кореляция между ИИ и людьми была очень высокой. Например, для слов «справедливость» или «юмористический» LLM ставили близкие к человеческим оценки по эмоциональному возбуждению и конкретности.
Но стоит перейти к «тактильным» или «вкусовым» словам — и различия становятся разительными.
«Мы показали, что для понятий, связанных с тем, что мы видим, нюхаем, пробуем или с чем взаимодействуем телом, ИИ не улавливает смысл так, как это делает человек», — сообщают авторы.
Пример: «макароны» и «розы» — оба слова по «Ланкастеру» получают высокие «обонятельные» баллы, но люди понимают, что «макароны» ближе к «лапше» не только из-за запаха, но и из-за внешнего вида, вкуса и моторного опыта (готовка, еда). LLM, лишенные этих ассоциаций, не могут столь же четко разделить «макароны» и «розы».
Как это влияет на все что делает ИИ
Если ИИ «хранит» знания иначе, чем человек, это может влиять на взаимодействие: от поиска информации до команд в робототехнике и здравоохранении.
«Язык сам по себе не может полностью восстановить концептуальное представление во всем его богатстве. Человеческий опыт включает миллионы сенсорных и моторных эпизодов; объема текстов вряд ли достаточно, чтобы заменить собственное нюхание и прикосновение», — подчеркивает Цихуй Сюй.
Исследование также обнаружило, что мультимодальные модели (те, что обучены и на изображениях, и на текстах) лучше «понимают» визуальные аспекты. А если добавить данные датчиков или робототехнику, ИИ сможет «учиться» непосредственно в физическом мире. Тогда он начнет формировать более глубокие, приближенные к человеческим, концепции, связанные с запахом, вкусом и осязанием.