Как разные модели ИИ воспринимают мир, выяснили экспериментальным путем

В 2024 году в Массачусетском технологическом институте (MIT) выдвинули смелую идею: с ростом мощности модели искусственного интеллекта начинают видеть мир одинаково. В Федеральной политехнической школе Лозанны (EPFL) провели эксперименты, показавшие: все гораздо сложнее.
Та концепция двухлетней давности, которую сами авторы назвали «Платоновской гипотезой представления», выглядела довольно стройной. В самом деле: хотя LLM стараются обучать на разных данных, несмотря на их дефицит, они все так или иначе основаны на одной и той же реальности. Следовательно, модели должны представлять ее схожим образом. А если они все независимо друг от друга приходят к одному и тому же внутреннему представлению о мире, не открывает ли это нечто фундаментальное в самой природе интеллекта?
Внутри современных систем ИИ такие понятия, как «собака», «автомобиль» или «дерево», представлены в виде векторов в многомерных пространствах. Чтобы оценить схожесть между моделями, можно сравнить эти внутренние представления, изучая характер распределения расстояний или сходств между множеством понятий. Именно такие измерения дали основания исследователям из MIT для их спорных утверждений.
Проблемы геометрии
«Исходная идея была чрезвычайно захватывающей. Но мы снова и снова возвращались к одному и тому же вопросу: что на самом деле означают эти оценки сходства?» — говорит руководитель лаборатории машинного обучения для биомедицины (MLBio) в EPFL Мария Брбич.
Вместе с коллегами она провела серию опытов, результаты которых будут представлены на Международной конференции по машинному обучению.
Кажущаяся конвергенция разных моделей была обманчивой — LLM выглядели более похожими отчасти из-за проблем в самом способе измерения схожести.
Часть проблемы обусловлена геометрией пространств. Пространства высокой размерности, которые использует ИИ, в отличие от привычного нам трехмерного, контринтуитивны — расстояния в них могут «концентрироваться», из-за чего множество несвязанных точек оказываются почти одинаково удалены друг от друга.
«Мы взяли идеи из геометрии многомерных пространств и воспользовались ими, чтобы подвергнуть сомнению метрики сходства. Как только мы это сделали, многое начало разваливаться», — рассказал Фабиан Грёгер из Базельского университета, ведущий автор статьи.
Простой эксперимент
«Самый простой вопрос, который мы задали в начале: если взять две случайные, полностью независимые модели, которые никогда не обучались и не видели данных, разве может их сходство отличаться от нуля? Если две случайные модели уже кажутся похожими, значит, метрика, скорее всего, фиксирует не осмысленную общую структуру, а некий математический артефакт», — объясняет Брбич.
Исследователи, однако, не опровергли конвергенцию вовсе. Один конкретный тип сходства сохраняется с ростом мощности — локальные отношения соседства между понятиями. На практике это означает, что системы ИИ учатся объединять определенные идеи (автомобили группируются рядом с автомобилями, животные — рядом с животными, а связанные понятия образуют устойчивые соседства), даже в случае кардинально разной геометрии.
Свои выводы авторы назвали «Аристотелевской гипотезой представления». В то время как Платон делал акцент на универсальных идеальных формах, его ученик Аристотель больше внимания уделял отношениям, категориям и контексту. Такой относительный взгляд лучше описывает организацию знаний современными моделями ИИ.
Зачем это нужно
«Наша работа показывает, что в глобальном представлении мира между моделями все еще могут быть значительные различия. Это важно для согласования ИИ [с человеческими ценностями] и, в конечном счете, для нашего понимания того, чему на самом деле обучаются эти модели», — подчеркивает Грёгер.
В исследовании также представлена новая система оценки схожести представлений, в которой устранены выявленные искажения. Подход протестировали на языковых, зрительных и видеомоделях, получив устойчивые доказательства в пользу локальной конвергенции, а не глобального выравнивания.
С этими наработками и, возможно, в сотрудничестве с коллегами (по словам Брбич, авторы первоначальной платоновской гипотезы восприняли «обнулившую» их труды работу конструктивно) предстоит выяснить, в чем именно картина мира у разных ИИ совпадает , а в чем и почему различается.







