Что на самом деле видит ИИ, «глядя» на изображение — выяснили в исследовании

Уникальность исследования в том, что оно впервые напрямую сравнивает, как люди и ИИ оценивают изображения, используя один и тот же метод анализа.
Ayesha kanwal/Shutterstock/FOTODOM

Новое исследование Института когнитивных и мозговых наук имени Макса Планка показывает, что ИИ и человек используют принципиально разные подходы когда видят объекты: люди фокусируются на смысле объектов, а ИИ — на их визуальных характеристиках, таких как форма и цвет. Эта «визуальная предвзятость» ИИ может влиять на его надежность и открывает новые вопросы о том, как машины понимают окружающий мир.

Исследование показывает, что даже если ИИ кажется точным в распознавании объектов, он «думает» иначе, чем человек. Это открытие особенно значимо, поскольку ИИ все чаще применяется в критически важных сферах: медицине, автономных транспортных системах, судопроизводстве. Понимание различий в восприятии помогает сделать ИИ более надежным и дает новые знания о том, как устроено человеческое мышление.

Уникальность исследования в том, что оно впервые напрямую сравнивает, как люди и ИИ оценивают изображения, используя один и тот же метод анализа.

Как проводилось исследование?

Ученые проанализировали около 5 миллионов суждений людей о сходстве 1 854 изображений объектов. Участникам, например, показывали изображения гитары, слона и стула и просили выбрать, какой из них «не вписывается». Те же изображения затем обрабатывала глубокая нейронная сеть VGG-16 — модель ИИ, широко применяемая для распознавания изображений.

VGG-16 состоит из 16 слоев, которые анализируют визуальные данные — от простых форм (например, контуры и линии) до более сложных объектов. Она обучена на базе данных ImageNet, включающей миллионы изображений.

Для сравнения восприятия применялась система, выделяющая ключевые характеристики изображений — так называемые «измерения». Эти измерения отражают как визуальные свойства (например, «круглый» или «белый»), так и смысловые (например, «связанное с животными» или «связанное с огнём»).

«Эти измерения представляют различные свойства объектов — от чисто визуальных, таких как “круглый” или “белый”, до более семантических, таких как “связанные с животными” или “связанные с огнем”», — объясняет Флориан Махнер, ведущий автор исследования.

Что выяснили?

Фото: MPI CBS

Люди, оценивая изображения, прежде всего ориентировались на смысл. Они группировали объекты по значению — например, объединяя всех животных в одну категорию. ИИ же чаще полагался на визуальные признаки, такие как форма, цвет и текстура. Это и есть «визуальная предвзятость».

«Наши результаты показали важное различие: в то время как люди в первую очередь сосредотачиваются на измерениях, связанных со смыслом — что это за объект и что мы знаем о нем, — модели ИИ в большей степени полагаются на измерения, описывающие визуальные свойства», — отмечает Махнер.

Например, по измерению «связанное с животными» ИИ мог пропустить изображения настоящих животных или включить туда объекты, визуально на них похожие, но не имеющие отношения к животному миру. Это демонстрирует: ИИ воспринимает мир иначе, чем человек, и не всегда понимает контекст.

Ученые проверили результаты несколько раз

Чтобы убедиться, что выделенные измерения имеют смысл, исследователи провели серию тестов:

  • анализировали, какие части изображения использует ИИ для принятия решений;

  • генерировали изображения, максимально соответствующие заданным измерениям;

  • удаляли определенные измерения и наблюдали, как это влияет на работу ИИ.

Результаты подтвердили: несмотря на высокую точность, ИИ лишь приблизительно воспроизводит смысловые категории, которые использует человек.

«Когда мы начали смотреть ближе и сравнивали их с людьми, мы заметили важные различия», — говорит Мартин Хебарт, один из соавторов статьи.

Что такое глубокая нейронная сеть и VGG-16?

Глубокая нейронная сеть — это разновидность искусственного интеллекта, вдохновленная работой человеческого мозга. Она состоит из слоев, каждый из которых обрабатывает данные с возрастающей сложностью. VGG-16 — разработка Оксфордского университета, включающая 16 слоев, и достигающая точности 92,7 % при распознавании объектов из базы ImageNet. Но, как показывает исследование, даже такие сложные и точные модели не воспринимают мир так, как это делает человек.

Исследование предлагает новый метод сопоставления восприятия ИИ и человека. Это может помочь устранить визуальную предвзятость и сделать ИИ более надежным в ситуациях, где важно понимание контекста. Кроме того, сравнительный подход дает ученым новые данные о природе человеческого познания.

«Наше исследование дает понятный способ сравнивать, как ИИ и люди воспринимают информацию. Это помогает лучше понять, как именно ИИ "думает" и чем он отличается от человека», — подытоживает Хебарт.

 

Подписывайтесь и читайте «Науку» в Telegram