Создавая картинки, ИИ постоянно повторяет 12 клише из стоковых фото — исследование

Эксперимент показал: даже при самых разнообразных промтах через десятки итераций нейросети «скатываются» лишь к 12 шаблонам.
Arend Hintze et al./ Patterns, 2025

Исследователи заставили модели искусственного интеллекта сыграть в визуальный «сломанный телефон» — один игрок рисует картинку и описывает ее другому, а тот пытается воссоздать изображение по устному описанию. В новой работе, опубликованной в Patterns, пары ИИ проходили 100 раундов такой передачи изображений и текстовых описаний. Независимо от исходных, часто причудливых подсказок, цепочки быстро сходились к одной и той же дюжине общих, преимущественно евроцентричных мотивов, сообщает служба новостей Science.

Ученые предупреждают, что по мере роста числа автономных систем, которые сами генерируют и оценивают творческий контент, результатом может стать однообразный набор клише и утрата разнообразия творчества.

Джеба Резвана, исследователь из Таунсовского университета (США), отмечает, что работа дает еще одно подтверждение: неуправляемые ИИ-системы способны усиливать существующие предвзятости. Это подчеркивает важность сохранения человеческого контроля.

Если оставить нейросети одних

Сегодня модели ИИ все чаще действуют как автономные «агенты», которые могут генерировать, критиковать и править тексты и мультимедиа без постоянного участия человека. Даже простая команда ChatGPT может запустить цепочку взаимодействий между несколькими моделями. Что произойдет, если людей совсем убрать из процесса? Сохранят ли системы направление и разнообразие, если будут автономно генерировать и оценивать творческую работу?

Чтобы проверить это, команда алгоритмически сгенерировала 100 текстовых подсказок. Промты намеренно делали необычными и максимально разными. Например, «С восходом солнца над страной восемь усталых путешественников собираются в путь, план кажется невозможным, но обещает вывести их за пределы» или «Однажды, особо одиноким, в окружении природы я нашел старую книгу ровно из восьми страниц на забытом языке, ожидающую, когда ее прочтут». 

Каждая подсказка поступала в генератор изображений Stable Diffusion XL (SDXL), который создавал картинку. Затем ее описывала модель с компьютерным зрением (Large Language and Vision Assistant). Это описание снова подавалось в SDXL. Цикл повторялся 100 раз.

Бродячие сюжеты

Довольно быстро исходные идеи начали расплываться. Так, через несколько десятков итераций сюжет о премьер-министре, борющемся с хрупким мирным соглашением, превратился в изображение помпезной гостиной с драматической люстрой. Другие цепочки регулярно сходили к готическим соборам, пасторальным пейзажам или дождливому ночному Парижу.

Тренд сохранялся даже при изменении параметров шума в описывающей модели и при замене участвующих ИИ. В сотнях траекторий модели возвращались к одним и тем же 12 доминирующим мотивам. Их сравнили с «бессмысленным, приятным пустословием».

Частично такая конвергенция может отражать состав обучающих наборов данных: их обычно отбирают так, чтобы изображения были визуально привлекательными, нейтральными и без оскорбительного содержания. Когда эксперимент продлили до 1000 итераций, большинство последовательностей останавливались, как только достигали одного из 12 доминирующих мотивов.

Параллели с мышлением людей

Авторы отмечают параллели с человеческой культурой: сходные сказки и простые геометрические орнаменты возникают в разных культурах, что говорит о склонности к повторению знакомых форм. Однако у людей есть субкультуры, которые сопротивляются унификации. В моделях ИИ «сходимость обусловлена подкреплением без критики».

Остаётся открытым вопрос, можно ли спроектировать системы, сопротивляющиеся влечению к однообразию.

Подписывайтесь и читайте «Науку» в Telegram