Нейросети научили замечать собственные ошибки при работе с изображениями

Национальная лаборатория Лос-Аламоса (США) опубликовала результаты работы над инструментом, который позволяет в реальном времени отслеживать, насколько ИИ-модель «фантазирует» вместо того, чтобы опираться на реальные данные. Разработка получила название PAS — Prelim Attention Score.
Почему ИИ придумывает то, чего нет
Современные мультимодальные модели — те, что работают одновременно с текстом и изображениями, — генерируют ответ слово за словом. Каждое следующее слово предсказывается на основе предыдущих. Это напоминает работу человека, который пишет длинный отчет и постепенно начинает пересказывать себя, а не смотреть в исходный документ.
Именно так возникают «галлюцинации» — термин, принятый в отрасли для случаев, когда модель уверенно сообщает что-то, чего нет на картинке или в данных. Проблема особенно острая там, где ошибка дорого стоит: в медицинской диагностике, анализе инженерных чертежей, дистанционном зондировании.
Как работает PAS
PAS встраивается в уже существующие модели без их переобучения — как навигатор, который подключают к готовому автомобилю. Инструмент следит за тем, на что именно «обращает внимание» модель в процессе генерации каждого слова: на исходное изображение, на текстовый запрос или на уже написанный ею текст.
Большинство современных визуально-языковых моделей построены на архитектуре трансформера. Упрощенно: трансформер при каждом шаге взвешивает всю доступную информацию и решает, что сейчас важнее. PAS перехватывает именно эти веса и вычисляет, насколько модель увлеклась собственными словами в ущерб изображению.
Результат выдается в виде числового балла. Чем он ближе к нулю — тем ниже вероятность галлюцинации.
«Понимая, как модель уделяет внимание предварительно сгенерированной информации, PAS позволяет точно определить момент, когда она начинает чрезмерно полагаться на собственные слова», — объяснил Суан Нят Хоанг, стажёр лаборатории.
Что говорят авторы
По словам исследователя Маниша Баттараи, главное преимущество инструмента — простота внедрения и низкая вычислительная нагрузка.
«PAS — это метрика реального времени, которая работает как внутренний монитор для ИИ. Система совместима с основными существующими визуально-языковыми моделями и требует минимальных дополнительных вычислительных ресурсов. PAS достигает точности обнаружения галлюцинаций на уровне лучших существующих решений», — сказал Баттараи.
Иными словами, разработчикам не нужно переписывать свои продукты — достаточно подключить PAS как дополнительный слой контроля.
Где это может пригодиться
Исследователи называют несколько областей, где PAS способен существенно снизить риски. В медицине ИИ все чаще анализирует снимки и помогает ставить диагнозы — галлюцинация здесь недопустима. В промышленности модели разбирают технические схемы и чертежи, где одна выдуманная деталь может привести к аварии. Спутниковые данные, научные статьи, юридические документы — везде, где ИИ работает с визуальным контентом, непроверенное утверждение может повлечь серьезные последствия.












