Выведена формула, вычисляющая момент, когда ИИ становится опасным

Рассчитать переход ИИ от «доктора Джекила к мистеру Хайду» оказалось возможным математически.
PabloLagarto/Shutterstock/FOTODOM

Большие языковые модели вроде ChatGPT научились решать сложные математические задачи, сдавать трудные экзамены и даже давать советы по разрешению межличностных конфликтов. Вместе с тем генеративный искусственный интеллект не вызывает полного доверия — в большинстве своем пользователи знают, что он может выдавать ошибочную информацию или вредные рекомендации.

В какой же момент полезный инструмент превращается в угрозу? Оказалось, это можно вычислить математически — и довольно просто. Формулу для расчета вывели физики из Университета Джорджа Вашингтона, исследование выложено на сервере препринтов arXiv.

«Переломный момент Джекила и Хайда в поведении ИИ» наступает, когда его внимание оказывается перегруженным — и тогда он принимается галлюцинировать, объясняет профессор Нил Джонсон.

Уравнение на основе скалярных произведений векторов с учетом содержания промта и особенностей обучения модели точно предсказывает шаг, на котором произойдет этот переход.

В статье даны также конкретные рекомендации по профилактике сбоев ИИ. В частности, следует использовать больше релевантных слов в запросах — во избежание распыления внимания чат-бота; вежливость в диалоге с ним никак не влияет на качество работы.

Исследование предоставляет научную основу для обсуждений между общественностью, политиками и компаниями о том, что может пойти не так с ИИ в будущем — в личной, медицинской или социальной сферах — и какие шаги следует предпринять для снижения рисков, заключил Джонсон.