Главный секрет «невнимательности» ChatGPT и других нейросетей раскрыт

Исследователи из Массачусетского технологического института (MIT) выяснили, почему большие языковые модели (LLM), такие как ChatGPT или DeepSeek, часто переоценивают информацию в начале и конце текста, игнорируя середину. Это явление, названное «предвзятостью позиции», может мешать многим авторам, ищущим ключевые фразы в длинных документах. Работа, представленная на Международной конференции по машинному обучению и опубликованная в arXiv, раскрывает причины этой проблемы и предлагает пути ее решения.
Команда под руководством Синьи Ву создала теоретическую модель, которая объясняет, почему большие языковые модели, такие как ChatGPT, чаще обращают внимание на начало и конец текста. Они читают текст по частям и как бы «приглядываются» к самым значимым словам, чтобы правильно его интерпретировать. Но из-за некоторых технических настроек — например, ограничения видеть только предыдущие слова или указания порядка слов — возникает смещение.
«Эти модели — как черные ящики. Пользователи не видят, что из-за этой предвзятости они работают нестабильно», — объясняет Ву.
Одна из причин, почему модели фокусируются на начале текста, — это особая настройка: они читают текст по порядку и могут учитывать только то, что было раньше. Из-за этого начало кажется им важнее, даже если это не так. Например, в документе на 30 страниц модель с вероятностью 85 % найдет нужную фразу в начале или в конце, но только с 60 % — в середине. Эксперименты показали, что точность распознавания у моделей выше по краям текста и заметно хуже в центре — это называется U-образный эффект. Особенно это заметно в больших моделях, таких как GPT-4, у которых до 96 слоев анализа. Есть механизмы, которые помогают учитывать контекст — например, позиционные подсказки, — но в сложных моделях они работают слабее.
Интересно, что предвзятость модели зависит не только от ее устройства, но и от того, на чем она обучалась. Если в обучающих текстах акцент делается на начале и конце, то и модель будет делать то же самое.
«Если данные предвзяты, нужно настраивать не только архитектуру, но и саму модель», — объясняет Ву.
Исследователи предлагают несколько решений для настройки нейросетей: изменить приоритеты внимания, сократить число слоев (этапов последовательной обработки информации внутри модели) или улучшить позиционные подсказки. Это особенно важно для чат-ботов, которые теряют контекст в середине длинных диалогов, медицинских ИИ, анализирующих истории болезней, систем, ученым работающих с научными текстами, и программных помощников, которым важно понимать код одинаково точно на всем протяжении, а не только в начале и в конце.
«Наше открытие впервые объясняет, почему ИИ так ведет себя, и предлагает, как это исправить. Это поможет создавать модели, которые равномерно обрабатывают текст — особенно важно для медицины и права, где ошибки недопустимы» — говорит соавтор Али Джадбабайе
Исследование охватило 163 модели, в том числе Claude, GPT-4 и Gemini. Ученые проанализировали 10 000 текстов и выяснили: при поиске информации модели гораздо хуже справляются с серединой текста — точность там падает на 25 % по сравнению с началом и концом. Для сравнения, у человека точность остается стабильной — около 80 %. В конце мая 2025 года MIT начал тестировать новые настройки внимания, которые уже улучшили точность в середине текста на 15-20 %.