ИИ научили отвечать «Я не знаю», чтобы он не вводил в заблуждение

arXiv: новый метод обучения сделал LLM в 10 раз честнее
Усовершенствование обучения с подкреплением наделило искусственный интеллект способностями к саморефлексии.
Who is Danny/Shutterstock/FOTODOM

Искусственный интеллект с его безграничным объемом знаний может быть очень полезным, но один его недостаток сводит на нет все достоинства — поразительная самоуверенность. Лучшие сегодняшние модели рассуждений ведут себя подобно оппоненту с самым громким голосом: любой свой ответ — будь то взвешенное решение или чистая догадка — они выдают с одинаковым апломбом.

В Лаборатории информатики и искусственного интеллекта Массачусетского технологического института (MIT) выяснили, что корень этой самоуверенности кроется в конкретном изъяне обучения таких моделей, и разработали метод, который исправляет его без малейшего ущерба для точности.

Метод RLCR (обучение с подкреплением, использующее калибровочные награды) описан в препринте на arXiv и будет представлен на международной конференции по машинному обучению ICLR 2026 в Рио-де-Жанейро. Он учит языковые модели выдавать вместе с ответами еще и калиброванные оценки собственной уверенности. Иными словами, LLM не просто дает ответ, но и обдумывает, насколько она в нем сомневается.

В экспериментах на нескольких бенчмарках RLCR снизил ошибку калибровки до 90% без потери точности (а иногда даже с ее ростом) — как на задачах, на которых модель обучали, так и на совершенно новых, незнакомых.

В чем проблема

Методы обучения с подкреплением, лежащие в основе недавних прорывов в ИИ-рассуждениях поощряют модель за правильный ответ и наказывают за неправильный, но не делают никаких различий между тем, как этот ответ был получен. Модель, которая пришла к верному решению путем строгих рассуждений, получает ту же награду, что и модель, которая просто угадала. Со временем это приучает модели отвечать на любой вопрос с непоколебимой уверенностью — есть ли у них веские доказательства или они просто подбрасывают монетку.

Такая самоуверенность влечет негативные последствия. Когда модели внедряют в медицину, юриспруденцию, финансы или любую другую область, где люди принимают решения на основе выводов ИИ, система, выражающая высокую уверенность независимо от своей реальной компетентности, становится ненадежной, и со стороны это трудно заметить. Модель, которая заявляет «я уверена на 95%», будучи правой лишь в половине случаев, опаснее той, которая просто ошибается: пользователь не осознает, что полученный ответ ему лучше перепроверить.

«Стандартный подход к обучению прост и эффективен, но он никак не стимулирует модель выражать неуверенность или говорить „я не знаю“. Поэтому модель естественным образом учится угадывать, когда она не уверена», — объясняет аспирант MIT Мехул Дамани, один из соавторов статьи.

Каково решение

RLCR решает эту проблему, добавляя к функции награды всего один показатель — оценку Брайера, давно известную метрику, которая штрафует за расхождение между заявленной моделью уверенностью и ее реальной точностью. Во время обучения модели учатся размышлять и о самой задаче, и о собственной неопределенности, выдавая ответ вместе с оценкой уверенности. Наказываются как неправильные ответы, в которых LLM необоснованно уверена, так и правильные, сопровождающиеся излишней неуверенностью.

Подход проверили на модели с 7 миллиардами параметров, проведя ряд тестов для решения задач и математических вычислений, включая шесть наборов данных, на которых модель никогда не обучалась. Результаты показали устойчивую закономерность. Стандартное обучение ухудшает калибровку по сравнению с базовой моделью: самооценка LLM теряет точность. RLCR обратил этот эффект вспять, значительно улучшив калибровку без потери точности.

«Удивительно, что обычное обучение не просто не помогает калибровке — оно ей активно вредит: модели становятся одновременно и способнее, и самоувереннее», — говорит аспирантка MIT Иша Пури, соавтор работы.

Оценки уверенности, полученные с помощью RLCR, практически полезны на этапе вывода. Когда модель генерирует несколько вариантов ответов, выбор того, который она сама оценила с наибольшей уверенностью, или взвешенное голосование (где голоса умножаются на заявленную уверенность) повышает и точность, и калибровку по мере роста вычислительных затрат.

Еще одним открытием стала ценность самого процесса саморефлексии ИИ. В этом убедились, проверив оценки уверенности отдельно от ответов при помощи другой модели.

Подписывайтесь и читайте «Науку» в MAX