13.09.2024, 16:36

Нейросеть научили сомневаться в себе: новая версия ChatGPT умеет рассуждать

Новая модель o1 теперь «думает», прежде чем ответить.

Было много предположений о том, как может выглядеть GPT-5, но OpenAI пошла в другом направлении, отделив новую модель от линейки GPT. Новая модель называется o1. Она уже включена в 100% учетных записей пользователей ChatGPT как опция. GPT-4o (omni) остается универсальной рабочей лошадкой, наиболее подходящей для большинства задач, o1 — это своего рода специалист.

Его специализация — сложные рассуждения. Он останавливается и «думает» вместо того, чтобы сразу же начать отвечать. В этом случае o1 достигает гораздо более высокой производительности при выполнении сложных задач, чем предыдущие модели, по сути, разбивая большую работу на более мелкие задачи, рекурсивно проверяя ее и подвергая сомнению собственные предположения — все это до того, как нейросеть начнет давать вам ответ.

Итак, в то время как GPT-4o обычно сразу приступает к написанию кода, генерации изображений или написанию ответа, o1 может сидеть и обдумывать вопрос некоторое время, планируя свой путь. Это недолго – 10-20 секунд – но, кажется, это имеет большое значение, когда дело доходит до тех сложных проблем, с которыми обычно сталкивались эти языковые модели.

OpenAI утверждает, что, вероятно, имеет смысл выпускать в будущем версии, которые будут тратить часы, дни или даже недели на тщательное решение масштабных, сложных проблем, создавая множество решений, сравнивая их друг с другом и, наконец, давая ответ.

В настоящее время o1 доступна в бета-версии: вы не можете загружать в нее файлы; у нее нет доступа к памяти GPT-4o и персональным системным подсказкам, поэтому они ничего о вас не знают; она не может просматривать веб-страницы в поисках новой информации после октября 2023 года.

Модель с высшим баллом прошла тест OpenAI при приеме на работу для инженеров-исследователей. Сдала тест на Ph.D по физике, по химии и биологии — нет, но была близка. На 83 балла из 100 решила олимпиаду по математике для самых одаренных старшеклассников, что можно считать выдающимся прорывом, потому что математические способности больших языковых моделей всегда были очень скромными.

Кроме того, согласно заявлению разработчиков, новая нейросеть лучше распознает и отклоняет попытки взлома; демонстрирует меньшую предвзятость по признаку возраста, расы и пола; лучше переводит с одного языка на другой и пр. Однако авторы отдельно предупреждают, что модель все еще может «галлюцинировать», придумывать факты и нести бред. Исследователи приводят примеры, где модель o1, не имея доступа к Интернету, выдумывает кучу красивых ссылок, когда ее просят указать источники ответов.