ИИ не понимает шуток, показало исследование

Большие языковые модели (LLM) только «притворяются», что понимают каламбуры, выяснило новое исследование.
Оно оценило, как искусственный интеллект обрабатывает парономазии — игру слов, основанную на двойных значениях или фонетическом сходстве, — или, проще говоря, каламбуры. Поводом к анализу стали некоторые прежние работы, предполагающие, что LLM обрабатывают этот тип юмора схожим с человеком образом.
Новое исследование, результаты которого были представлены на конференции 2025 года по эмпирическим методам обработки естественного языка, подвергло тщательной проверке эту сторону ИИ.
Ограничения ИИ
Выяснилось, что несмотря на кажущийся интеллект, для правильного восприятия юмора моделям по-прежнему не хватает подлинного творческого начала и глубокого понимания.
«Наше исследование, пожалуй, впервые наглядно показало, насколько хрупко понимание юмора у больших языковых моделей. Это в некоторой степени удивительно, учитывая их растущие возможности и предыдущие работы на эту тему, — объясняет профессор Хосе Камачо-Кольядос из Школы компьютерных наук и информатики Кардиффского университета, соавтор работы. — Наблюдения подсказывали обратное, и в итоге мы обнаружили, что их понимание каламбуров — всего лишь иллюзия. Например, когда они видят предложение, структурно похожее на каламбур, вроде "Старые X не умирают, они просто X", то настаивают, что это смешно. Особенно это касается случаев, псевдокаламбур не имеет смысла или лишен комического подтекста и двойного значения».
Улучшенные наборы данных
Предыдущие исследования утверждали, что модели ИИ «понимают» юмор почти как люди, однако, по мнению авторов, использовавшиеся наборы данных не были достаточно релевантны для таких далеко идущих выводов.
Для более глубокого изучения команда усовершенствовала существующие наборы данных и создала новые.
Исследователи давали моделям каламбуры вроде: «Штирлиц открыл окно — дуло», а потом заменяли ключевое слово, получая бессмыслицу типа: «Штирлиц открыл окно — ствол».
Зафиксировано значительное падение точности и ошибочная классификация каламбуров, а также выявлены несовершенные фонетические и контекстуальные ориентиры, на которые модели опираются при принятии решений.
Что дальше
«Когда модели сталкиваются с незнакомыми каламбурами, их успех в различении шуток и обычных предложений может падать до 20% — что гораздо хуже ожидаемых 50% при случайном угадывании. Мы также выявили сверхуверенность моделей в предположении, что обрабатываемый ими текст действительно смешной. Это особенно проявлялось в случае с каламбурами, которых они раньше не видели», — говорит Мохаммад Тахер Пилехвар, также соавтор статьи из Кардиффского университета.
Авторы советуют с осторожностью использовать LLM для задач, выходящих за рамки того, что модели запомнили из существующих текстов, — тех, что требуют творческого мышления, например, понимания юмора, эмпатии или культурных нюансов.
«Это лишний раз напоминает, что к результатам работы этих моделей в целом следует относиться с долей скепсиса. Хотя ИИ становится мощнее, наше исследование убедительно показало, что последним пока смектся человек», — заключил Камачо-Кольядос.
Исследователи намерены расширить свою работу за пределы каламбуров, обратившись к другим задачам, требующим креативного и оригинального мышления. А задача-максимум — повышение уровня самосознания систем ИИ, чтобы они научились-таки выявлять, чего они на самом деле не понимают.









