Найден признак, выдающий, что текст написан нейросетью

RVillalon/Shutterstock/FOTODOM
Ученые выяснили, что вызывает ощущение странности написанного ИИ текста.

За последние годы заметно выросло качество контента, произведенного искусственным интеллектом. И все же внимательного читателя при чтении сгенерированного нейросетью текста не покидает ощущение: в нем что-то не так.

Ученые Северо-Восточного университета в США нашли признаки, выдающие искусственное происхождение текста. Исследование выложено на сервере препринтов arXiv.

Разным типам больших языковых моделей дали задание написать множество текстов различной тематики — от обзоров фильмов и новостных заметок до биомедицинских исследований. Полученные результаты проанализировали.

Выяснилось, что все сгенерированные ИИ статьи изобилуют так называемыми синтаксическими шаблонами. Например, одна нейросеть, как оказалось, обожает двойные прилагательные, и фильм «Последний черный в Сан-Франциско» она описала как «уникальный и интенсивный опыт просмотра», «крайне оригинальный и впечатляющий дебют» режиссера и «волшебный и заставляющий задуматься» — и все это в пределах двух абзацев.

У каждой языковой модели собственный набор синтаксических шаблонов, но во всех искусственных текстах их больше, чем в написанных живыми людьми.

«Люди также могут создавать эти шаблоны. В их текстах может быть повторяющийся синтаксис, но это происходит гораздо реже, чем в моделях», — заметила аспирантка Шанталь Шаиб, соавтор исследования.

По ее словам, частота шаблонов в тексте не зависит от размера нейросети, но меняется в зависимости от жанра — в научных текстах они не так заметны, как в кинообзорах. Склонность нейросетей к шаблонам также объяснили.

«Мы смогли найти около 75% этих шаблонов в обучающих данных», — сообщила аспирантка.

Она подчеркнула, что это исследование не может служить инструментом для надежного выявления сгенерированных ИИ текстов. Но оно дает понимание, что у них есть объективные отличия, а не просто воспринимаемая на уровне ощущений странность.