Лингвисты и специалисты по ИИ назвали особенности языка, отличающие фейковые новости
Несколько словарей и языковых организаций назвали идиому «фейковые новости» словом 2017 года. С развитием соцсетей многие из нас поняли, что если что-то кажется слишком хорошим или плохим, чтобы быть правдой, то чаще всего это и есть ложь или искажение фактов. Но как насчет самого языка — может ли он дать представление о том, насколько правдив текст, который вы читаете?
В Университете Осло (Норвегия) лингвисты работают со специалистами по искусственному интеллекту, чтобы разоблачить язык фейковых новостей, который они называют Fakespeak.
«Наша цель — улучшить существующие инструменты проверки фактов», — говорит Силье Сюзанна Альвестад, руководитель проекта.
В 2003 году журналист New York Times Джейсон Блэр был уличен в фабрикации ряда новостных статей. Ученые собрали эти фальшивые тексты и сравнили их с подборкой реальных новостей, написанных Блэром. Тексты действительно оказались разными по стилю, сообщает университет.
Исследователи обнаружили несколько больших языковых различий:
-
Ложные тексты имели более неформальный стиль, а честные содержали более высокую плотность информации.
-
В правдивых текстах — более частое использование существительных и слов, заменяющих существительные. В среднем слова длиннее.
-
В поддельных текстах — более частое использование глаголов, особенно в настоящем времени. Кроме того, чаще встречались местоимения, прилагательные, эмоционально-окрашенные слова, междометия.
«Также он использует меньше метафор в своих фейковых новостных статьях, чем когда пишет правду», — говорит Альвестад.
Кроме того, любопытно, что Блэр часто использует лингвистические элементы, которые описывают или пытаются вызвать положительные эмоции, что необычно для фейковых новостей, обычно склонных к запугиванию. Исследовательница говорит, что это могло быть связано с темой. Несколько текстов Блэра — фальшивые истории о героических американских солдатах во время войны в Ираке: «Журналист пытался представить войну в Ираке в положительном свете».
Однако текстов Джейсона Блэра в общей сложности набирается лишь 80 страниц, а специалисты по машинному обучению предпочитают работать с гораздо большими наборами данных. Поэтому к исследованию добавили корпус текстов разных авторов из сервисов проверки фактов.
Анализ результатов на примере английского языка в целом подтвердил выводы. Теперь исследователи включились в работу над выявлением языковых признаков фейковых новостей на других языках. Они уверены, что если удастся доказать значимое сходство, это даст мощный инструмент для борьбы с фейками в интернете.