Лингвисты и специалисты по ИИ назвали особенности языка, отличающие фейковые новости

Shutterstock
Глагольные времена, местоимения и метафоры могут отличаться, если авторы пытаются вас обмануть.

Несколько словарей и языковых организаций назвали идиому «фейковые новости» словом 2017 года. С развитием соцсетей многие из нас поняли, что если что-то кажется слишком хорошим или плохим, чтобы быть правдой, то чаще всего это и есть ложь или искажение фактов. Но как насчет самого языка — может ли он дать представление о том, насколько правдив текст, который вы читаете?

В Университете Осло (Норвегия) лингвисты работают со специалистами по искусственному интеллекту, чтобы разоблачить язык фейковых новостей, который они называют Fakespeak.

«Наша цель — улучшить существующие инструменты проверки фактов», — говорит Силье Сюзанна Альвестад, руководитель проекта.

В 2003 году журналист New York Times Джейсон Блэр был уличен в фабрикации ряда новостных статей. Ученые собрали эти фальшивые тексты и сравнили их с подборкой реальных новостей, написанных Блэром. Тексты действительно оказались разными по стилю, сообщает университет.

Исследователи обнаружили несколько больших языковых различий:

  • Ложные тексты имели более неформальный стиль, а честные содержали более высокую плотность информации.

  • В правдивых текстах — более частое использование существительных и слов, заменяющих существительные. В среднем слова длиннее.

  • В поддельных текстах — более частое использование глаголов, особенно в настоящем времени. Кроме того, чаще встречались местоимения, прилагательные, эмоционально-окрашенные слова, междометия.

«Также он использует меньше метафор в своих фейковых новостных статьях, чем когда пишет правду», — говорит Альвестад.

Кроме того, любопытно, что Блэр часто использует лингвистические элементы, которые описывают или пытаются вызвать положительные эмоции, что необычно для фейковых новостей, обычно склонных к запугиванию. Исследовательница говорит, что это могло быть связано с темой. Несколько текстов Блэра — фальшивые истории о героических американских солдатах во время войны в Ираке: «Журналист пытался представить войну в Ираке в положительном свете».

Однако текстов Джейсона Блэра в общей сложности набирается лишь 80 страниц, а специалисты по машинному обучению предпочитают работать с гораздо большими наборами данных. Поэтому к исследованию добавили корпус текстов разных авторов из сервисов проверки фактов.

Анализ результатов на примере английского языка в целом подтвердил выводы. Теперь исследователи включились в работу над выявлением языковых признаков фейковых новостей на других языках. Они уверены, что если удастся доказать значимое сходство, это даст мощный инструмент для борьбы с фейками в интернете.

Вранье: как его распознать — и надо ли?

Новое исследование показывает, как разоблачить лжецов