Искусственный интеллект может положить конец анонимности в интернете

arXiv: ИИ достиг точности массовой деанонимизации интернет-пользователей 67%
Исследователи настроили модель на массовую онлайн-деанонимизацию пользователей и получили ошеломительные результаты.
Who is Danny/Shutterstock/FOTODOM

Интернет переполнен анонимами: пользователи скрываются за никами — иногда из благих побуждений, например, чтобы свободно высказываться, а иногда и для грязных делишек. Но эта эпоха онлайн-приватности, похоже, подходит к концу. Эксперимент показал, что большие языковые модели (LLM) способны в массовом порядке устанавливать личности владельцев таких аккаунтов.

Долгие годы бытовало мнение, что даже если деанонимизация теоретически возможна, на практике она слишком трудоемка, сложна и дорога. Авторы исследования, выложенного препринтом на arXiv, предположили, что LLM стали достаточно мощными, чтобы поручить эту работу им. Чтобы проверить свою гипотезу, команда разработала автоматизированную систему, имитирующую процесс принятия решений человеком-исследователем.

В поисках анонимов

Сначала ИИ анализирует историю постов пользователя на Reddit или Hacker News, изучая неструктурированный текст. Это сырая, неорганизованная информация: комментарии, шутки, упоминания об образовании, а также едва уловимые особенности стиля письма. Затем он преобразует эти микроданные в математическое представление профиля человека, чтобы найти потенциальные совпадения среди миллионов других профилей — как в открытом вебе, так и на отдельных сайтах вроде LinkedIn.

Когда ИИ находит возможные совпадения, он взвешивает доказательства того, что оба профиля принадлежат одному человеку. Затем модель присваивает своему прогнозу оценку уверенности. Если она не уверена в результате, то просто ничего не выдает. Это помогает гарантировать, что система не гадает наобум.

Исследователи проверили свою систему на почти 1000 профилях LinkedIn, чтобы посмотреть, сможет ли она сопоставить их с аккаунтами на Hacker News. Для эксперимента отбирались профили, чья принадлежность реальным людям была известна команде; перед началом теста из их биографий удалили имена, ссылки и другие очевидные идентификаторы.

Успешные совпадения

Система на базе ИИ успешно связала аккаунты с точностью до 67% при уровне достоверности 90% — то есть когда модель на 90% и более была уверена в своем ответе, ее предсказания совпали с действительностью в 67% случаев. Лучшие методы без использования ИИ в таких задачах с трудом дают хоть какой-то результат.

ИИ также смог сопоставлять людей через разные сообщества Reddit, даже если пользователи распределяли свою активность по разным аккаунтам и временным периодам. Исследователи подсчитали, что идентификация пользователей обходится дешево: от 1 до 4 долларов на вычислительные мощности за каждый успешно деанонимизированный аккаунт.

«Практическая незаметность, которая долгое время защищала пользователей под никами... больше не работает, — резюмируют авторы исследования. — Пользователи, которые пишут под постоянными никами, должны исходить из того, что злоумышленники могут связать их аккаунты с реальными личностями или друг с другом, и что вероятность этого растет с каждым фрагментом публикуемых ими микроданных».

Полученные результаты показывают, что при дальнейшем развитии эта система могла бы найти применение во многих областях, таких как правоохранительная деятельность и кибербезопасность.

Подписывайтесь и читайте «Науку» в Telegram