Искусственный интеллект может положить конец анонимности в интернете

Интернет переполнен анонимами: пользователи скрываются за никами — иногда из благих побуждений, например, чтобы свободно высказываться, а иногда и для грязных делишек. Но эта эпоха онлайн-приватности, похоже, подходит к концу. Эксперимент показал, что большие языковые модели (LLM) способны в массовом порядке устанавливать личности владельцев таких аккаунтов.
Долгие годы бытовало мнение, что даже если деанонимизация теоретически возможна, на практике она слишком трудоемка, сложна и дорога. Авторы исследования, выложенного препринтом на arXiv, предположили, что LLM стали достаточно мощными, чтобы поручить эту работу им. Чтобы проверить свою гипотезу, команда разработала автоматизированную систему, имитирующую процесс принятия решений человеком-исследователем.
В поисках анонимов
Сначала ИИ анализирует историю постов пользователя на Reddit или Hacker News, изучая неструктурированный текст. Это сырая, неорганизованная информация: комментарии, шутки, упоминания об образовании, а также едва уловимые особенности стиля письма. Затем он преобразует эти микроданные в математическое представление профиля человека, чтобы найти потенциальные совпадения среди миллионов других профилей — как в открытом вебе, так и на отдельных сайтах вроде LinkedIn.
Когда ИИ находит возможные совпадения, он взвешивает доказательства того, что оба профиля принадлежат одному человеку. Затем модель присваивает своему прогнозу оценку уверенности. Если она не уверена в результате, то просто ничего не выдает. Это помогает гарантировать, что система не гадает наобум.
Исследователи проверили свою систему на почти 1000 профилях LinkedIn, чтобы посмотреть, сможет ли она сопоставить их с аккаунтами на Hacker News. Для эксперимента отбирались профили, чья принадлежность реальным людям была известна команде; перед началом теста из их биографий удалили имена, ссылки и другие очевидные идентификаторы.
Успешные совпадения
Система на базе ИИ успешно связала аккаунты с точностью до 67% при уровне достоверности 90% — то есть когда модель на 90% и более была уверена в своем ответе, ее предсказания совпали с действительностью в 67% случаев. Лучшие методы без использования ИИ в таких задачах с трудом дают хоть какой-то результат.
ИИ также смог сопоставлять людей через разные сообщества Reddit, даже если пользователи распределяли свою активность по разным аккаунтам и временным периодам. Исследователи подсчитали, что идентификация пользователей обходится дешево: от 1 до 4 долларов на вычислительные мощности за каждый успешно деанонимизированный аккаунт.
«Практическая незаметность, которая долгое время защищала пользователей под никами... больше не работает, — резюмируют авторы исследования. — Пользователи, которые пишут под постоянными никами, должны исходить из того, что злоумышленники могут связать их аккаунты с реальными личностями или друг с другом, и что вероятность этого растет с каждым фрагментом публикуемых ими микроданных».
Полученные результаты показывают, что при дальнейшем развитии эта система могла бы найти применение во многих областях, таких как правоохранительная деятельность и кибербезопасность.









