Искусственный интеллект стал угрозой «Википедии»

В Wikimedia Foundation сообщили о резком росте трафика ИИ-ботов
Сборщики данных испытывают на прочность главную энциклопедию интернета.
JarTee/Shutterstock/FOTODOM

«Википедия» — один из величайших ресурсов знаний, созданных человечеством, содержащий материалы, собранные миллионами добровольцев по всему миру. Однако сейчас энциклопедия сталкивается с растущей угрозой со стороны разработчиков искусственного интеллекта.

С января 2024 года объем сетевого трафика, связанного с загрузкой изображений и видео, вырос на 50%, сообщил управляющий проектом некоммерческий фонд Wikimedia Foundation. Этот всплеск в основном обусловлен автоматизированными программами для сбора данных, которые разработчики ИИ используют для обучения своих моделей. Беспрецедентный рост интернет-трафика вынуждает Wikimedia тратить больше денег на хранение страниц «Википедии» и сопутствующего контента в арендованных дата-центрах.

«Были сообщения о других сайтах, сталкивающихся с аналогичными проблемами, но когда об этом публично заявляет такая заметная и критически важная организация, как Wikimedia, люди обращают внимание. Вопрос, который они поднимают, очень серьезный — я говорю это как ученый, работающий в области ИИ и его ответственного использования более 15 лет», — заявила профессор Елена Симперл из Королевского колледжа Лондона.

Не менее 65% наиболее дорогого интернет-трафика приходится на ботов, сканирующих данные. Они часто обращаются к непопулярным статьям, и эти запросы должны обрабатываться центральным дата-центром, поскольку такие материалы не хранятся в кэше локальных серверов, в отличие от востребованного контента. «Википедия» старается блокировать эти запросы, чтобы они не мешали живым пользователям.

Wikimedia Foundation «изучает способы управления ботами» и просит разработчиков ИИ «непосредственно поддерживать устойчивость проектов Wikimedia», подтвердила директор по продуктам организации Биргит Мюллер.

«Доступ к публичному контенту или контенту с открытой лицензией бесплатный, но часто упускается из виду, что инфраструктура для его работы требует затрат. Она стоит больших денег, и эти средства, а также люди, которые ее поддерживают, должны откуда-то браться», — напомнила Симперл.

«Википедия» сталкивается также с прямой конкуренцией со стороны ИИ-чатботов, которые могут отвечать на вопросы по разным темам — даже если их ответы не всегда точны. По словам Мюллер, Wikimedia пока не наблюдает снижения трафика из-за развития нейросетей, но их ответы на основе данных энциклопедии обычно не указывают источники и «закрывают пользователям доступ к оригинальной информации».

Уже обнаружены признаки проникновения контента, сгенерированного ИИ, в статьи «Википедии». Однако Wikimedia Foundation не выступает против самой технологии как таковой. Фонд использует инструменты ИИ для помощи живым редакторам в выявлении вандализма, оценке качества статей, проверке удобочитаемости и предложении правок.