Ошибка 404: за 10 лет из Сети исчезла почти половина веб-страниц

Shutterstock.com
Цифровой распад уничтожает информацию в Интернете.

Специалисты исследовательского центра Pew (США) подсчитали, что около 40 % веб-страниц, созданных с 2013 года, больше недоступны из-за цифрового распада. Новое исследование показало, насколько недолговечен онлайн-контент. О масштабах этого явления позволяет судить отчет, опубликованный на сайте Pew Research Center.

Мы привыкли считать Интернет надежным хранилищем информации, где можно отыскать ответ на любой вопрос, обратившись к книгам, статьям, изображениям и другим ресурсам. Но это иллюзия: веб-страницы подвержены цифровому распаду.

Вот почему часто не получается найти статью, прочитанную несколько лет назад. Если она была написана в 2013 году или раньше, велика вероятность, что она просто утрачена.

Цифровой распад — это постепенное искажение, устаревание или исчезновение цифровой информации с течением времени.

В ходе исследования выяснилось, что почти половина страниц, существовавших еще 10 лет назад, стала недоступной. В большинстве случаев это произошло из-за того, что они были перемещены или удалены с работающих веб-сайтов. В этом контексте недоступной считается страница, которой больше нет на главном сервере. Именно такая ситуация обычно приводит к ошибке 404 или ошибкам с другими кодами.

Исследователи опирались на случайную выборку — около 1 млн веб-страниц из архивов Common Crawl. Это интернет-хранилище периодически делает снимки Интернета в том виде, в каком он существует в разное время. Они собрали такие снимки за период с 2013 по 2023 год, а затем проверили, существуют ли эти страницы сейчас. Оказалось, что к концу 2023 года исчезло почти 40 % страниц, актуальных на момент 2013 года. От цифрового распада пострадало даже содержимое моментального снимка 2021 года: примерно 20 % страниц было утеряно.

Специалисты рассмотрели ссылки на 50 000 англоязычных страниц Википедии. Обнаружилось, что 11 % всех ссылок, связанных с Википедией, больше недоступно. На половине страниц была по крайней мере одна неработающая ссылка. Такие ссылки были найдены на каждом пятом правительственном сайте, больше всего — на страницах городских органов власти.  Неработающими оказались около 5 % ссылок на новостных сайтах. Из доступа быстро исчезли и 18 % сообщений в соцсети X (бывший Twitter).

«В большинстве случаев это произошло из-за того, что первоначальная учетная запись была закрыта, заблокирована или полностью удалена. В остальных случаях учетная запись владельца все еще существовала на сайте, но отдельный твит был удален», — пояснили исследователи.

А еще исследователи обнаружили, что чаще всего пропадают твиты, написанные на определенных языках. Например, недоступно 40 % всех твитов на турецком языке и чуть меньше — на арабском. Они исчезают через три месяца после публикации.

Шаг к квантовому интернету: квантовую информацию передали по обычному оптоволокну

Информационная перегрузка также вредна, как загрязнение воздуха — исследование

Мемы — что это такое с научной точки зрения