«Поисковик для ученых» объединил данные из 100 млн научных статей
General Index — новая огромная бесплатная база данных, предназначенная специально для ученых.
Существует огромное количество исследований, и их объем быстро растет с каждым днем. Ученые в своей работе часто опираются на результаты предыдущих исследований. Однако получить доступ к большей части научной литературы можно только за деньги.
Есть и более серьезная проблема — этот огромный поток данных необходимо анализировать и выискивать нужную информацию.
«У меня или у кого-либо еще нет возможности экспериментально проанализировать или измерить химический отпечаток каждого вида растений на Земле, — сказал биолог Гитанджали Ядав из Кембриджского университета. — Но большая часть информации, которую мы ищем, уже существует в опубликованной литературе».
Другими словами, ученым нужна суперумная версия Google для научных статей. Такой инструмент создал архивист Карл Маламуд, сообщает Science Alert. База данных General Index содержит около 107,2 млн журнальных статей, в общей сложности 38 Тб данных в несжатом виде. Она охватывает более 355 млрд строк текста, каждая из которых содержит ключевое слово или фразу, взятые из опубликованной статьи. Это тщательно структурированный каталог, который можно использовать для изучения результатов научных исследований за десятилетия.
Основная цель General Index — помочь с интеллектуальным анализом текста. Компьютер быстро сканирует миллионы точек данных и перекрестных ссылок на что-то конкретное. Люди не могут прочитать и выделить ключевые данные из миллионов журнальных статей, но компьютерная программа, подключенная к General Index, может. Однако для работы с базой данных потребуются некоторые знания в программировании: интерфейс здесь сложнее, чем у Google.
General Index можно использовать для поиска растений, химикатов, генов, белков, материалов, географических названий и многого другого, хотя он еще нуждается в доработке. Вся эта информация доступна для загрузки и бесплатного использования с портала General Index без применения авторских прав и ограничений: в отличие от скандального портала Sci-Hub, Index содержит лишь отрывки статей, а не сами статьи.