Обугленный свиток из окрестностей Помпей расшифровал ИИ. Ученые бились над этим 250 лет
Студенты, участвующие в конкурсе, смогли сделать то, что не удавалось ученым на протяжении более чем 250 лет — прочитать свитки, обуглившиеся и законсервированные при извержении вулкана Везувия в 79 году нашей эры. Об успехе сообщила дирекция конкурса Vesuvius Challenge, целью которого было обучение нейросетей для работы с обгоревшими документами.
На данный момент удалось прочитать и перевести около 5% свитка, который был объектом изучения для участников конкурса. Уже понятно, что это ранее неизвестный древний текст. Вероятно, он написан древнеримским философом Филодемом, который, как считается, жил в Геркулануме на вилле, где обнаружена библиотека с папирусными свитками.
«Общая тема текста — удовольствие, которое в правильном понимании является высшим благом в эпикурейской философии. В этих двух фрагментах автор обеспокоен тем, может ли наличие товаров, таких как еда, повлиять на удовольствие, которое они доставляют, и если да, то каким образом. Приносят ли вещи, доступные в меньших количествах, больше удовольствия, чем те, которые доступны в изобилии? Наш автор думает, что нет», — пересказывают документ исследователи.
При этом переведенный отрывок — конец текста. Но он заканчивается словами: «Такие вопросы будут рассматриваться часто». Вероятно, это означает, что трактат продолжится в других свитках.
Кроме того, удалось распознать, что упоминается некий Ксенофант. Возможно, это тот самый человек — предположительно музыкант, — упомянутый Филодемом в ранее известном труде «О музыке». Возможно даже, что «О музыке» — это четвертая часть из серии трактатов, а расшифрованный с помощью искусственного интеллекта свиток — одна из предыдущих частей.
«Является ли автор последователем Эпикура, философом и поэтом Филодемом, учителем Вергилия? Это кажется очень вероятным. Пишет ли он о влиянии музыки на слушателя и сравнивает ли ее с другими удовольствиями, такими как еда и питье? Вполне возможно. Не взят ли этот текст из его четырехчастного трактата о музыке, четвертая книга которого нам известна? Вполне возможно: вскоре название должно стать доступным для прочтения», — рассуждает доктор философии Ричард Янко из Университета Мичигана (США).
Ученые ожидают, что уже в ближайшее время удастся распознать и перевести новые фрагменты текстов из древних папирусов. Кроме того, как минимум два этажа дома в Геркулануме до сих пор засыпаны пеплом и не вскрывались археологами — и может быть, там находится еще большее собрание документов.
Конкурс, который превзошел ожидания
Библиотеку со свитками, которые сейчас известны как Папирусы Геркуланума, ученые обнаружили в XVIII веке при раскопке виллы в городе Геркулануме, находившемся рядом с Помпеями и погибшем одновременно с ними. Сотни документов, которые много веков сохранялись в слое вулканического пепла, сейчас находятся в библиотеках разных стран мира. Развернуть свитки, чтобы прочесть обычным образом, невозможно — они обуглились и очень хрупкие.
В 2023 году ученые решили обратиться за помощью к искусственному интеллекту. Чтобы стимулировать разработчиков со всего мира для поиска подходящих алгоритмов, был запущен конкурс Vesuvius Challenge. Достигшие успеха команды получали денежные призы — в сумме более 1 миллиона долларов.
На первом этапе свитки, которые хранились в Институте Франции, были отсняты с помощью ускорителя частиц Diamond Light Source недалеко от Оксфорда. Получились компьютерные томограммы, которые были опубликованы в высоком разрешении для участников конкурса. Конкурс предполагал промежуточные награды, например, за первую идентификацию чернил или за первые прочитанные буквы. Но главная награда присуждалась по итогам работы в течение года — и весь январь жюри из специалистов по древним документов и IT-технологиям оценивало результаты.
«Был один материал, который явно выделялся среди остальных. Работая независимо, каждый член нашей команды папирологов извлек из этого материала больше текста, чем из любого другого. Примечательно, что заявка соответствовала критериям, которые мы установили при объявлении конкурса в марте: 4 отрывка из одного свитка по 140 символов в каждом, при этом не менее 85% текста можно прочитать. Но когда мы объявляли эти критерии, большинство из нас не верили, что удастся получить более чем 30% читаемого текста!», — отмечается в сообщении.
Кроме основного материала, победители конкурса приложили еще 11 фрагментов распознанного текста общим объемом более 2000 символов.
Добиться успеха смогли молодые люди из разных стран: египтянин Юсеф Надер, который сейчас учится в Германии, Люк Фарритор из США и Джулиан Шиллигер из Швейцарии. Все они уже получали промежуточные призы в конкурсе поодиночке, например, именно Фарритор был первым человеком в истории, кто смог прочесть слово из обуглившегося папируса: «ΠΟΡΦΥΡΑϹ», то есть — «фиолетовый». В итоге молодые люди решили объединиться в команду, чтобы решить главную задачу.
Чтение свернутого свитка в итоге предлагается проводить в три этапа. Для начала нужна рентгеновская томография, как было сделано с образцом для конкурса. Затем разработанные участниками Vesuvius Challenge алгоритмы позволят проследить и отделить друг от друга слои папируса. На последнем этапе происходит непосредственно распознавание символов.
Для третьей стадии Надер, Фарритор и Шиллигер создали систему распознавания текста, основанную на техническом зрении. Они научили искусственный интеллект отличать мельчайшие фрагменты уцелевших чернил от обугленного папируса.
Выстраивая схему из множества чернильных точек, компьютер составляет изображения, на которых становятся различимы буквы. Такой подход гарантирует, что нейросеть не «додумает» какие-то символы — ведь она отталкивается от наличия/отсутствия чернильной точки, а не от контура букв. Это стало возможным благодаря авторским алгоритмам машинного обучения.