Новости

Математики проанализировали тексты мировых бестселлеров

Исследователи Санкт-Петербургского государственного университета и Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль) предложили новое решение для компьютерного исследования авторства и стиля текстов, основанное на моделировании динамического процесса их написания. Уникальный подход позволил ученым проанализировать произведения Джона Толкина, Айзека Азимова, Артура Кларка и многих других известных писателей, увидев, каким образом менялся их авторский стиль. Результаты одной из последних работ научной группы опубликованы в журнале Pattern Recognition издательского дома Elsevier.

Для исследования математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова «Основание», серию произведений Джона Голсуорси «Сага о Форсайтах», роман в трех томах Джона Толкина «Властелин колец» и другие книги. В предыдущих работах они также анализировали произведения Джоан Роулинг (цикл книг про Гарри Поттера). Интерес для исследователей представляет именно большой массив материалов, который автор создавал на протяжении долгого времени: математические методы позволяют увидеть, как менялись особенности стиля писателя.

«Работать с большими данными можно традиционно: классифицировать их, искать схожие элементы, подобия или группы, — рассказал профессор СПбГУ доктор физико-математических наук Олег Граничин. — Мы же представили новый взгляд на большие данные и предложили изучить то, каким образом они были созданы. Например, любой текст кто-то написал, наговорил или зафиксировал иным способом. Этот процесс тоже имеет свои значимые характеристики, которые проявляются, например, в авторском стиле писателя. Сегодня мы не просто изучаем то, как выглядят данные, а вскрываем характеристики процесса их создания. До нас подобным образом тексты еще никто не анализировал».

В статье исследователи сравнили три книги из цикла «Властелин колец» Джона Толкина с двумя другими его произведениями — «Хоббитом» и «Сильмариллионом». Метод достаточно точно определил, что первая повесть была написана тем же автором, который создал трилогию, а вот «Сильмариллион» заметно отличается по стилю. Это объясняется тем, что книга была издана уже после смерти автора: сборник мифов и легенд Средиземья дорабатывал сын Джона Толкина — Кристофер Толкин, который несколько лет изучал черновики отца.

«Заметны отличия стиля и в произведениях одного автора, — рассказывает аспирант кафедры системного программирования СПбГУ Наталья Кижаева. — К примеру, четвертую часть из цикла "Основание" Айзек Азимов написал спустя почти 30 лет после того, как была создана третья часть, — на этом настояли его поклонники. Наш метод позволил разделить семь книг серии на два кластера: созданные до 1953 года и после 1982. За 30 лет изменился сам автор, его окружение, его видение жизни и, как следствие, — авторский стиль».

Исходными данными для представленного в статье метода моделирования динамического процесса написания текстов являются не только последовательности символов текста и слова, а еще и последовательности N-грамм (связанных цепочек символов). Например, при N=3 вместо шести символов «_мама_» компьютерная программа, в частности, выделит в тексте триграммы «_ма», «мам», «ама», «ма_». Далее исследуемый документ делится на поддокументы, из которых формируется упорядоченная последовательность появления N-грамм, где ищется зависимость между каждым из полученных таким образом поддокументов и его «соседями». Для этого используются методы, разработанные ранее в теории обработки сигналов, выделяющие частотные характеристики в последовательностях данных. Новый метод определяет своеобразные «частотные характеристики» авторского стиля по аналогии с частотами физических волн, регистрируемых специальными приборами.

Создатели алгоритма планируют опробовать методику и на произведениях русской литературы, ведь его можно применять для анализа текстов, написанных на других языках, использующих латинский алфавит, кириллицу и арабскую графику.

Разработка, как отмечают исследователи, может помочь в анализе не только литературных произведений, но и неструктурированных текстов. Например, метод пригодится при обработке массивов данных, поступающих на диспетчерские пульты или в различные кол-центры по работе с клиентами. Израильские коллеги применяют разработку для определения искусственно сгенерированных текстов, написанных не человеком, а машиной. Например, существуют программы, фабрикующие тесты, похожие на настоящие научные статьи, которые нередко принимают для опубликования в известных журналах. Метод позволяет с большей точностью отличать такие статьи от текстов, написанных человеком.

Читайте также
Разбился градусник? Это не настолько опасно, как нам внушали
Разбился градусник? Это не настолько опасно, как нам внушали
Почему не страшно разбить термометр и как действовать, если у вас дома пролилась ртуть?
Особые отношения с болью: чем рыжие люди отличаются от остальных
Особые отношения с болью: чем рыжие люди отличаются от остальных
Рыжий цвет волос — это определенный генетический полиморфизм. Опасен ли он для человека?
Майнеры и генетики воскрешают мамонта. Их проект реален?
Майнеры и генетики воскрешают мамонта. Их проект реален?
Генетики и майнеры объединились в стремлении воскресить шерстистого мамонта. Реален ли их проект?