ИИ-химик синтезировал 35 новых молекул

Программа с открытым исходным кодом помогла преодолеть одно из главных узких мест в процессе химического синтеза.
Shutterstock.AI Generator/Shutterstock/FOTODOM

Поиск прорывных лекарств и перспективных материалов — кропотливая задача для химиков. Чтобы синтезировать перспективные соединения, им приходится просеивать миллионы известных химических реакций, к которым ежегодно добавляются сотни тысяч новых, а затем проверять, возможен ли их синтез в принципе.

Теперь в помощь исследователям пришел искусственный интеллект. Система под названием MOSAIC, описанная в журнале Nature, предложила такие параметры реакций, которые позволили получить 35 соединений с потенциалом для создания фармацевтических препаратов, агрохимикатов или косметики. При этом не потребовалось ни дополнительного поиска в базах данных, ни ручной корректировки условий.

«Синтез малых молекул — это самый медленный этап в разработке лекарств и ряде других важных областей», — говорит профессор Тимоти Ньюхаус из Йельского университета, соавтор исследования.

MOSAIC помогает обойти это узкое место, что может привести к созданию большего количества и более качественных продуктов. Система «способна составлять полные лабораторные прописи — достаточно подробные, чтобы химики могли им следовать, — для создания ранее не существовавших молекул», объясняет химик.

Химия с помощью ИИ

Предсказание условий химических реакций было ключевым направлением применения ИИ в химии. Один из самых известных инструментов — IBM RXN for Chemistry. Он работает на базе большой языковой модели (LLM) и потому использует систему SMILES — упрощенный строчный ввод молекулярных структур, — которая переводит трехмерные химические структуры в буквы, цифры и знаки препинания. У новинки же — принципиально другой подход.

«Наша цель состояла в том, чтобы построить общую модель, которая могла бы читать химию так, как ее пишут химики, — [то есть] воспринимая язык экспериментальных методик и быстро превращая этот коллективный опыт в практическое предложение», — подчеркивает Ньюхаус.

«Следующим естественным шагом», по его словам, станет интеграция пошаговых инструкций, написанных моделью, в автоматизированные системы.

Исследователи использовали ранее разработанную ими систему ИИ, чтобы сгруппировать базу данных из примерно миллиона реакций, извлеченных из патентов, в 2 285 подмножеств. На их основе обучили частично открытую LLM Llama для создания 2 498 отдельных экспертных моделей, каждая из которых специализируется на одном типе химического превращения, начиная с одного типа молекулы. Такой подход может работать на локальных компьютерах, поскольку использует меньше параметров, чем основные LLM.

MOSAIC примечательна тем, что избегает «применения самой большой возможной модели к проблеме, вместо этого фокусируясь на тщательно спроектированной системе гораздо меньших "экспертных" моделей», отмечает материаловед Мартин Зайфрид из Университета штата Северная Каролина: «Каждая специализированная модель точнее в своей области».

Узкое место устранено

Исследователи использовали MOSAIC, чтобы предложить условия для синтеза 52 новых веществ. Проверив методы в лаборатории, они смогли успешно получить 35 из них. Модель также точно предсказала цвет и форму соединений.

Кроме того, MOSAIC предложила условия для проведения реакций, которых не было в использованных для обучения данных. Это дало совершенно новый способ получения азаиндолов, который оказался успешным при тестировании.

Разработка MOSAIC велась совместно с исследователями из коннектикутского подразделения международной фармацевтической компании Boehringer Ingelheim, которые уже применяют эту систему в своей деятельности.

«Они заинтересованы в разработке новых путей синтеза. Если они сократят количество стадий, это сэкономит много денег», — объясняет теоретический и вычислительный химик Виктор Батиста из Йельского университета, соавтор исследования.

MOSAIC доступна в виде открытого исходного кода для использования другими группами, добавил он.

Подписывайтесь и читайте «Науку» в Telegram