ИИ-химик синтезировал 35 новых молекул

Поиск прорывных лекарств и перспективных материалов — кропотливая задача для химиков. Чтобы синтезировать перспективные соединения, им приходится просеивать миллионы известных химических реакций, к которым ежегодно добавляются сотни тысяч новых, а затем проверять, возможен ли их синтез в принципе.
Теперь в помощь исследователям пришел искусственный интеллект. Система под названием MOSAIC, описанная в журнале Nature, предложила такие параметры реакций, которые позволили получить 35 соединений с потенциалом для создания фармацевтических препаратов, агрохимикатов или косметики. При этом не потребовалось ни дополнительного поиска в базах данных, ни ручной корректировки условий.
«Синтез малых молекул — это самый медленный этап в разработке лекарств и ряде других важных областей», — говорит профессор Тимоти Ньюхаус из Йельского университета, соавтор исследования.
MOSAIC помогает обойти это узкое место, что может привести к созданию большего количества и более качественных продуктов. Система «способна составлять полные лабораторные прописи — достаточно подробные, чтобы химики могли им следовать, — для создания ранее не существовавших молекул», объясняет химик.
Химия с помощью ИИ
Предсказание условий химических реакций было ключевым направлением применения ИИ в химии. Один из самых известных инструментов — IBM RXN for Chemistry. Он работает на базе большой языковой модели (LLM) и потому использует систему SMILES — упрощенный строчный ввод молекулярных структур, — которая переводит трехмерные химические структуры в буквы, цифры и знаки препинания. У новинки же — принципиально другой подход.
«Наша цель состояла в том, чтобы построить общую модель, которая могла бы читать химию так, как ее пишут химики, — [то есть] воспринимая язык экспериментальных методик и быстро превращая этот коллективный опыт в практическое предложение», — подчеркивает Ньюхаус.
«Следующим естественным шагом», по его словам, станет интеграция пошаговых инструкций, написанных моделью, в автоматизированные системы.
Исследователи использовали ранее разработанную ими систему ИИ, чтобы сгруппировать базу данных из примерно миллиона реакций, извлеченных из патентов, в 2 285 подмножеств. На их основе обучили частично открытую LLM Llama для создания 2 498 отдельных экспертных моделей, каждая из которых специализируется на одном типе химического превращения, начиная с одного типа молекулы. Такой подход может работать на локальных компьютерах, поскольку использует меньше параметров, чем основные LLM.
MOSAIC примечательна тем, что избегает «применения самой большой возможной модели к проблеме, вместо этого фокусируясь на тщательно спроектированной системе гораздо меньших "экспертных" моделей», отмечает материаловед Мартин Зайфрид из Университета штата Северная Каролина: «Каждая специализированная модель точнее в своей области».
Узкое место устранено
Исследователи использовали MOSAIC, чтобы предложить условия для синтеза 52 новых веществ. Проверив методы в лаборатории, они смогли успешно получить 35 из них. Модель также точно предсказала цвет и форму соединений.
Кроме того, MOSAIC предложила условия для проведения реакций, которых не было в использованных для обучения данных. Это дало совершенно новый способ получения азаиндолов, который оказался успешным при тестировании.
Разработка MOSAIC велась совместно с исследователями из коннектикутского подразделения международной фармацевтической компании Boehringer Ingelheim, которые уже применяют эту систему в своей деятельности.
«Они заинтересованы в разработке новых путей синтеза. Если они сократят количество стадий, это сэкономит много денег», — объясняет теоретический и вычислительный химик Виктор Батиста из Йельского университета, соавтор исследования.
MOSAIC доступна в виде открытого исходного кода для использования другими группами, добавил он.









