Учёные проверили, насколько нейросети пригодны для создания новых лекарств

Учёные проверили, насколько нейросети пригодны для создания новых лекарств Учёные российского научно-исследовательского института искусственного интеллекта AIRI создали бенчмарк для проверки того, насколько большие языковые модели (LLM) справляются с реальными задачами химиков. Причём речь идёт не просто об извлечении фактов, а о последовательном решении связанных между собой вопросов и исследовательской проблематики.

Учёные проверили, насколько нейросети пригодны для создания новых лекарств

Учёные российского научно-исследовательского института искусственного интеллекта AIRI создали бенчмарк для проверки того, насколько большие языковые модели (LLM) справляются с реальными задачами химиков. Причём речь идёт не просто об извлечении фактов, а о последовательном решении связанных между собой вопросов и исследовательской проблематики.

Для этих целей исследователи AIRI разработали новый бенчмарк, построенный из композиций базовых химических задач. В бенчмарк вошли такие параметры, как определение продуктов реакций, предсказание их свойств и генерация описаний молекул по формуле и другие.

Примечательно, что каждая цепочка заданий для нейросети моделирует логику реальной повседневной работы химика. Для проверки эффективности LLM в потенциальном создании лекарств ИИ должен определить, какой конкретно продукт получится в результате реакции, а затем оценить, обладает ли предложенное вещество каким-либо ценным свойством, в частности биоактивностью.

Таким образом, учёные ставят перед нейросетью многоступенчатые задачи, которые встречаются в реальной практике химиков при поиске новых лекарств или катализаторов, когда необходимо умение рассуждать о свойствах молекулы, комбинируя несколько этапов химического анализа.

Кроме того, учёные рассказали, что для создания нового бенчмарка использовалось пересечение существующих датасетов по реакциям и свойствам молекул, чтобы каждая задача обладала максимальной информативностью. При этом исследователи оценивали разные современные LLM — как универсальные, так и более специализированные химические модели.

В ходе экспериментов оказалось, что универсальные модели, хотя часто и дают содержательные ответы, однако их результаты «порой хуже оцениваются автоматическими метриками по сравнению с моделями, привыкшими к стандартным шаблонам, а профильные решения дают верные ответы на запросы, хотя по формальным метрикам не дотягивают до необходимого качества».

«Наш бенчмарк призван помочь разработчикам языковых моделей лучше понимать архитектурные ограничения нейросетей. Он может стать основой для дальнейших исследований в области автоматизации химических рассуждений», — сообщил научный сотрудник Группы органической химии центра ИИ-разработки лекарственных препаратов AIDD Института AIRI Кузьма Храбров.