快速、精准且可解释的通用药物发现工作流LeadDisFlow:中国团队推动候选药物进入临床Ⅱ期
- 2025-07-18 12:12:08
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯

作者 | 论文团队
编辑 | ScienceAI
传统的靶向药物设计方法长期受限于三大关键瓶颈:初始化合物库的质量不高、湿实验筛选成本高昂以及活性预测模型可解释性差,这些瓶颈严重制约了新药发现的效率。
为突破这一行业难题,湖南大学、华东师范大学联合上海交通大学、华中科技大学等高校科研团队利用先进的分子图像技术,构建了一个快速、精准且可解释的靶向药物通用发现工作流程,旨在加速新药的研发进程。
研究成果以《Discovery of EP4 antagonists with image-guided explainable deep learning workflow》为题发表在《National Science Open》上。

论文地址:https://www.sciengine.com/NSO/doi/10.1360/nso/20240015
该研究提出了一种通用的基于分子图像的可解释生成与筛选工作流 ——LeadDisFlow。LeadDisFlow 作为端到端的 AI 药物研发平台,已成功助力研究人员发现四个具有纳摩尔级别拮抗活性的高选择性 EP4 拮抗剂,大幅缩短了从筛选到初步验证的药物研发周期。该研发平台已被制药公司用于药物发现及优化,已推动一款候选药物进入临床 Ⅱ 期试验阶段。
相较于现有先进方法,LeadDisFlow 展现出两大显著优势:
1. 优越的可解释性:借助基于分子图像的方法与可视化分析技术,该工作流能直观揭示影响分子活性的关键化学结构(或子结构),从而显著增强了模型预测的可靠性与透明度。
2. 完整的端到端实践验证:LeadDisFlow 覆盖了从 AI 设计到实验验证的全链条。通过生成模型创建了针对特定靶点的大规模、多样化且高质量的虚拟化合物库,并利用基于分子图像的深度学习模型进行高通量虚拟筛选。最终通过化学合成与生物活性测试,成功验证了 AI 的预测结果,发现了四种高活性(IC50 值达纳摩尔级)和高选择性的先导化合物,闭环证明了该流程在实践中的可行性与高效性。
方法
LeadDisFlow的核心工作流由两大模块构成:分子生成模块(LeadDisFlow-G)和分子筛选模块(LeadDisFlow-S)。
一、LeadDisFlow-G (分子生成模块)
核心架构:此模块基于循环神经网络(RNN)构建,能够对已知的分子骨架(Scaffold)和分子片段(Fragment)进行智能「装饰」与拼接,创造出全新的分子结构。
分子库生成:研究团队将从 28 个专利中收集的具备一定药理学活性的 EP4 拮抗剂分子作为「种子」,输入到预训练好的 LeadDisFlow-G 模型中。模型以此为基础共生成了 140,569 个结构新颖且独特的分子,构建出庞大的初始虚拟化合物库。
二、LeadDisFlow-S (分子筛选模块) 及漏斗式筛选流程
筛选模块采用了先进的 ImageMol 模型,这是一个基于自监督学习的分子图像属性预测模型,遵循「预训练 - 微调」的高效范式:首先在 1000 万的无标签分子图像数据上进行预训练,学习普适的化学特征;然后,在小规模 EP4 标签的特定任务数据集上进行微调,使其具备精准的活性预测能力。
筛选过程遵循一个高效的「漏斗式」流程,逐步缩小候选范围:
1. 初筛 (基于规则过滤):首先,对初始的 140,569 个分子应用类药性质规则(如分子量、脂水分配系数 LogP 等)和药效团规则进行过滤。此轮筛选后,剩余 19,250 个候选化合物。
2. 中筛 (基于多样性聚类):为确保候选分子的多样性,将 19,250 个化合物进行聚类分析,将其分为 100 个簇。随后,从每个簇中挑选出 20 个代表性分子,得到一个包含 2,000 个分子的、兼具多样性与代表性的高质量子集。
3. 精筛 (基于 AI 模型打分):将这 2,000 个分子输入到经过微调的 LeadDisFlow-S 模型中,进行精准的生物活性预测与评分。
4. 最终遴选 (人工评估与决策):研究人员从模型评分最高的 50 个分子中,结合药物化学家的专业知识,进行化学合成可行性与潜在成药性的评估,确定了 ZY001, ZY002, ZY003, ZY004 这四个分子,用于后续的化学合成与生物活性验证。
结果
基准评估
在基准评估(Benchmark)中,研究团队将本文所用的筛选模型 LeadDisFlow-S 与五种先进的、基于图结构的自监督学习模型进行了性能比较。这些模型包括 GROVER、MGSSL、MPG、GraphMVP 和 MolCLR。在关键的 EP4 拮抗剂活性预测任务上,LeadDisFlow-S 表现出色,其 ROC-AUC 值达到了 0.88,在所有对比模型中位列第一。作为参照,其他模型的表现分别为:GROVER (0.78)、MGSSL (0.78)、MolCLR (0.76)、GraphMVP (0.70) 和 MPG (0.57)。与表现次优的 GROVER 和 MGSSL 模型(AUC 同为 0.78)相比,LeadDisFlow-S 的 AUC 相对性能提升约 12.8%,证明了其在活性预测任务上的优越性。
可解释性研究
为了深入探究模型决策的内在逻辑,研究团队对 LeadDisFlow 的可解释性进行了两项关键研究。
1. 关键药效团的识别:在对筛选得到的化合物进行可视化分析时,LeadDisFlow 能够生成分子热力图,并将「注意力」准确聚焦于对活性至关重要的苯甲酸药效团。这一结果与已知的药理学先验知识完全吻合,验证了该模型预测的可靠性与合理性。
2.「活性悬崖」现象的精准捕捉:在更具挑战性的「活性悬崖」识别测试中,LeadDisFlow 与三种主流的图神经网络模型(GCN, GAT, MPNN)进行了比较。实验选取了一对「活性悬崖」分子(其结构仅因一个苯环被替换为环己烷,生物活性便相差近 20 倍)。结果显示,三种基于图的方法均未能识别出导致活性剧变的微小结构差异,而 LeadDisFlow 则成功地将注意力聚焦在了这个关键的环结构上。
实验证明,LeadDisFlow 不仅能做出准确预测,还能在微观层面精确解析影响活性的关键子结构,从而为后续的药物优化提供极具价值的见解。
候选化合物 ZY001-ZY004 的药理学验证
研究团队进行湿实验对 LeadDisFlow 发现的候选化合物 ZY001-ZY004 进行了系统性评估:
1. 活性验证:四个化合物均展现出优异的 EP4 拮抗活性,其中 ZY001 的 IC50 值达到 0.51 nM,其余化合物也均保持了个位数纳摩尔级的拮抗活性。
2. 选择性验证:化合物对 EP4 受体具有良好的靶标选择性,其对 EP1-EP3 的拮抗活性均大于 10,000 nM,选择性指数超过 20,000 倍。
3. 作用机制验证:化合物通过与 EP4 受体的内源性配体 PGE2 通过竞争性拮抗发挥作用,其 Schild 分析斜率为 1.014(接近理论值 1)。
这一系列实验不仅验证了 LeadDisFlow 的可靠性,也为后续的药物开发奠定了坚实的理论基础。
代表性化合物 ZY001 对免疫抑制相关基因表达水平的调控
为初步评估代表性化合物 ZY001 在应用潜力,研究团队在巨噬细胞中对免疫抑制相关基因表达水平的影响。实验结果表明,ZY001 能够以剂量依赖性方式,显著抑制由 PGE2 诱导的多种免疫抑制相关基因(如 Il4, Mrc1 等)表达水平的上调,这表明 ZY001 能够解除由 PGE2/EP4 引起的免疫抑制。这初步验证了 LeadDisFlow 在免疫治疗药物发现中的有效性和可靠性。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊