性能提高87%,数据需求减70%,天大等开发化学毒性预测模型,登Nature子刊
- 2025-07-16 15:55:20
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯

编辑丨%
于化学领域,多物种急性毒性评估构成了化学品分类、标签和风险管理的基础。传统机器学习模型常因人类毒性数据稀缺(部分端点仅 140 条可用数据)陷入预测困境。
天津大学等联合团队针对传统模型的使用缺陷,开发了最新的条件急性毒性评估(ToxACoL)框架,通过端点关联图建模 + 伴随双向学习的方式,实现毒性的评估。
该研究以「ToxACoL: an endpoint-aware and task-focused compound representation learning paradigm for acute toxicity assessment」为题,于 2025 年 7 月 1 日刊登于《Nature Communications》。

论文链接:https://www.nature.com/articles/s41467-025-60989-7
毒性评估方法
据统计,全球每年新增 10 万种化学品,但毒性评估面临数据失衡、跨物种实验偏差等现实困境。
为了解决模型预测中化合物繁多的种类与目标终点数据稀缺问题,研究者提出了一种机器学习范式——伴随相关性学习(Adjoint Correlation Learning),用于化合物的多物种急性毒性评估,将其命名为 ToxACoL。
基于公开的急性毒性数据,ToxACoL 利用图拓扑建模多条件终点的关系,并引入伴随相关机制,以并行处理与整合信息。
通过学习终点之间的关系,ToxACoL 显著提高了数据稀缺终点的预测准确性,与最先进的方法相比,将人类、女性、男性的口服最低中毒剂量 TDLo 预测性能分别提高 56%、87%和 43%,并将稀疏终点所需的训练数据减少了约 70%-80%。

图 1:ToxACoL 的高层次概述。
成果叙述
前文中已叙述,通过引入伴随相关机制,ToxACoL 得以并行学习多条件标签和多类型样本信息,并在多条件急性毒性评估中取得了良好的性能。
通过皮尔逊相关系数(PCC),团队基于「当共有的化合物数量超过一定阈值且它们的毒性测量值高度相关时,认为这两个终点是相关」的推断,构建了急性毒性终点图,节点代表毒性终点,边缘代表依赖关系。
最后利用图卷积网络(GCN)传播端点关联信息,多个伴随相关层可以依次级联。
在 5 折交叉验证上,ToxACoL 与其他现有的模型进行了比较。ToxACoL 实现了平均 R² 为 0.5843,平均 RMSE 为 0.6396,超过了之前表现最好的算法(DLCA)。

图 2:59 端点数据集上多条件急性毒性估计的性能比较。
为了应对现实世界里的化合物毒性评估,ToxACoL 需要在处理数据稀缺端点方面(尤其是与人类有关)展示它的性能与效率。
在此前提到过的三类 TDLo 端点评估中,ToxACoL 在三个终点上分别达到了 0.50、0.43 和 0.40 的 R²;在 21 个随机削减至某一特定比例的小型终点训练里,ToxACoL 只需要使用其他方法训练测量数据的 20%–30% 的小规模终点数据,就能达到最先进的方法之前的最佳性能。
更多 ToxACoL 的性能表现与其对于化合物分子结构的可视化表现,此处不做过多赘述。
成果斐然的评估方法
为了让更多研究人员能直接使用预训练后的 ToxACoL,团队将其集成到了线上网页平台,此平台还提供化学物质的预测 GHS 分类。团队相信这个平台可以为验证过程提供新的途径,并希望成为监管应用中的一项有用资源。
线上平台链接:https://toxacol.bioinforai.tech/
该项成果的进步在于,其能从化合物数据和毒性终点同步双向学习,开发了反向相关机制,同时处理化合物和终点嵌入。
ToxACoL 的有效性和应用价值已经通过全面的多终点性能评估、稀有物种终点的性能提升、物种外推模式探索等多重实验场景验证,展示了其在处理不平衡多任务数据集方面的稳健性。
团队表示,未来的工作里,ToxACoL 将会继续扩展以适应更广泛的急性毒性任务,甚至包括其他化学相关的任务。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊