DeepAllo:首次使用蛋白质语言模型和多任务学习进行变构位点预测
- 2025-07-17 15:30:00
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯

编辑 | 白菜叶
变构效应是指一个位点的结合会扰乱远处位点的过程,由于其对蛋白质功能有显著的影响,正成为药物开发领域的一个重点研究领域。
识别变构口袋(位点)是一项极具挑战性的任务,目前已开发出多种技术,包括利用静态和口袋特征预测变构口袋的机器学习技术。
土耳其科奇大学(Koç University)的研究人员开发了 DeepAllo,是首个将微调蛋白质语言模型 (pLM) 与 FPocket 特征相结合的研究,目的是提高识别变构口袋相关技术的准确性。
该研究以「DeepAllo: allosteric site prediction using protein language model (pLM) with multitask learning」为题,于 2025 年 6 月刊登在《Bioinformatics》。

变构作用是一种通过配体结合到活性位点以外的远位点来调节蛋白质活性的机制。大多数药物通过直接结合活性位点来改变蛋白质的活性。
理论上,每种蛋白质都具有变构行为。即使某种蛋白质尚未表现出变构行为,但也可能只是由于缺乏合适的条件,例如变构效应物或某些突变。变构药物的优势在于其副作用比正构药物更少。
与变构位点相比,非变构的活性位点在蛋白质家族中高度保守:一种药物可能与同一蛋白家族中多个成员的活性位点结合。
变构药物结合区域在蛋白质家族中往往保守性较低,这使得科学家能够有针对性地制造出有效的变构药物,而不影响其他健康细胞。
目前,一些机器学习 (ML) 方法利用口袋特征来预测变构口袋,例如:PASSer、PASSer 2.0 和 PASSerRank,它们采用类似的方法,通过 FPocket 提取口袋。FPocket 给出了代表每个口袋的特征向量,并进一步通过二元分类(即判断给定口袋是否为变构的(正)或非变构的(负))来训练多个模型。
然而,他们并没有充分利用预训练的蛋白质语言模型 (pLM) 或蛋白质大型语言模型 (pLLM) 的强大功能。
结合 pLM 的思路
在最新的研究中,科奇大学的研究人员在变构数据库 (ASD) 数据集上对 ProtTrans 系列中的 ProtBERT-BFD (ProtBERT-Big Fantastic Database) pLM 进行了微调,然后通过在多任务学习 (MTL) 模式下对 pLM 进行微调来扩展它,使用两个预测头来预测: (A) 变构残基, (B) 二级结构残基。
任务 A 是主要任务,其想法是,除了无法获得大型变构数据集之外,在学习变构残基(标记)时,模型可以从蛋白质的二级结构中获取信息,从而获得更好的信息以学习变构残基特征。
此外,研究人员利用这些经过微调的 pLM 作为主干 (特征提取器),将其特征与 FPocket 特征相结合,从而训练 XGBoost 和自动机器学习 (AutoML) 模型。

图示:架构和方法概述。(来源:论文)
具体而言,蛋白质结构和序列分别被输入到 FPocket 和经过微调的 ProtBERT pLM 中。FPocket 提取口袋(位点),每个口袋都具有 PDB 文件格式(例如坐标)和一个 19 维的特征向量。
pLM 还生成特征,其中每个向量的大小为 1024,代表序列中的单个残基。所有代表特定口袋中残基的 1024 维向量被聚合(平均),从而形成一个 1024 维向量。
两个特征向量(来自 FPocket 和 pLM)被连接起来,得到一个 1043 维向量。该特征向量进一步输入到 XGBoost 和 AutoML 模型中,代表一个口袋,这些模型会对该口袋是否为变构口袋进行分类。
评估
为了展示 pLM 特征如何影响变构口袋的预测性能,该团队分别给出了包含和不包含口袋特征的结果。XGBoost 和 AutoML 的结果高度相关;研究人员得到了 XGBoost 和 AutoML 结果之间的相关系数(0.9768)。此外,不仅 pLM 表现出了更好的性能,而且基于 MTL 的 pLM 也优于所有其他方法。

图示:基于 AutoML 的 MTL 中变构口袋与基本 pLM 特征的排名。(来源:论文)
变构口袋的排名依次为前 1%、前 3%、前 5% 和前 10%。上图显示,AutoML 基于 MTL-pLM 特征预测的正变构口袋或变构口袋中,90% 的排名位于结果的前 10%。
下图给出了基于 MTL 的模型与先前方法的总体结果比较,其中先前方法的结果取自各自的论文。先前的研究仅使用口袋特征来预测变构口袋,而本研究中的模型利用了 MTL-pLM 特征。由于该模型结合使用 pLMMTL 和口袋特征时表现更佳,因此研究人员将同一模型的结果与先前方法进行了比较。

图示:基于 MTL 的 pLM 模型与之前的模型的比较。(来源:论文)
DeepAlloAutoML 模型(基于 MTL 的 pLM 特征,并结合口袋特征进行训练)的表现超越了所有先前的模型,比表现最佳的 Ensemble 模型 (Tian et al. 2023a) 提升了 12.8%。
此外,该团队的模型能够以 90.5% 的置信度预测口袋在前 3 个位置中的概率,这也高于 Ensemble 模型的前 3 个位置的置信度(84.9%)。
总体而言,这些基于 pLM 特征的训练模型的表现优于原有的计算方法,并证明了 pLM 特征确实提供了有用的信息,帮助研究人员获得了更好的性能分数。
案例研究
研究人员用一个案例研究蛋白(TOXIN B,PDB ID:3PEE)测试了他们的模型,该蛋白不在训练时使用的数据集中。已知该蛋白具有变构口袋,他们使用 AutoMLMTL 模型来预测变构口袋。通过按概率降序排列预测口袋,选出了排名前 3 的口袋。

图示:预测的变构位点:第 1 位(红色)、第 2 位(橙色)、第 3 位(紫色)和调节器(绿色)——为了更好地实现球体的可视化,原子半径按比例缩小。(来源:论文)
如上图所示,预测的口袋是正确的变构口袋。可以观察到,预测的真实变构口袋靠近调节剂(绿色)。此外,第三个口袋(紫色)距离调节剂极远,这证明该模型学习预测正确的变构口袋,并考虑了调节剂与变构口袋之间的距离。
可以推测,pLMMTL 特征提供了蛋白质的几何特征,从而帮助模型区分靠近调节剂的残基和远离调节剂的残基。
结语
本研究旨在利用微调的 pLM,并以多任务学习 (MTL) 的方式进行预测,从而检验变构口袋的预测性能是否优于文献中现有的方法。
与已发表的文献一样,机器学习 (ML) 和神经运动分析 (NMA) 方法已用于预测蛋白质中的变构口袋;pLM 从未用于该研究领域。在扩展用于此任务的基础 pLM 后,MTL 通过将二级结构预测作为辅助任务,用于提升变构口袋的预测性能。
在案例研究中,微调模型以 99% 的置信度将正确的变构口袋预测为第 1 个位置,证明使用 MTL 微调的 pLM 确实提高了蛋白质中变构口袋的预测性能。
未来,利用更复杂的 pLM 模型(例如 ProtT5)有望进一步提高变构口袋的预测性能。
源代码:https://github.com/MoaazK/deepallo
论文链接:https://academic.oup.com/bioinformatics/article/41/6/btaf294/8132950
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊