蛋白质基座的GPT时代来了?AMix用Test-time Scaling让蛋白质设计迈向通用智能
- 2025-07-29 14:01:54
将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯
当语言模型涌现出通用智能时,蛋白质模型的通用智能还有多远?

在 NLP 领域,语言模型基座经历了从 BERT 到 GPT 的跨时代变化,涌现出了各种超出预期的通用智能,BERT 时代的模型关心具体任务的提升,缺乏对可扩展性、通用性和涌现能力的系统化讨论,而在 GPT 时代,系统化的讨论逐渐显现,通用智能的爆发也因此开始。而在蛋白质基座领域,几乎没有贯彻这条智能涌现的路径,一系列工作同样停留在 BERT 时代,在「预训练 + 任务微调」这一范式下前行,缺乏对可扩展性、通用性和涌现能力的系统化讨论。
为了通往蛋白质的通用智能,清华大学智能产业研究院(AIR)周浩副教授课题组联合上海人工智能实验室发布的 AMix-1,首次以 Scaling Law、Emergent Ability、In-Context Learning 和 Test-time Scaling 的系统化方法论来构建蛋白质基座模型,为通往蛋白质的通用智能的构建起了新的技术范式。

论文名称:AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model
作者:Changze Lv*, Jiang Zhou*, Siyu Long*, Lihao Wang, Jiangtao Feng, Dongyu Xue, Yu Pei, Hao Wang, Zherui Zhang, Yuchen Cai, Zhiqiang Gao, Ziyuan Ma, Jiakai Hu, Chaochen Gao, Jingjing Gong, Yuxuan Song, Shuyi Zhang, Xiaoqing Zheng, Deyi Xiong, Lei Bai, Wanli Ouyang, Ya-Qin Zhang, Wei-Ying Ma, Bowen Zhou, Hao Zhou.
技术报告:https://arxiv.org/pdf/2507.08920
项目主页:https://gensi-thuair.github.io/AMix-1/
模型权重:https://huggingface.co/GenSI/AMix-1-1.7B
代码仓库:https://github.com/GenSI-THUAIR/AMix-1

AMix-1 模型与功能概览
AMix-1 是基于贝叶斯流网络(Bayesian Flow Networks, BFNs)的蛋白质基座新范式,为蛋白质基座模型实现 Test-time Scaling 提供了一整套系统性的技术方案:
Pretraining Scaling Law 明确了参数、样本数和计算量如何权衡,才能最大化模型的能力。
Emergent Ability 显示随着训练的推进,模型会涌现出对蛋白结构的「感知理解」。
In-Context Learning 解决了功能优化中的对齐难题,让模型学会在进化语境中推理与设计。
Test-time Scaling 让 AMix-1 在验证预算增加时,「越花时间越有回报」,开启基于演化的设计新方式。
从训练、推理到设计,AMix-1 论证了其作为蛋白质基座模型的通用性和可扩展性,为走向实际落地做好了铺垫。
一、预训练 Scaling Law:可预测的蛋白质模型能力
Scaling Law 是智能涌现的基石。AMix-1 实现了可预测的 Scaling Law,以指导大模型在算力扩展的可预测训练和规划。

不同噪声尺度下 AMix-1 的 Scaling Law
实验中,研究团队设计了从 800 万到 17 亿参数的多尺度模型组合,利用训练 FLOPs(浮点操作数)作为统一衡量指标,精确拟合、预测了模型交叉熵损失与计算量的幂律关系。模型损失与计算量之间的幂律曲线吻合度极高,这不仅证实了基于贝叶斯流网络的模型的训练过程具有高度可预测性,也为更大规模训练奠定了科学基础。 这一系统性的 Scaling Law 分析使研究者得以提前预测训练结果,规避资源浪费,并为模型后续的能力涌现与高效设计奠定了坚实的基础。
二、结构感知能力的涌现:性能提升驱动的「质变」
Emergent Ability 是大模型高级能力的跃升点。AMix-1 的训练过程中,研究团队成功地观察到了,在训练过程中,一个蛋白质基座模型在「序列一致性 —> 可折叠性 —> 结构一致性」三个渐进的能力从静默到发生,从发生到涌现的完整过程。

AMix-1 模型在不同指标下的涌现现象
能力的涌现受目标函数驱动。在训练过程中,研究团队发现所有能力指标与交叉熵损失呈高度相关性 —— 只要 loss 足够低,能力便会「自动」出现。这一规律使得通过 scaling law 和 loss 预测模型能力成为可能。更为关键的是,即便模型仅以序列级自监督目标训练、完全不引入结构信息,它依然在 loss 下降至某阈值后突然表现出结构感知能力,表现出 pLDDT 与 TM-score 的非线性跃迁。这种「涌现」并非渐进,而是明确的跳变。
综上,loss 不仅是训练的优化指标,更是一把衡量模型能力潜力的「刻度尺」。这种能力与 loss 对齐的机制,为提前预测能力、设计训练方案、优化资源分配提供了关键参考。
三、生物进化中的上下文学习:通用蛋白质设计范式
In-Context Learning 是大模型理解和生成综合能力的指示牌。AMix-1 能够在给定的一组蛋白质中,快速辨析其中的共性信息和规律,并运用此规律来指导生成新的符合共性规律的蛋白。

LLM 与 AMix-1 的上下文学习的比较
传统蛋白质设计往往需要根据任务类型进行定制流程,设计导向不同往往算法流程也不同,缺乏统一的蛋白设计框架。而 AMix-1 引入了大语言模型中的 In-context Learning(ICL)机制,给出了一个通用而强大的方法:给模型一组目标性质蛋白质,让它自己理解规律、运用规律,最终设计出具备相似能力的蛋白质。
具体来说,这种方法把一组蛋白质 MSA 压缩成一个位置级的概率分布(Profile),作为「提示」输入给模型。这就像是用一组进化样本讲述 「你想要的方向」,而模型不需要任何微调,就能根据这些例子自动推理出结构和功能规律,并生成符合意图的新蛋白。

验证 AMix-1 上下文学习能力的案例
AMix-1 用一个通用的上下文学习框架完成了结构和功能导向的蛋白设计:(a-b)在结构任务上,以常规同源蛋白甚至在近乎无同源的「孤儿蛋白」为提示,AMix-1 生成在预测结构上高度一致的新蛋白;(c-d)在功能任务中,AMix-1 在输入蛋白的酶学功能和化学反应引导的酶设计上,AMix-1 能生成出功能高度一致的蛋白酶。
四、生成可扩展的通用智能:进化算法放大蛋白质设计的效能
Test-time Scaling 是大模型能力通向无限可能的阶梯。AMix-1 设计了独特的测试时扩展方法 EvoAMix-1,能够利用其特有的上下文学习范式,在简单可插拔的验证(包括计算模拟与湿实验评估)加持下,实现模型能力随验证预算提升的可持续扩展。AMix-1 也是第一个具备了测试时扩展能力的蛋白质基础模型。

AMix-1 在推理阶段进行进化扩展算法的工作流
研究团队在多个代表性蛋白质定向进化任务上系统验证了 EvoAMix-1 的通用性和可扩展性,覆盖从功能调节到结构对齐的不同目标,包括酶的最适 pH 和温度进化、功能保持与增强、孤儿蛋白设计,以及通用的结构引导优化。实验结果显示,EvoAMix-1 在所有任务上展示出强劲的扩展能力,同时也体现其跨任务、跨目标的强大通用性。无论是功能属性优化,还是高保真结构生成,该方法都能稳定提升设计质量,验证了推理时动态优化机制的广泛适用性与有效性。

EvoAMix-1 在六个定向进化基准中的 Test-time Scaling 性能
五、不止是虚拟实验:AMix-1 的湿实验验证
湿实验是检验方法的黄金标准。AMix-1 辅助研发蛋白 AmeR 变体,提升最有变体活性高达 50 倍。
研究团队在实际湿实验中检验了「上下文提示设计」策略,选取目标蛋白 AmeR(一种常用于合成生物学的转录调控因子),试图提升其 DNA 结合活性,从而构建更高性能的基因开关。如下图所示,研究团队使用 AMix 模型,基于 AmeR 家族的 Profile 生成 40 个变体,每个变体仅包含≤10 处氨基酸突变,通过荧光报告基因实验,评估每个变体的抑制能力(Fold Repression 分数越高功能越强)。

AMix-1 模型在湿实验中的生成迭代和相应的变异过程
最终结果显示由 AMix-1 产生的最优变体活性提升高达 50 倍,显著超越已知方法(比 SOTA 提升约 77%),且不依赖反复筛选或手动设计,完全由模型自动生成。这是「从模型到实验」的完整闭环,也是 AI 在功能蛋白设计上首次达成的量级突破。
结语:迈向蛋白质设计的新范式
AMix-1 系统性地探索了一条蛋白质基座的通用范式构建路径,从训练阶段可预测的 scaling law 和「序列 -> 结构」的 emergent ability,到推理阶段的无需二次微调的 In-Context Learning 乃至 Test-time Scaling 驱动的蛋白质进化机制,彻底打通了从「预训练 → 推理 → 落地」的完整技术栈,首次将可扩展性和通用智能引入蛋白质设计的过程,验证了基础模型在蛋白质设计任务中的实际效能,也揭开了可扩展的蛋白质通用智能的新篇章。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊