自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
- 2025-07-29 13:01:47
MENTOR团队 投稿
量子位 | 公众号 QbitAI
当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在精准控制上却常常“心有余而力不足”。
在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种更高效、控制更精准的范式?
近日,来自伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软的研究者们,将目光投向了另一条技术路线——
自回归(Autoregressive, AR)模型,并提出了一个全新的高效多模态微调框架MENTOR,仅用十分之一的训练数据和次优的模型组件,就能够实现超越Diffusion方法(如Emu2、DreamEngine)的性能,为复杂的多模态图像生成提供了一个更高效、更可控的新范式。

MENTOR巧妙地绕开了Diffusion模型中常见的复杂设计,通过独特的两阶段训练法,让自回归模型也能高效地进行多模态条件下的图像生成,实现了像素级精准控制。

△多模态条件生成效果展示
解决多模态图像生成中的平衡难题
在真实世界的应用中,我们常常需要模型能够理解和处理比纯文本更复杂的指令,比如“让这只猫戴上这顶帽子”或者“把这张图的风格变成梵高那样”。这种包含图像、文本等多种信息的输入,对现有模型提出了巨大挑战:
精确控制难: Diffusion模型固有的随机性,使得在需要高保真度的任务(如图像重建)上难以实现精确的、确定性的控制.
模态失衡: 现有方法在融合多种输入时,常常会“偏科”,比如过度依赖参考图像而忽略文本指令,或者反之。
训练成本高: 许多基于Diffusion的方法,为了对齐不同模态,引入了复杂的适配器或额外的对齐模块,需要大量的训练,计算成本高昂。
面对这些难题,我们不禁要问:是否存在一种更高效、更可控的范式来解决多模态图像生成中的平衡难题?
为了应对上述挑战,研究团队提出了MENTOR,一个简单而高效的自回归(AR)框架。MENTOR利用统一的Transformer架构,直接将多模态输入与输出的图像token对齐,从而简化了模型结构和训练过程。

△MENTOR 概览。左侧为模型结构,右侧为两阶段训练范式
与Diffusion模型不同,自回归模型(如GPT系列)通过逐个预测下一个token来生成内容。MENTOR的核心思想正是将这种序列生成能力应用到图像上:将所有输入(文本、参考图、分割图等)和输出图像都“Token化”,转换成一个统一的序列,然后让AR模型来学习这个序列的生成规则。
MENTOR的核心设计包含两大亮点:
1. 统一的自回归架构:模型由一个多模态编码器和一个自回归生成器组成。编码器负责将输入的图像、文本等信息统一编码成一个共享的表示(embedding)。然后,自回归生成器会逐个生成图像token,最终解码成一张完整的图片。这种序列化的生成方式,天然地实现了输入和输出之间精细的、token级别的对齐。
2. 精心设计的“两阶段”训练范式:为了让模型学会“兼顾”不同模态的输入,研究者设计了一个两阶段的训练策略:
第一阶段:多模态对齐预训练 (Multimodal Alignment)
在这一阶段,模型的核心任务是学会“看懂”不同类型的输入,建立像素级和语义级的底层对齐。通过图像重建、对象分割和文生图三个任务,强制模型学习输入图像的精细视觉细节和空间结构,而不是仅仅把它当成一个“视觉提示”。这个阶段的训练,为模型打下了坚实的多模态理解基础,让它知道了“文字描述的‘狗’”和“图像中的‘狗’”在视觉Token层面是如何关联的。

△△ 经过多模态对齐预训练的图像重建效果
第二阶段:多模态指令微调 (Multimodal Instruction Tuning)
在对齐的基础上,这个阶段旨在提升模型的指令遵循和跨模态推理能力。除了延续第一阶段的任务外,还引入了两个新任务:
- 图像恢复 (Image Recovery):
通过人为制造一些“残缺”的图像(如旋转、缩放、替换背景),让模型学会利用文本提示来“脑补”和恢复出原始图像,从而促进多模态信息的融合与纠错。 - 主体驱动的图像生成 (Subject-driven Image Generation):
要求模型在严格遵循文本指令的同时,保持参考图像中主体的视觉特征。
通过这种“先对齐,后微调”的策略,MENTOR成功地解决了模态失衡问题,实现了对视觉和文本指导的有效、可控的融合。
“降本增效”的显著成果
尽管MENTOR的模型规模不大,且使用的组件(如Flan T5,LlamaGen)性能有限,但它在DreamBench++上取得了令人瞩目的成绩。
1. 性能与平衡性的双重胜利
表1:MENTOR 在DreamBench++的性能对比在CP-PF分数上MENTOR不仅超越了Emu2(37B参数)和DreamEngine(10.5B参数),更重要的是,它的CP/PF比率是所有免调优方法中最低的。这表明MENTOR在保持参考图视觉特征和遵循文本指令之间取得了最佳的平衡。

MENTOR在DreamBench++上的性能对比。圆圈大小代表CP-PF分数,MENTOR(左下角橙色)在模型大小和训练数据量都远小于对手的情况下,取得了极具竞争力的平衡性能。
2. 训练效率
MENTOR 在整个训练过程中仅使用约300万组图文对,耗时约1.5天(基于8张A100显卡)。相比之下,Kosmos-G、Emu2 等基线方法在训练资源上的消耗显著更高,充分体现了 MENTOR 在架构设计和训练范式上的高效性。在相同训练资源下的对比实验中也可以观察到,MENTOR 相较于以 Kosmos-G 为代表的Diffusion方法展现出了更优的性能。
表2:MENTOR与Komos-G 在DreamBench++的受控对比试验结果
3 卓越的图像重建保真度

表3: MENTOR在COCO和JourneyDB上进行图像重建任务的定量对比。
在图像重建任务中,MENTOR的表现同样出色,其重建误差(l2距离)远低于其他顶尖模型,这有力地证明了其自回归架构在保留视觉细节方面的强大能力。
△ MENTOR在图像重建任务上的定性对比,展现了其超高的保真度。
4. 丰富的应用潜力
MENTOR框架的通用性极强,只需在特定任务的数据上进行简单的微调,就能胜任多种复杂的多模态生成任务,无需对模型架构做任何修改:
文本引导的图像分割
多图像融合生成
主体驱动的图像生成
多模态上下文学习
...

△多图像多模态条件生成训练,有助于提升模型在视觉细节保留方面的能力。
自回归范式的潜力
总而言之,MENTOR的提出,为复杂可控的图像生成任务开辟了一条新的、有别于Diffusion模型的道路。
它通过一种更简洁的自回归框架和高效的两阶段训练策略,实现了对多模态输入的精细化、像素级对齐和控制,以更小的模型尺寸和更少的训练资源,实现了更平衡、更可控的生成效果。展现了AR模型在视觉生成领域的巨大潜力,证明了在多模态生成任务上,“大道至简”同样行之有效。
当然,研究者们也指出,受限于当前AR生成模型的底层能力,MENTOR在某些方面(如空间推理、细粒度人像渲染等)与最顶尖的Diffusion模型相比仍有较大差距。但我们有理由相信,随着更强大的自回归基础模型的出现,MENTOR这类框架的潜力将被进一步释放,为构建下一代通用、精细、可控的视觉内容创作系统奠定坚实的基础。
论文链接:https://arxiv.org/abs/2507.09574
项目主页:https://haozhezhao.github.io/MENTOR.page
代码仓库:https://github.com/haozhezhao/MENTOR
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊