无需训练!提示词秒变模型权重,定制成本降低1.2万倍! NUS等推出Drag-and-Drop LLM
- 2025-06-25 10:32:16
大家好!今天,我们要给大家介绍一项来自AI领域的颠覆性研究成果。
当前,像GPT-4、Llama 3这样的大语言模型(LLMs)已经成为人工智能的基石。它们拥有强大的通用能力,但在实际应用中,我们往往需要根据特定任务(如特定领域的术语、内部数据或定制化的回应风格)对它们进行“微调”。
为了降低微调成本,研究者们提出了参数高效微调(PEFT)方法,其中最著名的就是LoRA。LoRA通过只训练一小部分新增的“适配器”参数来定制模型,极大地减少了训练所需资源。然而,它仍然存在一个痛点:每一个新的下游任务,都需要重新进行一次完整的优化训练。当面临海量、多样化的任务时,这个过程很快会成为计算瓶颈。
有没有一种方法,可以彻底跳过这个耗时耗力的训练过程呢?
近日,来自新加坡国立大学(NUS)、德克萨斯大学奥斯汀分校(UT Austin)、圣加仑大学和牛津大学的研究者们联合提出了一种名为Drag-and-Drop LLMs (DnD) 的全新范式,彻底改变了LLM的定制流程。它能将少量的任务提示词(prompt)直接、零样本地转换成完整的LoRA权重,无需任何针对新任务的优化训练!
项目地址:https://jerryliang24.github.io/DnD
论文地址:https://huggingface.co/papers/2506.16406
💡 核心思想:从“梯度下降”到“直接生成”
研究者们观察到一个本质:一个训练好的LoRA适配器,本质上就是其训练数据的函数。梯度下降的过程,无非是把模型的权重“拖拽”到一个更适合特定任务的位置。
那么,我们能否直接学习这个从“提示词”到“模型权重”的映射关系,从而完全绕过梯度下降呢?
DnD正是基于这个思想构建的。它不再依赖“数据 → 梯度 → 权重”的传统循环,而是将其压缩成一个单向的“提示词 → 权重”前向传播过程。
图1: 传统方法 vs. DnD左图展示了传统的PEFT方法(如LoRA),需要数小时的优化来使LLM适应新数据集。右图则是DnD,仅需几秒钟,就能通过直接生成LoRA矩阵来完成对新任务的适应,无需任何额外微调。
🎯 DnD是如何实现“拖拽式”定制的?
DnD的实现流程可以分为两个核心阶段:数据准备和生成器训练。
- 数据准备
:首先,研究团队在多个不同的数据集上训练了大量的LoRA模型,并保存了这些模型的权重(即checkpoints)。然后,他们将这些权重与训练它们所用的数据(即prompts)进行配对,创建了大量的“prompt-checkpoint”数据对。 - 生成器训练
:DnD的核心是一个参数生成器。这个生成器由一个轻量级的文本编码器和一个级联的超卷积解码器组成。
- 文本编码器
:负责将输入的任务提示词(prompt)压缩成具有代表性的条件嵌入向量(condition embeddings)。 - 超卷积解码器
:接收这些嵌入向量,并通过一系列复杂的变换,将其“解码”成一整套完整的LoRA矩阵。
训练的目标非常直接:让生成器输出的LoRA权重与真实训练得到的LoRA权重(即数据准备阶段的checkpoints)尽可能接近。
图2: DnD的工作流程上图清晰地展示了DnD的两个过程。左上部分是数据准备阶段,将数据集的提示词(condition)与训练好的模型参数进行配对。右上部分是训练阶段,DnD模型将提示词作为输入,直接生成模型参数,并以真实的参数作为监督信号。
一旦这个生成器训练完成,它就学会了如何根据提示词的“指令”,将LLM的参数“拖拽”到最适合该任务的配置上。当遇到一个全新的、从未见过的数据集时,我们只需提供几个该数据集的无标签提示词,DnD就能在几秒内生成一套定制化的LoRA权重!
🔥 惊人的实验效果
DnD的性能到底有多强?研究者们在常识推理、数学、代码生成和多模态等多个任务上进行了全面的评估,结果令人震撼。
1. 效率与性能双重碾压
- 🚀 极致效率
:与传统的全量微调相比,DnD将适配开销降低了高达 12,000倍!原本需要数小时甚至半天的工作,现在只需几秒钟。 - ✅ 卓越性能
:在多个未见过的基准测试(如常识推理、数学、代码、多模态)中,DnD生成的参数性能平均比最强的训练LoRA高出 30%。这意味着它不仅快,而且更强!
2. 强大的零样本泛化能力
DnD最令人称道的是其强大的泛化能力。它不仅能在同领域的新任务上表现出色,甚至可以实现跨域“拖拽”。例如,一个在“常识推理”任务上训练的DnD生成器,当给它“科学”领域的提示词时,它生成的模型在科学任务上的性能同样超越了原有的训练模型。
3. 轻松扩展,大小通吃
该方法具有良好的可扩展性。实验证明,无论是0.5B的小模型,还是7B的大模型,DnD都能无缝迁移并保持优异的性能,即使在更复杂的代码基准测试(如LiveCodeBench)上也是如此。
4. 可视化“拖拽”效果
为了更直观地展示“拖拽”效果,研究者们对参数空间进行了可视化。
图3: 参数空间的“拖拽”效果上图展示了不同数据集训练出的原始LoRA参数(彩色点)在权重空间中的分布。可以看到,它们形成了不同的簇。而DnD在接收到目标任务(ARC-c)的提示词后,零样本生成的参数(绿色五角星)在分布上非常接近目标任务的全量微调结果(红色五角星),并且性能甚至更优。这生动地诠释了“拖拽”的含义。
总结与展望
Drag-and-Drop LLMs (DnD) 的提出,挑战了“梯度下降是模型定制的唯一途径”这一传统观念,开辟了一条全新的道路。它将模型权重本身视为一种新的数据模态和生成目标,通过学习“提示词到权重”的直接映射,实现了前所未有的高效、高性能LLM定制。
这项工作不仅为在工业界大规模部署和定制LLM提供了极具吸引力的解决方案,也为未来的研究指明了新的方向,例如如何将该技术扩展到更大规模的模型、如何利用互联网上已有的海量预训练模型,以及如何生成结构更多样的模型以适应不同硬件。
一个“拖拽”一下就能定制AI模型的时代,或许已经离我们不远了。
项目主页已开放,感兴趣的朋友快去探索吧!https://jerryliang24.github.io/DnD
欢迎🌟机智流,共赴 AI 时代浪潮!!!

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊