「ACL25」用“点赞/点踩”数据高效对齐大模型，性能媲美DPO，真实场景全面超越)

机智流
2025-07-24 22:39:02

本文由书生、Qwen 等 AI 生成可能有误

💡 你是否曾好奇，ChatGPT 是如何“学会”回答得越来越贴心的？

答案是：人类反馈。

但问题来了——我们每天在聊天框里按下“👍”或“👎”，这些简单的二元信号，真的能教会一个千亿参数的大模型“什么是对，什么是错”吗？

传统观点认为：不能。
因为主流对齐方法如 DPO（Direct Preference Optimization）都需要成对的“好 vs 坏”回答，才能训练模型做出偏好判断。

然而，现实是——
用户几乎从不提供成对反馈，只愿轻点一下“点赞”或“点踩”。
收集成对偏好数据成本高昂，且难以规模化。

这就像让厨师凭“这道菜好吃”或“这道菜难吃”来改进菜品，却从不告诉他“和哪道菜比起来更好吃”。

直到现在，Kakao Corp 与 LBOX 联合提出了一种全新框架：Binary Classifier Optimization（BCO），首次从理论层面打通了“二元反馈”与“偏好优化”之间的鸿沟，并证明：

✅ 仅用“点赞/点踩”数据，也能实现媲美 DPO 的对齐效果
✅ 在真实用户评分数据上，BCO 全面超越 DPO 与 KTO
✅ 提出“奖励偏移”技术，揭示并修复了现有方法（如 KTO）的理论缺陷

🚀 这不仅是一次算法创新，更可能重塑未来大模型对齐的范式。

论文链接： https://aclanthology.org/2025.acl-long.93.pdf

一、现实困境：我们想要的 vs. 模型需要的

当你在使用 ChatGPT、Gemini 或 Claude 时，是否注意到右下角那个小小的“👍/👎”按钮？

这是最自然、最便捷的用户反馈方式。无需思考“哪个回答更好”，只需凭直觉判断“这个回答让我满意吗”。

但对 AI 研究者来说，这却是个“甜蜜的烦恼”：

💬 用户给的是“二元信号”（binary signal）
🧠 模型训练却依赖“成对偏好”（preference pair）

1.1 主流对齐方法的“三重门”

目前，大模型对齐的主流路径是 RLHF → DPO：

RLHF（Reinforcement Learning from Human Feedback）
三阶段流程：监督微调（SFT）→ 奖励建模（RM）→ 强化学习（RL）
❌ 三阶段训练复杂、资源消耗大、不稳定
DPO（Direct Preference Optimization）
绕过奖励模型，直接用偏好数据优化策略
✅ 简洁高效，已成为工业界标配
❌ 仍需成对偏好数据（chosen vs rejected）

资讯配图
图1：在 UltraFeedback 和 Capybara 数据集上的胜率对比（GPT-4o 评测）
BCO（蓝）在多数配置下表现与 DPO（橙）相当，显著优于 KTO（绿）和 BCE（灰）。这表明：仅用二元信号，也能达到 DPO 级别的对齐性能。

1.2 那些“没人愿意做”的偏好标注

想象一下：
你要标注 1000 个问题的回答质量。
DPO 要求你对每对回答判断：“A 比 B 好吗？”
这需要你同时阅读两个回答，进行对比分析——认知负荷高、标注成本大。

而二元反馈呢？
只需看一个回答，点个赞或踩——几乎零成本。

但学界长期认为：

“二元信号信息量不足，无法支撑有效对齐。”

直到 2024 年，KTO（Kahneman-Tversky Optimization） 的出现打破了这一认知。

二、破局者登场：KTO 与它的“理论黑洞”

KTO 受前景理论（Prospect Theory）启发，提出仅用单个回答 + 二元标签即可对齐模型。

其核心思想是：

对“点赞”样本，最大化其“价值函数”
对“点踩”样本，最大化

其中是一个动态参考点，通常设为 batch 内平均奖励。

KTO 看似优雅，但论文作者指出：它缺乏坚实的理论基础，且存在一个致命缺陷——

🔴 参考点被强制非负（clipped at zero），导致模型无法有效远离参考模型（over-regularization）

资讯配图
图4(b)：KTO 训练过程中参考点的演化（Llama-3.1-8B on Capybara）
可以看到，在训练初期迅速坍缩至 0，此后再无变化。这意味着模型始终在“零奖励”附近震荡，无法有效学习到正负奖励的差异，导致对齐效果受限。

三、理论重构：二元分类器如何隐式优化 DPO？

Kakao 与 LBOX 的研究团队提出了一个颠覆性视角：

🌟 对齐大模型，本质上是在训练一个二元分类器
输入：（prompt, completion）
输出：是否值得“点赞”？1 或 0
损失函数：二元交叉熵（BCE）

但他们不止于此——他们从理论上证明：BCE 损失是 DPO 损失的上界。

3.1 核心定理：BCE 是 DPO 的上界

回忆 DPO 损失：

而 BCE 损失为：

论文提出：

定理 1：
$ \mathcal{L}{\text{DPO}} < \mathcal{L}{\text{BCE}} $

证明关键：利用一个不等式：

（见附录 A.1）

这意味着：最小化 BCE 损失，必然导致 DPO 损失下降。
换言之，用二元信号训练分类器，本质上是在优化偏好目标。

3.2 但差距在哪？误差项分析

虽然 BCE 是上界，但二者之间存在一个“误差项”：

当很大（好回答得分高），第一项小
当很小（坏回答得分低），第二项小

因此，随着训练进行，BCE 会逐渐逼近 DPO。

但问题来了：
能否主动缩小这个差距，让 BCE 更快、更紧地逼近 DPO？

答案是：能。
——这就是 Reward Shift（奖励偏移） 技术。

四、BCO 的核心创新：奖励偏移（Reward Shift）

作者提出：**将奖励整体平移一个偏移量 **，使正负样本的奖励分布更对称。

新损失函数为：

其中：

即：正负样本平均奖励的中点。

4.1 为什么这更优？

理论最优：作者证明（定理 4），当时，误差项最小。
避免坍缩：不同于 KTO 将参考点 clip 到 0，BCO 的是动态、无偏的，允许模型自由探索奖励空间。
梯度更均衡：KTO 的梯度中包含，在极端奖励处梯度消失；而 BCO 的梯度为，对低奖励样本仍保持学习能力。

4.2 实验验证：误差项真的变小了！

资讯配图
图3：UltraFeedback 数据集上误差项随训练步数的变化
BCO（蓝线）的误差项始终低于 BCE（灰线），证明奖励偏移确实有效缩小了与 DPO 的差距。

五、实验全景：BCO 在三大战场全面胜出

作者在三类数据集上验证 BCO：

成对偏好数据集（UltraFeedback, Capybara）
真实用户 Likert-5 评分数据（HelpSteer2）
主流对齐基准（MT-Bench, AlpacaEval, Arena-Hard）

5.1 战场一：成对偏好数据集

在 UltraFeedback 和 Capybara 上，将成对数据拆解为二元信号，训练 BCO。

结果如图1所示：

BCO ≈ DPO：性能几乎持平，证明 BCO 能达到 DPO 级别对齐
BCO > KTO：显著优于 KTO，尤其在大模型上
BCE < BCO：基础 BCE 损失性能较差，证明奖励偏移至关重要

这说明：即使有成对数据，BCO 也能通过二元信号实现同等甚至更优对齐。

5.2 战场二：真实用户评分数据（HelpSteer2）

这才是 BCO 的“主战场”。

HelpSteer2 包含真实用户对回答的 1-5 分评分（Likert-5 scale）。
作者将其转换为二元信号：

评分 ≥4 → “点赞”
评分 ≤3 → “点踩”

然后分别用 DPO（需构造偏好对）、KTO、BCO 进行对齐。

资讯配图
图2：HelpSteer2 数据集上的胜率对比
BCO（蓝）在所有模型上均显著超越 DPO（橙）和 KTO（绿）。
这证明：在真实用户反馈场景下，BCO 不仅可行，而且更优。

5.3 战场三：权威对齐基准测试

作者进一步在 MT-Bench、AlpacaEval 2.0 LC、Arena-Hard 上测试模型性能。

方法	MT-Bench	AlpacaEval	Arena-Hard
DPO	8.28	20.9	26.86
KTO	8.19	30.31	20.39
BCO	8.32	28.61	31.37

（Llama-3.1-8B 结果）

BCO 在 MT-Bench 和 Arena-Hard 上全面领先
KTO 在 AlpacaEval 上表现突出，但 Arena-Hard 上严重掉点，可能因生成过短（仅 432 token）
BCO 生成长度（762）与 DPO（830）相近，说明其优化更均衡

📌 关键洞见：
KTO 倾向于生成短、安全的回答（避免被点踩），而 BCO 能在保持安全的同时生成更丰富内容。

六、深度洞察：为什么 BCO 更“健康”？

作者通过 KL 散度分析揭示了不同方法的本质差异。

资讯配图
图4(a)：不同方法下模型与参考模型的 KL 散度

DPO 与 BCO：KL 值较高，说明模型已充分偏离参考模型，学到新知识
KTO 与 BCE：KL 值较低，模型仍“粘”在参考模型上，学习不充分

这解释了为何 KTO 性能受限——其设计导致模型无法有效探索奖励空间。

而 BCO 通过合理的奖励偏移，既避免了过拟合，又实现了充分学习。

七、BCO 的哲学：从“对比”到“判断”的范式转移

BCO 的意义远不止一个新算法。

它代表了一种对齐范式的转变：

范式	代表方法	数据需求	用户心智
对比学习	DPO, RLHF	成对偏好	“A 比 B 好吗？”
二元判断	BCO	单样本 + 点赞/点踩	“这个回答好吗？”

后者更符合真实用户行为，也更易于规模化收集。

未来，我们或许会看到：

模型在部署中实时学习用户“点赞”
个性化对齐：不同用户群体使用不同
多信号融合：点赞 + 点踩 + 停留时间 + 转发行为

八、局限与未来：BCO 的挑战与机遇

作者也坦诚指出 BCO 的局限：

缺乏真实二元反馈基准：目前仍用合成数据验证，需真实场景 benchmark
信息利用率低：5 分制评分被压缩为 1 bit，损失了细微偏好
上界优化风险：最小化上界 ≠ 最小化原目标，可能影响泛化

但这些正是未来方向：

构建真实二元反馈数据集
设计多级分类器（1-5 分 → 5 类）
探索 tighter bound 或直接优化方法

九、结语：大模型对齐的“平民化”之路

BCO 的出现，让我们看到：

对齐大模型，不必再依赖昂贵的专家标注。
普通用户的每一次“点赞”，都是一次有效的教学。

这不仅是技术进步，更是民主化 AI 的一步。

Kakao 与 LBOX 用严谨的数学证明告诉我们：
那些看似简单的“👍”和“👎”，
其实蕴含着足以塑造智能的强大力量。

未来，或许每个用户，都是大模型的“隐形教师”。

🚀 BCO，让每一次点击，都更有意义。

📌 论文信息
标题：Binary Classifier Optimization for Large Language Model Alignment
作者：Seungjae Jung♢, Gunsoo Han♢, Daniel Wontae Nam♢, Kyoung-Woon On♣
单位：♢ Kakao Corp, ♣ LBOX
链接：https://aclanthology.org/2025.acl-long.93.pdf

💬 你如何看待“点赞即训练”这一范式？欢迎在评论区分享你的观点！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊