本文由书生、Qwen 等 AI 生成可能有误

💡 你是否曾好奇,ChatGPT 是如何“学会”回答得越来越贴心的?

答案是:人类反馈

但问题来了——我们每天在聊天框里按下“👍”或“👎”,这些简单的二元信号,真的能教会一个千亿参数的大模型“什么是对,什么是错”吗?

传统观点认为:不能
因为主流对齐方法如 DPO(Direct Preference Optimization)都需要成对的“好 vs 坏”回答,才能训练模型做出偏好判断。

然而,现实是——
用户几乎从不提供成对反馈,只愿轻点一下“点赞”或“点踩”。
收集成对偏好数据成本高昂,且难以规模化。

这就像让厨师凭“这道菜好吃”或“这道菜难吃”来改进菜品,却从不告诉他“和哪道菜比起来更好吃”。

直到现在,Kakao Corp 与 LBOX 联合提出了一种全新框架:Binary Classifier Optimization(BCO),首次从理论层面打通了“二元反馈”与“偏好优化”之间的鸿沟,并证明:

✅ 仅用“点赞/点踩”数据,也能实现媲美 DPO 的对齐效果
✅ 在真实用户评分数据上,BCO 全面超越 DPO 与 KTO
✅ 提出“奖励偏移”技术,揭示并修复了现有方法(如 KTO)的理论缺陷

🚀 这不仅是一次算法创新,更可能重塑未来大模型对齐的范式。

论文链接: https://aclanthology.org/2025.acl-long.93.pdf


一、现实困境:我们想要的 vs. 模型需要的

当你在使用 ChatGPT、Gemini 或 Claude 时,是否注意到右下角那个小小的“👍/👎”按钮?

这是最自然、最便捷的用户反馈方式。无需思考“哪个回答更好”,只需凭直觉判断“这个回答让我满意吗”。

但对 AI 研究者来说,这却是个“甜蜜的烦恼”:

💬 用户给的是“二元信号”(binary signal)
🧠 模型训练却依赖“成对偏好”(preference pair)


1.1 主流对齐方法的“三重门”

目前,大模型对齐的主流路径是 RLHF → DPO

  • RLHF(Reinforcement Learning from Human Feedback)
    三阶段流程:监督微调(SFT)→ 奖励建模(RM)→ 强化学习(RL)
    ❌ 三阶段训练复杂、资源消耗大、不稳定

  • DPO(Direct Preference Optimization)
    绕过奖励模型,直接用偏好数据优化策略
    ✅ 简洁高效,已成为工业界标配
    ❌ 仍需成对偏好数据(chosen vs rejected)

资讯配图
图1:在 UltraFeedback 和 Capybara 数据集上的胜率对比(GPT-4o 评测)
BCO(蓝)在多数配置下表现与 DPO(橙)相当,显著优于 KTO(绿)和 BCE(灰)。这表明:仅用二元信号,也能达到 DPO 级别的对齐性能


1.2 那些“没人愿意做”的偏好标注

想象一下:
你要标注 1000 个问题的回答质量。
DPO 要求你对每对回答判断:“A 比 B 好吗?”
这需要你同时阅读两个回答,进行对比分析——认知负荷高、标注成本大

而二元反馈呢?
只需看一个回答,点个赞或踩——几乎零成本

但学界长期认为:

“二元信号信息量不足,无法支撑有效对齐。”

直到 2024 年,KTO(Kahneman-Tversky Optimization) 的出现打破了这一认知。


二、破局者登场:KTO 与它的“理论黑洞”

KTO 受前景理论(Prospect Theory)启发,提出仅用单个回答 + 二元标签即可对齐模型。

其核心思想是:

  • 对“点赞”样本,最大化其“价值函数” 
  • 对“点踩”样本,最大化 

其中  是一个动态参考点,通常设为 batch 内平均奖励。

KTO 看似优雅,但论文作者指出:它缺乏坚实的理论基础,且存在一个致命缺陷——

🔴 参考点被强制非负(clipped at zero),导致模型无法有效远离参考模型(over-regularization)

资讯配图
图4(b):KTO 训练过程中参考点  的演化(Llama-3.1-8B on Capybara)
可以看到, 在训练初期迅速坍缩至 0,此后再无变化。这意味着模型始终在“零奖励”附近震荡,无法有效学习到正负奖励的差异,导致对齐效果受限。


三、理论重构:二元分类器如何隐式优化 DPO?

Kakao 与 LBOX 的研究团队提出了一个颠覆性视角:

🌟 对齐大模型,本质上是在训练一个二元分类器
输入:(prompt, completion)
输出:是否值得“点赞”?1 或 0
损失函数:二元交叉熵(BCE)

但他们不止于此——他们从理论上证明:BCE 损失是 DPO 损失的上界


3.1 核心定理:BCE 是 DPO 的上界

回忆 DPO 损失:

而 BCE 损失为:

论文提出:

定理 1
$ \mathcal{L}{\text{DPO}} < \mathcal{L}{\text{BCE}} $

证明关键:利用一个不等式:

(见附录 A.1)

这意味着:最小化 BCE 损失,必然导致 DPO 损失下降
换言之,用二元信号训练分类器,本质上是在优化偏好目标


3.2 但差距在哪?误差项分析

虽然 BCE 是上界,但二者之间存在一个“误差项”:

  • 当  很大(好回答得分高),第一项小
  • 当  很小(坏回答得分低),第二项小

因此,随着训练进行,BCE 会逐渐逼近 DPO

但问题来了:
能否主动缩小这个差距,让 BCE 更快、更紧地逼近 DPO?

答案是:
——这就是 Reward Shift(奖励偏移) 技术。


四、BCO 的核心创新:奖励偏移(Reward Shift)

作者提出:**将奖励整体平移一个偏移量 **,使正负样本的奖励分布更对称。

新损失函数为:

其中:

即:正负样本平均奖励的中点


4.1 为什么这更优?

  • 理论最优:作者证明(定理 4),当  时,误差项最小。
  • 避免坍缩:不同于 KTO 将参考点 clip 到 0,BCO 的  是动态、无偏的,允许模型自由探索奖励空间。
  • 梯度更均衡:KTO 的梯度中包含 ,在极端奖励处梯度消失;而 BCO 的梯度为 ,对低奖励样本仍保持学习能力。

4.2 实验验证:误差项真的变小了!

资讯配图
图3:UltraFeedback 数据集上误差项随训练步数的变化
BCO(蓝线)的误差项始终低于 BCE(灰线),证明奖励偏移确实有效缩小了与 DPO 的差距。


五、实验全景:BCO 在三大战场全面胜出

作者在三类数据集上验证 BCO:

  1. 成对偏好数据集(UltraFeedback, Capybara)
  2. 真实用户 Likert-5 评分数据(HelpSteer2)
  3. 主流对齐基准(MT-Bench, AlpacaEval, Arena-Hard)

5.1 战场一:成对偏好数据集

在 UltraFeedback 和 Capybara 上,将成对数据拆解为二元信号,训练 BCO。

结果如图1所示:

  • BCO ≈ DPO:性能几乎持平,证明 BCO 能达到 DPO 级别对齐
  • BCO > KTO:显著优于 KTO,尤其在大模型上
  • BCE < BCO:基础 BCE 损失性能较差,证明奖励偏移至关重要

这说明:即使有成对数据,BCO 也能通过二元信号实现同等甚至更优对齐


5.2 战场二:真实用户评分数据(HelpSteer2)

这才是 BCO 的“主战场”。

HelpSteer2 包含真实用户对回答的 1-5 分评分(Likert-5 scale)。
作者将其转换为二元信号:

  • 评分 ≥4 → “点赞”
  • 评分 ≤3 → “点踩”

然后分别用 DPO(需构造偏好对)、KTO、BCO 进行对齐。

资讯配图
图2:HelpSteer2 数据集上的胜率对比
BCO(蓝)在所有模型上均显著超越 DPO(橙)和 KTO(绿)
这证明:在真实用户反馈场景下,BCO 不仅可行,而且更优


5.3 战场三:权威对齐基准测试

作者进一步在 MT-Bench、AlpacaEval 2.0 LC、Arena-Hard 上测试模型性能。

方法
MT-Bench
AlpacaEval
Arena-Hard
DPO
8.28
20.9
26.86
KTO
8.19
30.31
20.39
BCO
8.3228.6131.37

(Llama-3.1-8B 结果)

  • BCO 在 MT-Bench 和 Arena-Hard 上全面领先
  • KTO 在 AlpacaEval 上表现突出,但 Arena-Hard 上严重掉点,可能因生成过短(仅 432 token)
  • BCO 生成长度(762)与 DPO(830)相近,说明其优化更均衡

📌 关键洞见
KTO 倾向于生成短、安全的回答(避免被点踩),而 BCO 能在保持安全的同时生成更丰富内容。


六、深度洞察:为什么 BCO 更“健康”?

作者通过 KL 散度分析揭示了不同方法的本质差异。

资讯配图
图4(a):不同方法下模型与参考模型的 KL 散度

  • DPO 与 BCO:KL 值较高,说明模型已充分偏离参考模型,学到新知识
  • KTO 与 BCE:KL 值较低,模型仍“粘”在参考模型上,学习不充分

这解释了为何 KTO 性能受限——其设计导致模型无法有效探索奖励空间

而 BCO 通过合理的奖励偏移,既避免了过拟合,又实现了充分学习。


七、BCO 的哲学:从“对比”到“判断”的范式转移

BCO 的意义远不止一个新算法。

它代表了一种对齐范式的转变

范式
代表方法
数据需求
用户心智
对比学习
DPO, RLHF
成对偏好
“A 比 B 好吗?”
二元判断
BCO
单样本 + 点赞/点踩
“这个回答好吗?”

后者更符合真实用户行为,也更易于规模化收集

未来,我们或许会看到:

  • 模型在部署中实时学习用户“点赞”
  • 个性化对齐:不同用户群体使用不同 
  • 多信号融合:点赞 + 点踩 + 停留时间 + 转发行为

八、局限与未来:BCO 的挑战与机遇

作者也坦诚指出 BCO 的局限:

  1. 缺乏真实二元反馈基准:目前仍用合成数据验证,需真实场景 benchmark
  2. 信息利用率低:5 分制评分被压缩为 1 bit,损失了细微偏好
  3. 上界优化风险:最小化上界 ≠ 最小化原目标,可能影响泛化

但这些正是未来方向:

  • 构建真实二元反馈数据集
  • 设计多级分类器(1-5 分 → 5 类)
  • 探索 tighter bound 或直接优化方法

九、结语:大模型对齐的“平民化”之路

BCO 的出现,让我们看到:

对齐大模型,不必再依赖昂贵的专家标注
普通用户的每一次“点赞”,都是一次有效的教学。

这不仅是技术进步,更是民主化 AI 的一步

Kakao 与 LBOX 用严谨的数学证明告诉我们:
那些看似简单的“👍”和“👎”,
其实蕴含着足以塑造智能的强大力量。

未来,或许每个用户,都是大模型的“隐形教师”。

🚀 BCO,让每一次点击,都更有意义


📌 论文信息
标题:Binary Classifier Optimization for Large Language Model Alignment
作者:Seungjae Jung♢, Gunsoo Han♢, Daniel Wontae Nam♢, Kyoung-Woon On♣
单位:♢ Kakao Corp, ♣ LBOX
链接:https://aclanthology.org/2025.acl-long.93.pdf

💬 你如何看待“点赞即训练”这一范式?欢迎在评论区分享你的观点!