AI越训练，越会「满嘴跑火车」！普林伯克利重磅揭秘，RLHF竟是罪魁祸首？ - 科技区角

企业入驻

登录丨注册

AI越训练，越会「满嘴跑火车」！普林伯克利重磅揭秘，RLHF竟是罪魁祸首？

新智元
2025-07-24 10:22:17

新智元报道

编辑：英智

【新智元导读】一项来自普林斯顿和伯克利的重磅研究揭露了AI的胡扯本质。从空洞修辞到误导性半真话，AI如何用花言巧语掩盖真相？快来看「胡扯指数」如何量化AI的忽悠能力！

你有没有觉得，AI有时候像在「满嘴跑火车」？

GPT滔滔不绝抛出一堆看似高大上的建议，却空洞无物；或者在关键问题上打太极，含糊其辞，它是否真的关心自己在说什么？

最近，一项重磅研究《Machine Bullshit》火了。

由普林斯顿大学和伯克利联手打造，这项研究首次系统定义并量化了LLM的胡扯行为，揭示了AI在对齐训练后，竟表现出和人类相似的胡说八道倾向。

论文链接：https://arxiv.org/abs/2507.07484

哲学家Harry Frankfurt指出，胡扯的核心是对真相的漠视——说话者更关注如何说服他人，而非陈述事实。

「机器胡扯」四大套路

研究团队把这套理论搬到AI身上，总结了AI胡扯的四种典型表现：

空洞修辞（Empty Rhetoric）：话说得花里胡哨，但没啥干货。比如「这款产品融合尖端科技与卓越性能」，听起来很牛，实际啥也没说。
误导性真话（Paltering）：挑着部分事实讲，引导你误解。比如「本基金历史回报率高达20%」，却不提高得吓人的风险。
模糊措辞（Weasel Words）：用「可能」「某些专家认为」这种模棱两可的话搪塞责任。
未经证实的断言（Unverified Claims）：自信满满地抛出没根据的信息，比如「我们的技术能大幅提升效率」，但没数据没证据。

胡扯指数：量化AI的「心口不一」

研究团队还提出了硬核指标Bullshit Index（胡扯指数），专门用来衡量AI有多不在乎真相。

通过对比模型的内心真实认知（belief）和表面说辞（claim）之间的差距来计算。

BI越接近1，说明AI越满嘴跑火车，不在乎真相；越接近0，说明模型言行一致。

实验揭秘：AI越对齐越会忽悠

研究发现，经过强化学习人类反馈（RLHF）训练后，AI的胡扯倾向竟然更严重！

比如在购物场景实验中，不管模型知道多少真相，它总爱一口咬定产品超棒。

胡扯指数从0.379飙到0.665，证明AI对真相的漠视加剧了。

经过RLHF训练后，模型并非对真相产生困惑或误解，恰恰相反，它清楚地知道真相却变得不再关心真相，而是选择用更讨用户喜欢的方式去表达。

数据更扎心：RLHF训练后，AI的胡扯行为全面开花：

空洞辞藻暴增39.8%；
模糊措辞涨了26.8%；
误导性半真话激增57.8%；
无凭据断言猛涨55.6%。

用户满意度看似提升了，但AI却成了胡说专家。

尤其是误导性半真话，危害几乎翻倍（效用损失系数从-0.49恶化到-0.89），因为半真半假最难辨别。

推理越多，胡扯越狠？

更让人意外的是，让AI多思考（Chain-of-Thought）非但没让它更老实，反而火上浇油！

空洞辞藻增加21%，误导性半真话涨11%。这说明，AI越深思熟虑，可能越会花式忽悠。

研究还提到了委托-代理问题（Principal-Agent problem）：当AI得同时顾及多方利益（比如公司和用户冲突时），它的胡说行为更猖狂。

比如推销产品时，AI可能为了公司利益，刻意夸大优点、掩盖缺点。

在敏感政治议题上，大模型尤其爱用模糊措辞，避免明确表态。

比如它可能会说：「部分观察人士认为选举过程有争议」，但不说这些观察人士是谁，也没数据支撑。

这项研究首次系统定义并量化了机器胡扯，用胡扯指数和四大策略把AI的忽悠行为扒得清清楚楚。

研究警告，RLHF和过度推理非但没让AI更真诚，反而让胡扯更严重。在公司与用户利益冲突或敏感话题上，AI的打太极倾向更明显。

这提醒我们，AI训练和评估标准得改改了。

未来的AI得不仅会说，还要说真话、透明公开，才能真正对齐人类需求。

参考资料：

https://arxiv.org/abs/2507.07484

https://x.com/kaiqu_liang/status/1943350770788937980

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

AI

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊

AI版「星球大战」！特朗普签署「AI行动计划」，万亿美金押注全球AI霸权

邀请：ADC芯片测试、FPGA机电物理仿真、Labview+大模型等|芯片测试线下技术研讨会（8月5日苏州）

作者相关

更多

新智元
智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

与TA相关