卡内基梅隆大学研究:所有AI都过度自信且拒不认错,且自我修正能力远逊人类
- 2025-07-25 17:46:08
最新研究揭示,人工智能不仅过度自信,其自我校准的能力也远逊于人类。
作者: 安迪·海马克
日期: 2025年7月24日
你们曾报道过人工智能的过度自信问题,是吗?
是的。我们或许都知道,人工智能因其流畅的语言风格而显得自信。
先前有研究将其比作人类的一种特殊大脑状况——能言善辩,却对语义缺乏真正的理解。
而且,相比于人类,我们无法从 AI 身上捕捉到犹豫、音调变化或使用「我想」这类词语所传递的不确定信号。
但人工智能不会自我校准吗?
我们过去也以为它会。但卡内基梅隆大学的一项新研究颠覆了这一认知:人工智能并不能有效地自我校准。
在这一点上,我们人类完胜。
自我校准难道不是学习与大脑运作的核心吗?
完全正确。在我们基于大脑运作方式建立的人类行为模型中,内部反馈,即自我校准,是不可或缺的一环。
大量研究数据表明,它对学习、个人提升乃至商业绩效都起着决定性的作用。
研究人员具体是怎么做的?
他们让四款主流的大语言模型(ChatGPT、Gemini、Sonnet、Haiku)与真人被试,一同完成多种预测任务。
任务类型多样,既包括像奥斯卡预测这类对人类也极具挑战的判断题,也涵盖了知识问答、大学生活提问,甚至还有《你画我猜》游戏。
实验前后,所有参与者都需要预测自己的得分,并在获得反馈后,进行多轮重复测试。
那些人工智能工具表现如何?
首先,所有人工智能模型都表现出远超人类的过度自信。当然,人类本身也普遍存在过度自信的偏见,这在心理学上早有定论。
其次,尽管 AI 也进行了一定程度的自我修正,但效果远不如人类,并且始终维持着高度、有时甚至是极度夸张的自信。
比如,一个普通人预测自己能答对 18 题,结果只对了 15 题,他下一轮大概会把预期调整到 16 题。这种微调是人类的常态。
相比之下,Gemini 在《你画我猜》中的表现惨不忍睹,20 次仅猜对 1 次,却依然坚信自己能猜对 14 次。它明明表现很糟,却浑然不觉。
这背后揭示了什么?
这意义重大,它暴露了人工智能的关键软肋。例如,BBC 的研究发现,AI 生成的新闻内容,超过一半存在事实错误或信源误导。
2023 年另一项研究指出,大语言模型在处理法律问题时,给出错误信息的比例高达 69% 至 88%。
考虑到越来越多人把 AI 当作搜索引擎来用,这个问题尤其令人警惕。
对企业而言,这也提醒我们必须认清 AI 的能力边界。或许我们都高估了它学习和自我纠错的潜力,至少在读到这项研究前,我是这么认为的。
所以,归根结底还是人脑最强?
在某些方面确实如此。人工智能无疑是强大的工具,能创造许多奇迹。
但更重要的是,我们必须理解其局限,切勿盲目信任。
我们更要常用自己的大脑!
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊