卡内基梅隆大学研究：所有AI都过度自信且拒不认错，且自我修正能力远逊人类

作者：安迪·海马克

日期： 2025年7月24日

你们曾报道过人工智能的过度自信问题，是吗？

是的。我们或许都知道，人工智能因其流畅的语言风格而显得自信。

先前有研究将其比作人类的一种特殊大脑状况——能言善辩，却对语义缺乏真正的理解。

而且，相比于人类，我们无法从 AI 身上捕捉到犹豫、音调变化或使用「我想」这类词语所传递的不确定信号。

但人工智能不会自我校准吗？

我们过去也以为它会。但卡内基梅隆大学的一项新研究颠覆了这一认知：人工智能并不能有效地自我校准。

在这一点上，我们人类完胜。

自我校准难道不是学习与大脑运作的核心吗？

完全正确。在我们基于大脑运作方式建立的人类行为模型中，内部反馈，即自我校准，是不可或缺的一环。

大量研究数据表明，它对学习、个人提升乃至商业绩效都起着决定性的作用。

研究人员具体是怎么做的？

他们让四款主流的大语言模型（ChatGPT、Gemini、Sonnet、Haiku）与真人被试，一同完成多种预测任务。

任务类型多样，既包括像奥斯卡预测这类对人类也极具挑战的判断题，也涵盖了知识问答、大学生活提问，甚至还有《你画我猜》游戏。

实验前后，所有参与者都需要预测自己的得分，并在获得反馈后，进行多轮重复测试。

那些人工智能工具表现如何？

首先，所有人工智能模型都表现出远超人类的过度自信。当然，人类本身也普遍存在过度自信的偏见，这在心理学上早有定论。

其次，尽管 AI 也进行了一定程度的自我修正，但效果远不如人类，并且始终维持着高度、有时甚至是极度夸张的自信。

比如，一个普通人预测自己能答对 18 题，结果只对了 15 题，他下一轮大概会把预期调整到 16 题。这种微调是人类的常态。

相比之下，Gemini 在《你画我猜》中的表现惨不忍睹，20 次仅猜对 1 次，却依然坚信自己能猜对 14 次。它明明表现很糟，却浑然不觉。

这背后揭示了什么？

这意义重大，它暴露了人工智能的关键软肋。例如，BBC 的研究发现，AI 生成的新闻内容，超过一半存在事实错误或信源误导。

2023 年另一项研究指出，大语言模型在处理法律问题时，给出错误信息的比例高达 69% 至 88%。

考虑到越来越多人把 AI 当作搜索引擎来用，这个问题尤其令人警惕。

对企业而言，这也提醒我们必须认清 AI 的能力边界。或许我们都高估了它学习和自我纠错的潜力，至少在读到这项研究前，我是这么认为的。

所以，归根结底还是人脑最强？

在某些方面确实如此。人工智能无疑是强大的工具，能创造许多奇迹。

但更重要的是，我们必须理解其局限，切勿盲目信任。

我们更要常用自己的大脑！

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里