谷歌的 Gemini 深度思考模式,成功挑战了全球最艰难的高中生数学竞赛。

它在与人类选手相同的 4.5 小时内,以流畅的自然语言写出完整证明,最终斩获 35 分,达到金牌标准。

核心突破

这标志着人工智能首次在国际数学奥林匹克竞赛中,于规定时间内用自然语言解题,并正式达到金牌水平,实现了历史性的跨越。

仅仅一年时间,Gemini 的表现就从去年的银牌(28分)大幅跃升至今年的金牌(35分),进步惊人。

这一飞跃得益于一项名为并行思考的关键技术。它摒弃了传统的单线程推理,允许模型同时探索、融合多种解题路径,从而找到最优答案

竞赛的极端难度

国际数学奥林匹克竞赛的难度极其严苛,各国的顶尖选手通常需要长达数年的专门训练。

每个国家队最多由六名学生组成,他们必须在两场各 4.5 小时的比赛中,解决六道横跨代数、组合数学、几何与数论的复杂问题。

今年的 630 名参赛者中,仅有 67 人摘得金牌,获奖比例不足一成。

Gemini 的夺金之路

本届奥赛的六道题目中,Gemini 成功解出五道,覆盖了代数、组合数学、几何及数论等多个领域,总分仅失 7 分。

35 分的优异成绩,使其稳稳地跻身 630 名人类参赛者中排名前 8% 的金牌选手之列

一年间的蜕变

回顾去年,谷歌的 AlphaProof 与 AlphaGeometry 模型组合还停留在 28 分的银牌水平。

当时,模型无法直接理解题目,需要人类专家先将赛题手动转写为 Lean 形式逻辑语言,过程耗时且繁琐。

而全新的深度思考模式彻底改变了这一流程。它能直接阅读英文原题,独立完成推理与证明,并在规定时间内输出通俗易懂的答案,不再需要过去那种长达数天的计算周期。

深度思考的内在机制

谷歌为模型引入了一套并行思考程序。该程序能同时激活多个不完整的解题思路,并从中识别、融合最有希望的部分,而非固守单一的推理路线

训练过程中,除了常规数据,工程师还为 Gemini 注入了大量多步推理序列、定理证明轨迹以及历届奥赛的经典解法。

同时,强化学习的引入,促使模型在给出答案前进行更周密、更深远的规划。工程师还巧妙地延长了模型的内部思考时间,并参考人类金牌教练的经验,为其提供高质量的提示,让模型能获得宝贵的喘息之机。

奠定胜局的工程智慧

Gemini 工程师通过三大关键护栏机制,实现了模型从“优秀”到“竞赛级”的跨越。

第一大支柱:自洽性检查,过滤瑕疵

模型从不轻信自己的第一反应。它会首先生成多个候选证明,再启动一个内部验证器,对每个代数步骤、几何构图和数论论断进行严格审查。

任何存在逻辑断裂的推理路径都会被果断抛弃。只有那些内部逻辑完全自洽的证明才能通过筛选,并由多数投票决定最终答案

研究表明,这种机制相比传统的思维链方法,能将准确率提升高达 18%,因为它能有效识别并剔除那些逻辑不一致的 AI 幻觉。

第二大支柱:知识检索,巧用前人经验

在解题前,Gemini 会首先分析新赛题的特征,然后在其庞大的知识库(包含数千个已解题目)中检索并调取最相似的过往案例。

这些案例的陈述和专家解法会被融入当前思考的上下文中,让模型能直接借鉴成熟的引理或几何技巧,避免了从零开始的低效探索。

检索增强生成技术早已在其他领域证明了其价值,它将模型的推理牢牢锚定在已知模式之上,极大提升了解题的效率与准度。

第三大支柱:内置评分,引导自我优化

模型的提示词中,内置了国际数学奥林匹克竞赛的官方评分规则:完整证明得 7 分,有效进展得部分分,错误答案得 0 分。

每完成一轮推理,模型都会依据此规则草案进行自我打分和评估,主动发现论证中的缺陷,并决定是否投入更多算力去完善。

这种基于规则的自我批判与反馈机制,是提示词工程与自我评估研究的核心思想,它能引导大模型摆脱粗糙的答案,产出真正符合竞赛标准的、高度凝练的论证。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!