刚刚,谷歌首次拿下国际数学奥赛金牌,35分|「深度思考」模式曝光,直读自然语言输入输出问鼎 IMO,三大神技揭秘
- 2025-07-22 11:25:30
谷歌的 Gemini 深度思考模式,成功挑战了全球最艰难的高中生数学竞赛。
它在与人类选手相同的 4.5 小时内,以流畅的自然语言写出完整证明,最终斩获 35 分,达到金牌标准。
核心突破
这标志着人工智能首次在国际数学奥林匹克竞赛中,于规定时间内用自然语言解题,并正式达到金牌水平,实现了历史性的跨越。
仅仅一年时间,Gemini 的表现就从去年的银牌(28分)大幅跃升至今年的金牌(35分),进步惊人。

这一飞跃得益于一项名为并行思考的关键技术。它摒弃了传统的单线程推理,允许模型同时探索、融合多种解题路径,从而找到最优答案。
竞赛的极端难度
国际数学奥林匹克竞赛的难度极其严苛,各国的顶尖选手通常需要长达数年的专门训练。
每个国家队最多由六名学生组成,他们必须在两场各 4.5 小时的比赛中,解决六道横跨代数、组合数学、几何与数论的复杂问题。
今年的 630 名参赛者中,仅有 67 人摘得金牌,获奖比例不足一成。
Gemini 的夺金之路
本届奥赛的六道题目中,Gemini 成功解出五道,覆盖了代数、组合数学、几何及数论等多个领域,总分仅失 7 分。
35 分的优异成绩,使其稳稳地跻身 630 名人类参赛者中排名前 8% 的金牌选手之列。
一年间的蜕变
回顾去年,谷歌的 AlphaProof 与 AlphaGeometry 模型组合还停留在 28 分的银牌水平。
当时,模型无法直接理解题目,需要人类专家先将赛题手动转写为 Lean 形式逻辑语言,过程耗时且繁琐。
而全新的深度思考模式彻底改变了这一流程。它能直接阅读英文原题,独立完成推理与证明,并在规定时间内输出通俗易懂的答案,不再需要过去那种长达数天的计算周期。
深度思考的内在机制
谷歌为模型引入了一套并行思考程序。该程序能同时激活多个不完整的解题思路,并从中识别、融合最有希望的部分,而非固守单一的推理路线。
训练过程中,除了常规数据,工程师还为 Gemini 注入了大量多步推理序列、定理证明轨迹以及历届奥赛的经典解法。
同时,强化学习的引入,促使模型在给出答案前进行更周密、更深远的规划。工程师还巧妙地延长了模型的内部思考时间,并参考人类金牌教练的经验,为其提供高质量的提示,让模型能获得宝贵的喘息之机。
奠定胜局的工程智慧
Gemini 工程师通过三大关键护栏机制,实现了模型从“优秀”到“竞赛级”的跨越。
第一大支柱:自洽性检查,过滤瑕疵
模型从不轻信自己的第一反应。它会首先生成多个候选证明,再启动一个内部验证器,对每个代数步骤、几何构图和数论论断进行严格审查。
任何存在逻辑断裂的推理路径都会被果断抛弃。只有那些内部逻辑完全自洽的证明才能通过筛选,并由多数投票决定最终答案。
研究表明,这种机制相比传统的思维链方法,能将准确率提升高达 18%,因为它能有效识别并剔除那些逻辑不一致的 AI 幻觉。
第二大支柱:知识检索,巧用前人经验
在解题前,Gemini 会首先分析新赛题的特征,然后在其庞大的知识库(包含数千个已解题目)中检索并调取最相似的过往案例。
这些案例的陈述和专家解法会被融入当前思考的上下文中,让模型能直接借鉴成熟的引理或几何技巧,避免了从零开始的低效探索。
检索增强生成技术早已在其他领域证明了其价值,它将模型的推理牢牢锚定在已知模式之上,极大提升了解题的效率与准度。
第三大支柱:内置评分,引导自我优化
模型的提示词中,内置了国际数学奥林匹克竞赛的官方评分规则:完整证明得 7 分,有效进展得部分分,错误答案得 0 分。
每完成一轮推理,模型都会依据此规则草案进行自我打分和评估,主动发现论证中的缺陷,并决定是否投入更多算力去完善。
这种基于规则的自我批判与反馈机制,是提示词工程与自我评估研究的核心思想,它能引导大模型摆脱粗糙的答案,产出真正符合竞赛标准的、高度凝练的论证。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊