刚刚，谷歌首次拿下国际数学奥赛金牌，35分｜「深度思考」模式曝光，直读自然语言输入输出问鼎 IMO，三大神技揭秘

谷歌的 Gemini 深度思考模式，成功挑战了全球最艰难的高中生数学竞赛。

它在与人类选手相同的 4.5 小时内，以流畅的自然语言写出完整证明，最终斩获 35 分，达到金牌标准。

核心突破

这标志着人工智能首次在国际数学奥林匹克竞赛中，于规定时间内用自然语言解题，并正式达到金牌水平，实现了历史性的跨越。

仅仅一年时间，Gemini 的表现就从去年的银牌（28分）大幅跃升至今年的金牌（35分），进步惊人。

这一飞跃得益于一项名为并行思考的关键技术。它摒弃了传统的单线程推理，允许模型同时探索、融合多种解题路径，从而找到最优答案。

国际数学奥林匹克竞赛的难度极其严苛，各国的顶尖选手通常需要长达数年的专门训练。

每个国家队最多由六名学生组成，他们必须在两场各 4.5 小时的比赛中，解决六道横跨代数、组合数学、几何与数论的复杂问题。

今年的 630 名参赛者中，仅有 67 人摘得金牌，获奖比例不足一成。

本届奥赛的六道题目中，Gemini 成功解出五道，覆盖了代数、组合数学、几何及数论等多个领域，总分仅失 7 分。

35 分的优异成绩，使其稳稳地跻身 630 名人类参赛者中排名前 8% 的金牌选手之列。

回顾去年，谷歌的 AlphaProof 与 AlphaGeometry 模型组合还停留在 28 分的银牌水平。

当时，模型无法直接理解题目，需要人类专家先将赛题手动转写为 Lean 形式逻辑语言，过程耗时且繁琐。

而全新的深度思考模式彻底改变了这一流程。它能直接阅读英文原题，独立完成推理与证明，并在规定时间内输出通俗易懂的答案，不再需要过去那种长达数天的计算周期。

谷歌为模型引入了一套并行思考程序。该程序能同时激活多个不完整的解题思路，并从中识别、融合最有希望的部分，而非固守单一的推理路线。

训练过程中，除了常规数据，工程师还为 Gemini 注入了大量多步推理序列、定理证明轨迹以及历届奥赛的经典解法。

同时，强化学习的引入，促使模型在给出答案前进行更周密、更深远的规划。工程师还巧妙地延长了模型的内部思考时间，并参考人类金牌教练的经验，为其提供高质量的提示，让模型能获得宝贵的喘息之机。

Gemini 工程师通过三大关键护栏机制，实现了模型从“优秀”到“竞赛级”的跨越。

模型从不轻信自己的第一反应。它会首先生成多个候选证明，再启动一个内部验证器，对每个代数步骤、几何构图和数论论断进行严格审查。

任何存在逻辑断裂的推理路径都会被果断抛弃。只有那些内部逻辑完全自洽的证明才能通过筛选，并由多数投票决定最终答案。

研究表明，这种机制相比传统的思维链方法，能将准确率提升高达 18%，因为它能有效识别并剔除那些逻辑不一致的 AI 幻觉。

在解题前，Gemini 会首先分析新赛题的特征，然后在其庞大的知识库（包含数千个已解题目）中检索并调取最相似的过往案例。

这些案例的陈述和专家解法会被融入当前思考的上下文中，让模型能直接借鉴成熟的引理或几何技巧，避免了从零开始的低效探索。

检索增强生成技术早已在其他领域证明了其价值，它将模型的推理牢牢锚定在已知模式之上，极大提升了解题的效率与准度。

模型的提示词中，内置了国际数学奥林匹克竞赛的官方评分规则：完整证明得 7 分，有效进展得部分分，错误答案得 0 分。

每完成一轮推理，模型都会依据此规则草案进行自我打分和评估，主动发现论证中的缺陷，并决定是否投入更多算力去完善。

这种基于规则的自我批判与反馈机制，是提示词工程与自我评估研究的核心思想，它能引导大模型摆脱粗糙的答案，产出真正符合竞赛标准的、高度凝练的论证。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里