阿里Qwen3-Coder一夜刷屏,Agent能力首次媲美Claude,实测SWE-Bench超越闭源模型,网友:太卷了!
- 2025-07-24 14:36:43
核心看点
Qwen 发布了新一代编码模型 Qwen3-Coder,其性能已达到世界顶尖水平,足以同 Claude Sonnet-4、GPT-4.1 及 Kimi K2 等模型分庭抗礼。
通义千问自 2023 年 4 月启动测试,同年 9 月在获得官方批准后正式面世。
它不仅要与 ChatGPT、Gemini 等顶级模型一较高下,更承载着一个宏大愿景:
整合全球围绕开源权重大语言模型的最佳研究成果,为中国本土的开发者和产品创新者生态,注入世界最前沿的性能动力。
到 2025 年,这一愿景正一步步化为现实。
阿里巴巴对众多顶尖的语言模型研究实验室(月之暗面、MiniMax、01.ai)进行了战略投资,这为其赢得了无可比拟的内部赛道优势。
相较之下,即便是 Meta AI 也似乎感到力不从心,被迫通过其「Meta 超级智能实验室」项目,重新退回闭源的技术路线。
阿里巴巴的胜利,早已不局限于亚洲的云计算市场。现在,任何人都可以通过阿里云模型工作室,直接调用 Qwen3-Coder 的 API 接口。
Qwen 3:开源编码与智能体 AI 的新标杆
Qwen3-Coder
提供了多种规模的型号,但其最强变体无疑最先吸引了所有人的目光。
它就是 Qwen3-Coder-480B-A35B-Instruct——一个拥有 4800 亿参数的专家混合模型。
该模型在推理时会激活 350 亿参数,原生支持高达 256K 的上下文长度,并可通过外推方法扩展至百万级别,在编码和智能体任务上均展现出超凡的性能。
在智能体编码、智能体浏览器使用和智能体工具使用等多个领域,Qwen3-Coder-480B-A35B-Instruct 为开源模型树立了全新的性能标杆,其表现足以媲美 Claude Sonnet 4。
Qwen3-Coder 的本质是什么?
官方博客如此阐述:「伴随模型发布,我们还开源了一款为智能体编码打造的命令行工具:
Qwen Code
。」「它派生自
Gemini Code
,我们通过定制化的提示和函数调用协议,使其能完全释放 Qwen3-Coder 在智能体编码任务上的潜能。」「我们希望它作为一个基础模型,能被应用于数字世界的每个角落——实现世界中的智能体编码!」
核心技术规格
预训练策略
在预训练上,Qwen 仍有巨大的提升空间,并通过多个维度的强化,来巩固模型的核心能力:
海量数据:消化了 7.5 万亿 token 的数据,其中代码数据占比高达 70%,确保了顶级的编码能力,同时未牺牲通用的语言和数学能力。
超长上下文:原生支持 256K 上下文,并可通过 YaRN 等技术扩展至 100 万。这对于处理仓库级别的代码和
Pull Requests
等动态数据至关重要,是赋能智能体编码的关键。高质量合成数据:利用前代模型 Qwen2.5-Coder 对海量数据进行清洗和重写,极大地提升了训练数据的整体质量。
关键特性参数
模型规模: 4800 亿参数的专家混合架构,推理时激活 350 亿参数。 模型架构: 包含 160 个专家,每次推理激活 8 个,实现了效率与性能的完美平衡。 网络层数: 62 层。 注意力头: 96 个查询头 (Q),8 个键值头 (KV),采用 GQA 机制。 上下文长度: 原生支持 256,000 令牌,可扩展至 1,000,000 令牌。 编程语言支持: 全面支持 Python、JavaScript、Java、C++、Go、Rust 在内的多种主流编程及标记语言。 模型类型: 因果语言模型,同时提供基础版和指令微调版。
Qwen 3 的智能体能力:迈向真实世界
在 SWE-Bench 这类模拟真实世界软件工程任务的基准测试中,模型必须与环境进行多轮交互,这涉及规划、工具使用、接收反馈和自主决策等复杂行为。
为此,我们在 Qwen3-Coder 的后训练阶段,引入了长时程强化学习(也称智能体强化学习)技术。
其核心是鼓励模型通过使用工具进行多轮交互,来解决真实世界的复杂问题。
这一技术的挑战在于环境的规模化。Qwen团队依托阿里云强大的基础设施,构建了一个能够并行运行两万个独立环境的可扩展系统。
该系统为大规模强化学习提供了必需的反馈,并支持了大规模的自动化评估。
最终,Qwen3-Coder 在 SWE-Bench Verified 测试上,无需任何额外技巧,便在开源模型中取得了最顶尖的成绩。
基准测试亮点
真实世界编码 (SWE-bench-Verified): 在此项极具挑战的基准上,Qwen3-Coder 的性能在所有开源模型中位列第一,足以比肩甚至超越顶级的闭源商业模型。
核心智能体任务: 在智能体编码、浏览器使用和工具调用等关键任务上表现卓越,性能可与 Claude Sonnet-4 等一流模型相媲美。
能力广度: 在算法竞赛编程、自动化测试、代码重构和程序调试等多个维度,均展现出极高的专业水准。
有时候,用户真正需要的,只是纯粹强大的能力,而非那些旨在提高用户粘性的游戏化噱头。
Qwen 模型家族正在不断壮大,其灵活性与性能持续提升,为各类企业提供了丰富的选择。
在这一点上,西方的 Mistral 等竞争对手,尚未能与之并驾齐驱。
未来展望
Qwen 的研究员们表示,他们将持续优化编码智能体的性能,使其能胜任软件工程中更复杂、更繁琐的任务,最终解放人类的生产力。
更多尺寸、更低部署成本的 Qwen3-Coder 模型也已在路上。
此外,探索编码智能体是否能实现自我进化,是一个更激动人心、更具启发性的研究方向。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊