阿里Qwen3-Coder一夜刷屏，Agent能力首次媲美Claude，实测SWE-Bench超越闭源模型，网友：太卷了！

智能情报所
2025-07-24 14:36:43

核心看点

Qwen 发布了新一代编码模型 Qwen3-Coder，其性能已达到世界顶尖水平，足以同 Claude Sonnet-4、GPT-4.1 及 Kimi K2 等模型分庭抗礼。

通义千问自 2023 年 4 月启动测试，同年 9 月在获得官方批准后正式面世。

它不仅要与 ChatGPT、Gemini 等顶级模型一较高下，更承载着一个宏大愿景：

整合全球围绕开源权重大语言模型的最佳研究成果，为中国本土的开发者和产品创新者生态，注入世界最前沿的性能动力。

到 2025 年，这一愿景正一步步化为现实。

阿里巴巴对众多顶尖的语言模型研究实验室（月之暗面、MiniMax、01.ai）进行了战略投资，这为其赢得了无可比拟的内部赛道优势。

相较之下，即便是 Meta AI 也似乎感到力不从心，被迫通过其「Meta 超级智能实验室」项目，重新退回闭源的技术路线。

阿里巴巴的胜利，早已不局限于亚洲的云计算市场。现在，任何人都可以通过阿里云模型工作室，直接调用 Qwen3-Coder 的 API 接口。

Qwen 3：开源编码与智能体 AI 的新标杆

Qwen3-Coder 提供了多种规模的型号，但其最强变体无疑最先吸引了所有人的目光。

它就是 Qwen3-Coder-480B-A35B-Instruct——一个拥有 4800 亿参数的专家混合模型。

该模型在推理时会激活 350 亿参数，原生支持高达 256K 的上下文长度，并可通过外推方法扩展至百万级别，在编码和智能体任务上均展现出超凡的性能。

在智能体编码、智能体浏览器使用和智能体工具使用等多个领域，Qwen3-Coder-480B-A35B-Instruct 为开源模型树立了全新的性能标杆，其表现足以媲美 Claude Sonnet 4。

Qwen3-Coder 的本质是什么？

官方博客如此阐述：「伴随模型发布，我们还开源了一款为智能体编码打造的命令行工具：Qwen Code。」
「它派生自 Gemini Code，我们通过定制化的提示和函数调用协议，使其能完全释放 Qwen3-Coder 在智能体编码任务上的潜能。」
「我们希望它作为一个基础模型，能被应用于数字世界的每个角落——实现世界中的智能体编码！」

核心技术规格

预训练策略

在预训练上，Qwen 仍有巨大的提升空间，并通过多个维度的强化，来巩固模型的核心能力：

海量数据：消化了 7.5 万亿 token 的数据，其中代码数据占比高达 70%，确保了顶级的编码能力，同时未牺牲通用的语言和数学能力。
超长上下文：原生支持 256K 上下文，并可通过 YaRN 等技术扩展至 100 万。这对于处理仓库级别的代码和 Pull Requests 等动态数据至关重要，是赋能智能体编码的关键。
高质量合成数据：利用前代模型 Qwen2.5-Coder 对海量数据进行清洗和重写，极大地提升了训练数据的整体质量。

关键特性参数

模型规模: 4800 亿参数的专家混合架构，推理时激活 350 亿参数。
模型架构: 包含 160 个专家，每次推理激活 8 个，实现了效率与性能的完美平衡。
网络层数: 62 层。
注意力头: 96 个查询头 (Q)，8 个键值头 (KV)，采用 GQA 机制。
上下文长度: 原生支持 256,000 令牌，可扩展至 1,000,000 令牌。
编程语言支持: 全面支持 Python、JavaScript、Java、C++、Go、Rust 在内的多种主流编程及标记语言。
模型类型: 因果语言模型，同时提供基础版和指令微调版。

Qwen 3 的智能体能力：迈向真实世界

在 SWE-Bench 这类模拟真实世界软件工程任务的基准测试中，模型必须与环境进行多轮交互，这涉及规划、工具使用、接收反馈和自主决策等复杂行为。

为此，我们在 Qwen3-Coder 的后训练阶段，引入了长时程强化学习（也称智能体强化学习）技术。

其核心是鼓励模型通过使用工具进行多轮交互，来解决真实世界的复杂问题。

这一技术的挑战在于环境的规模化。Qwen团队依托阿里云强大的基础设施，构建了一个能够并行运行两万个独立环境的可扩展系统。

该系统为大规模强化学习提供了必需的反馈，并支持了大规模的自动化评估。

资讯配图

最终，Qwen3-Coder 在 SWE-Bench Verified 测试上，无需任何额外技巧，便在开源模型中取得了最顶尖的成绩。

基准测试亮点

真实世界编码 (SWE-bench-Verified): 在此项极具挑战的基准上，Qwen3-Coder 的性能在所有开源模型中位列第一，足以比肩甚至超越顶级的闭源商业模型。
核心智能体任务: 在智能体编码、浏览器使用和工具调用等关键任务上表现卓越，性能可与 Claude Sonnet-4 等一流模型相媲美。
能力广度: 在算法竞赛编程、自动化测试、代码重构和程序调试等多个维度，均展现出极高的专业水准。

有时候，用户真正需要的，只是纯粹强大的能力，而非那些旨在提高用户粘性的游戏化噱头。

Qwen 模型家族正在不断壮大，其灵活性与性能持续提升，为各类企业提供了丰富的选择。

在这一点上，西方的 Mistral 等竞争对手，尚未能与之并驾齐驱。

未来展望

Qwen 的研究员们表示，他们将持续优化编码智能体的性能，使其能胜任软件工程中更复杂、更繁琐的任务，最终解放人类的生产力。

更多尺寸、更低部署成本的 Qwen3-Coder 模型也已在路上。

此外，探索编码智能体是否能实现自我进化，是一个更激动人心、更具启发性的研究方向。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊