核心看点

  • Qwen 发布了新一代编码模型 Qwen3-Coder,其性能已达到世界顶尖水平,足以同 Claude Sonnet-4、GPT-4.1 及 Kimi K2 等模型分庭抗礼。

通义千问自 2023 年 4 月启动测试,同年 9 月在获得官方批准后正式面世。

它不仅要与 ChatGPT、Gemini 等顶级模型一较高下,更承载着一个宏大愿景:

整合全球围绕开源权重大语言模型的最佳研究成果,为中国本土的开发者和产品创新者生态,注入世界最前沿的性能动力。

到 2025 年,这一愿景正一步步化为现实。

阿里巴巴对众多顶尖的语言模型研究实验室(月之暗面、MiniMax、01.ai)进行了战略投资,这为其赢得了无可比拟的内部赛道优势。

相较之下,即便是 Meta AI 也似乎感到力不从心,被迫通过其「Meta 超级智能实验室」项目,重新退回闭源的技术路线。

阿里巴巴的胜利,早已不局限于亚洲的云计算市场。现在,任何人都可以通过阿里云模型工作室,直接调用 Qwen3-Coder 的 API 接口。

Qwen 3:开源编码与智能体 AI 的新标杆

Qwen3-Coder 提供了多种规模的型号,但其最强变体无疑最先吸引了所有人的目光。

它就是 Qwen3-Coder-480B-A35B-Instruct——一个拥有 4800 亿参数的专家混合模型。

该模型在推理时会激活 350 亿参数,原生支持高达 256K 的上下文长度,并可通过外推方法扩展至百万级别,在编码和智能体任务上均展现出超凡的性能。

在智能体编码、智能体浏览器使用和智能体工具使用等多个领域,Qwen3-Coder-480B-A35B-Instruct 为开源模型树立了全新的性能标杆,其表现足以媲美 Claude Sonnet 4。

Qwen3-Coder 的本质是什么?

官方博客如此阐述:「伴随模型发布,我们还开源了一款为智能体编码打造的命令行工具:Qwen Code。」

「它派生自 Gemini Code,我们通过定制化的提示和函数调用协议,使其能完全释放 Qwen3-Coder 在智能体编码任务上的潜能。」

「我们希望它作为一个基础模型,能被应用于数字世界的每个角落——实现世界中的智能体编码!」

核心技术规格

预训练策略

在预训练上,Qwen 仍有巨大的提升空间,并通过多个维度的强化,来巩固模型的核心能力:

  • 海量数据:消化了 7.5 万亿 token 的数据,其中代码数据占比高达 70%,确保了顶级的编码能力,同时未牺牲通用的语言和数学能力。

  • 超长上下文:原生支持 256K 上下文,并可通过 YaRN 等技术扩展至 100 万。这对于处理仓库级别的代码和 Pull Requests 等动态数据至关重要,是赋能智能体编码的关键。

  • 高质量合成数据:利用前代模型 Qwen2.5-Coder 对海量数据进行清洗和重写,极大地提升了训练数据的整体质量。

    资讯配图

关键特性参数

  • 模型规模: 4800 亿参数的专家混合架构,推理时激活 350 亿参数。
  • 模型架构: 包含 160 个专家,每次推理激活 8 个,实现了效率与性能的完美平衡。
  • 网络层数: 62 层。
  • 注意力头: 96 个查询头 (Q),8 个键值头 (KV),采用 GQA 机制。
  • 上下文长度: 原生支持 256,000 令牌,可扩展至 1,000,000 令牌。
  • 编程语言支持: 全面支持 Python、JavaScript、Java、C++、Go、Rust 在内的多种主流编程及标记语言。
  • 模型类型: 因果语言模型,同时提供基础版和指令微调版。

Qwen 3 的智能体能力:迈向真实世界

在 SWE-Bench 这类模拟真实世界软件工程任务的基准测试中,模型必须与环境进行多轮交互,这涉及规划、工具使用、接收反馈和自主决策等复杂行为。

为此,我们在 Qwen3-Coder 的后训练阶段,引入了长时程强化学习(也称智能体强化学习)技术。

其核心是鼓励模型通过使用工具进行多轮交互,来解决真实世界的复杂问题。

这一技术的挑战在于环境的规模化。Qwen团队依托阿里云强大的基础设施,构建了一个能够并行运行两万个独立环境的可扩展系统。

该系统为大规模强化学习提供了必需的反馈,并支持了大规模的自动化评估。

资讯配图

最终,Qwen3-Coder 在 SWE-Bench Verified 测试上,无需任何额外技巧,便在开源模型中取得了最顶尖的成绩。

基准测试亮点

  • 真实世界编码 (SWE-bench-Verified): 在此项极具挑战的基准上,Qwen3-Coder 的性能在所有开源模型中位列第一,足以比肩甚至超越顶级的闭源商业模型。

  • 核心智能体任务: 在智能体编码、浏览器使用和工具调用等关键任务上表现卓越,性能可与 Claude Sonnet-4 等一流模型相媲美。

  • 能力广度: 在算法竞赛编程、自动化测试、代码重构和程序调试等多个维度,均展现出极高的专业水准。

有时候,用户真正需要的,只是纯粹强大的能力,而非那些旨在提高用户粘性的游戏化噱头。

Qwen 模型家族正在不断壮大,其灵活性与性能持续提升,为各类企业提供了丰富的选择。

在这一点上,西方的 Mistral 等竞争对手,尚未能与之并驾齐驱。

未来展望

Qwen 的研究员们表示,他们将持续优化编码智能体的性能,使其能胜任软件工程中更复杂、更繁琐的任务,最终解放人类的生产力

更多尺寸、更低部署成本的 Qwen3-Coder 模型也已在路上。

此外,探索编码智能体是否能实现自我进化,是一个更激动人心、更具启发性的研究方向。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!