这一周,国内开源模型连放大招。

4月20日晚,Kimi发布并开源K2.6,在SWE-Bench Pro上跑出58.6%。同一天,阿里发布Qwen3.6-Max-Preview,在Artificial Analysis榜单上登顶国产第一。

开源模型在Benchmark上逼近闭源——这是客观事实。但"逼近"和"超越"、"Benchmark"和"实际体验",中间还有不小的距离。


发生了什么

先说Kimi K2.6。

根据官方发布的信息[1]:

  • 官方Benchmark表现:SWE-Bench Pro 58.6%,官方称超过GPT-5.4和Claude Opus 4.6
  • Agent集群规模:从K2.5的100个子Agent升级到300个,协作步骤从1500步扩展到4000步
  • 持续运行能力:官方称可在OpenClaw、Hermes Agent等框架下自主运行5天
  • 长程编码实测:官方公布连续工作13小时,修改4000多行代码,吞吐量提升133%
  • 全栈能力:官方宣称从前端到后端到DevOps一站式搞定

再说Qwen3.6-Max-Preview。

根据官方发布的信息[2]:

  • 六项编程基准自称第一:SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCode
  • 中文理解能力:官方评测84分,提升5.3%
  • preserve_thinking:保留思考过程,对Agent任务优化

重要说明:以上数据均来自官方发布,目前尚无独立第三方评测机构对这些结果进行全面验证。


需要厘清的几个事实

在判断"开源是否逆袭"之前,有几个概念需要先厘清。

Benchmark领先 ≠ 实际体验更好

SWE-Bench Pro是软件工程能力的标准化测试,考核模型解决特定代码问题的能力。但实际编程是一个更复杂的场景:需求理解、代码风格、团队协作、bug调试……这些都很难被基准测试完全覆盖。

打个比方:一个学生在考试中分数比另一个高,不代表他在实际工作中表现更好。考试有标准答案,工作没有。

Claude Code是工具,不是模型

很多报道拿"K2.6超过Claude Code"作为标题,这里有个根本性的混淆:Claude Code是Anthropic推出的AI编程工具,K2.6是一个模型。这两者不是一个层面的东西。

Claude Code的体验不仅取决于底层模型,还包括产品设计、工具链集成、交互逻辑等。把Claude Code的体验等同于Claude Opus模型,再拿K2.6去比较,逻辑上是有问题的。

官方数据需要独立验证

截至目前,这些Benchmark数据都是厂商自己发布的。真正的"打脸闭源厂商",需要等OpenAI、Anthropic的官方回应,或者Trustii、HELIX等独立评测机构的结果。


实际价值在哪里

尽管需要保持审慎,但这次发布确实有意义。价值不在"碾压闭源",而在几个更实在的地方。

第一,开源可控

K2.6的权重在HuggingFace上开源,595GB的BF16权重可以下载。这意味着:

  • 企业可以本地部署,数据不出域,满足合规要求
  • 可以基于自己的业务场景做微调,定制专属能力
  • 可以审计模型行为,理解它为什么做出某个决策
  • 不会被单一厂商"锁死",随时可以切换或迁移

对于金融、医疗、政府等对数据安全有严格要求的行业,这是闭源模型无法替代的优势。

第二,性价比确实突出

即使不考虑"是否真的超越",开源模型的价格优势是实实在在的。

K2.6的API价格远低于Claude Opus 4.6。对于初创公司和独立开发者,这个成本差距是巨大的。更重要的是,当企业需要大规模调用时,价格差距会被放大几十倍。

第三,Agent能力有新突破

300个并行子Agent、4000个协作步骤——这不只是数字上的升级,而是让"一群AI协同工作"这件事变得更可用了。


我的判断

开源正在缩小差距,但还没到"逆袭"的程度

在代码Benchmark这个赛道上,开源模型已经"可以用了",甚至在某些指标上接近闭源。但"接近Benchmark"和"全面超越"是两回事。

Claude在复杂推理、长文本理解、代码可维护性等方面的积累,不是几个百分点的Benchmark差距能衡量的。更重要的是,Claude Code作为产品工具的体验,目前仍然是业界最好的之一。

Agent能力是新的竞争维度

Kimi这次的核心叙事不是"我们的模型更强",而是"我们的Agent更能干"。这个方向值得关注。

当竞争从"模型能力"延伸到"Agent编排能力"、"长程任务能力",开源模型的灵活性和可定制性就会成为优势。

趋势判断:干活场景的差距在缩小

对于"能不能干活"这个朴素的标准,开源模型正在给出越来越肯定的答案。

不是在所有场景,但在代码编写、长程任务、批量处理这些"苦活累活"上,开源模型的可接受度确实在提升。


普通人能感受到什么

AI编程工具真的可以商用了

以前用Copilot、Claude Code更多是"辅助",写核心逻辑还得自己来。现在K2.6这类模型已经能独立完成从需求分析到代码编写的完整流程。

成本结构在变

Claude Opus 4.6的价格是K2.6的数倍。对于初创公司和独立开发者,这个差距决定了能不能用、用多少。

一个人能做的事在变多

以前一个产品从想法到上线,需要产品经理、设计师、前端、后端、运维……一整套人马。现在有了强力的Agent工具,这个团队可以缩减到3-5人,甚至更少。


总结

开源模型的Agent能力,正在追上闭源——这是一个正在发生的事实,但还不到"逆袭"的程度。

Kimi K2.6和Qwen3.6-Max的价值,不在于Benchmark数字的领先,而在于让"用开源模型干活"这件事变得更可行。

但如果你的工作需要最顶级的代码体验、对复杂任务的处理能力,Claude Code等闭源工具目前仍然是更好的选择。

差距在缩小,选择在丰富。这是开源模型进步带来的真正好消息。


参考来源

[1] Kimi官方发布信息,2026年4月20日
[2] 阿里Qwen官方发布信息,2026年4月20日

注:本文引用的Benchmark数据均为官方发布,截至发稿时尚无独立第三方评测验证。