国产AI编程越级 Claude 3.7:真实突破还是营销叙事?

国产AI编程越级 Claude 3.7:真实突破还是营销叙事?

2026年4月,阿里发布Qwen3.6-Plus,宣称在SWE-bench Verified基准测试上超越Claude 3.7 Sonnet达2到3倍。

消息一出,社区炸锅。支持者说这是国产大模型的里程碑时刻,质疑者说这是选择性对比、是营销叙事、是公关稿。

到底怎么回事?


SWE-bench是什么

在讨论之前,先说清楚SWE-bench是什么。

SWE-bench(Software Engineering Benchmark)是一个评测编程能力的基准测试集,核心逻辑是:给AI一个真实GitHub issue,让AI自己写代码解决问题,然后验证代码能不能通过测试用例。

这个测试比普通的编程题更难,因为它需要AI理解真实的代码库、理解issue描述、在复杂的依赖关系中找到正确的修改位置。

SWE-bench Verified是经过人工验证的子集,排除了那些评测结果可能有歧义的题目。

所以,当阿里说”Qwen3.6-Plus在SWE-bench Verified上超越Claude 3.7″,这是一个有意义的指标,但不是一个全能的指标。


数字背后的细节

阿里的官方数据是这样的:

  • Qwen3.6-Plus:SWE-bench Verified通过率比Claude 3.7 Sonnet高2~3倍
  • Qwen3.6-35B-A3B:仅用30亿激活参数,匹敌数百亿参数稠密模型

但这里有几个细节需要看清楚:

第一,”2~3倍”是峰值对比,不是全面超越。

SWE-bench只是一个测试集。AI编程能力还包括:代码补全、Bug修复、代码审查、重构建议、跨文件理解……每个维度都有不同的评测标准。Qwen3.6在SWE-bench上的表现好,不等于在所有编程场景都更好。

第二,Claude 3.7 Sonnet不是Claude的最高水平。

Claude 3.7 Sonnet是Anthropic的”均衡”模型,适合日常编程任务。Claude Opus是旗舰模型,主打极限推理能力。阿里在对比时用的是Claude 3.7 Sonnet而不是Claude Opus,这在对比策略上是”田忌赛马”式的。

第三,评测标准和开源模型的可复现性。

SWE-bench的部分评测结果在社区存在可复现性争议。同一个模型在不同环境配置、不同提示词下,评测结果可能有显著差异。阿里公布的数字是在特定配置下跑出来的,其他配置下的结果可能不同。


支持者怎么看

尽管有质疑,Qwen3.6的编程能力突破本身是真实的。

社区里有不少开发者分享了实测体验:

  • “用Qwen3.6-35B-A3B跑了一个月的辅助编程任务,效果出乎意料”
  • “上下文理解能力有明显提升,长文件处理比之前版本好很多”
  • “量化后23GB显存就能跑,性价比确实高”

而且别忘了,Qwen3.6-35B-A3B是一个MoE(混合专家)模型,总参数量350亿,但激活参数只有30亿。这意味着用消费级显卡(24GB显存)就能跑起来。

相比之下,Claude 3.7 Sonnet是闭源模型,只能通过API调用,价格不菲。


质疑者怎么看

质疑主要集中在三个方面:

1. 评测标准的选择性使用

除了SWE-bench,还有很多编程能力评测标准:HumanEval、MBPP、BigCodeBench……在不同标准下,模型表现排名可能完全不同。选择对自己有利的标准来宣传,是常见的营销策略。

2. 闭源 vs 开源的对比不公平

Qwen3.6是开源模型,Claude 3.7是闭源模型。开源模型可以通过本地部署、量化压缩来优化,但商业模型有部署成本和延迟限制。在同等硬件条件下对比,可能结果会不一样。

3. “编程能力”的定义本身就有争议

解决SWE-bench题目需要的是”在已有代码库中定位和修复问题”,这和”写一个完整项目”是完全不同的能力。前者更考验代码库理解,后者更考验创意和架构设计。


真实的行业影响

不管评测争议如何,Qwen3.6的发布对行业有真实的影响。

第一,编程模型的价格会被继续压低。

Qwen3.6-35B-A3B的性价比太高了:开源、量化后23GB可跑、编程能力接近一线闭源模型。这会倒逼Claude和GPT降低编程辅助的API价格。

第二,本地部署编程助手会成为主流。

代码安全敏感的企业,终于有一个可以私有化部署的编程模型选择了。不用把代码发给第三方,数据不出域,用自己的GPU跑。

第三,开源模型和闭源模型的差距在缩小。

这是最关键的趋势。2025年,闭源模型在编程能力上还有明显优势。2026年,Qwen3.6、Gemma 4等开源模型已经在部分指标上追上来。差距正在缩小。


怎么看待这类评测争议

作为一个长期关注AI领域的观察者,我的建议是:看评测,但别迷信评测。

每个模型都有它擅长的场景和不擅长的场景。Qwen3.6在某些编程任务上可能确实比Claude 3.7强,但在其他任务上可能不如。

最好的验证方式永远是:拿你的真实任务测试它。

如果你正在做一个需要处理长上下文的代码库,Qwen3.6可能是个好选择。

如果你需要处理复杂的逻辑推理和多步骤问题分解,Claude Opus可能仍然更稳。

如果你需要私有化部署、成本敏感,Qwen3.6的开源版本几乎是唯一选择。

选什么,看你的真实需求,而不是厂商的宣传。


写在最后

Qwen3.6的评测争议,本质上是AI行业”基准测试政治学”的又一次体现。

每一个发布评测结果的厂商,都会选择对自己最有利的标准、最有利的配置、最有利的对比对象。这不是造假,但是一种叙事策略。

作为开发者,我们需要理解这种叙事背后的真实情况:国产AI编程能力确实在进步,这是事实;但在某些维度上仍有差距,这也是事实。

既不用因为一次评测结果就盲目吹爆,也不用因为是国产就刻意贬低。

最理性的态度是:测试它,用你的真实任务测试它,然后选择最合适的工具。

如果内容对您有帮助,欢迎打赏

您的支持是我继续创作的动力

前往打赏页面

评论区

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注