国产AI编程越级 Claude 3.7：真实突破还是营销叙事？

2026年4月，阿里发布Qwen3.6-Plus，宣称在SWE-bench Verified基准测试上超越Claude 3.7 Sonnet达2到3倍。

消息一出，社区炸锅。支持者说这是国产大模型的里程碑时刻，质疑者说这是选择性对比、是营销叙事、是公关稿。

到底怎么回事？

SWE-bench是什么

在讨论之前，先说清楚SWE-bench是什么。

SWE-bench（Software Engineering Benchmark）是一个评测编程能力的基准测试集，核心逻辑是：给AI一个真实GitHub issue，让AI自己写代码解决问题，然后验证代码能不能通过测试用例。

这个测试比普通的编程题更难，因为它需要AI理解真实的代码库、理解issue描述、在复杂的依赖关系中找到正确的修改位置。

SWE-bench Verified是经过人工验证的子集，排除了那些评测结果可能有歧义的题目。

所以，当阿里说”Qwen3.6-Plus在SWE-bench Verified上超越Claude 3.7″，这是一个有意义的指标，但不是一个全能的指标。

数字背后的细节

阿里的官方数据是这样的：

Qwen3.6-Plus：SWE-bench Verified通过率比Claude 3.7 Sonnet高2~3倍
Qwen3.6-35B-A3B：仅用30亿激活参数，匹敌数百亿参数稠密模型

但这里有几个细节需要看清楚：

第一，”2~3倍”是峰值对比，不是全面超越。

SWE-bench只是一个测试集。AI编程能力还包括：代码补全、Bug修复、代码审查、重构建议、跨文件理解……每个维度都有不同的评测标准。Qwen3.6在SWE-bench上的表现好，不等于在所有编程场景都更好。

第二，Claude 3.7 Sonnet不是Claude的最高水平。

Claude 3.7 Sonnet是Anthropic的”均衡”模型，适合日常编程任务。Claude Opus是旗舰模型，主打极限推理能力。阿里在对比时用的是Claude 3.7 Sonnet而不是Claude Opus，这在对比策略上是”田忌赛马”式的。

第三，评测标准和开源模型的可复现性。

SWE-bench的部分评测结果在社区存在可复现性争议。同一个模型在不同环境配置、不同提示词下，评测结果可能有显著差异。阿里公布的数字是在特定配置下跑出来的，其他配置下的结果可能不同。

支持者怎么看

尽管有质疑，Qwen3.6的编程能力突破本身是真实的。

社区里有不少开发者分享了实测体验：

“用Qwen3.6-35B-A3B跑了一个月的辅助编程任务，效果出乎意料”
“上下文理解能力有明显提升，长文件处理比之前版本好很多”
“量化后23GB显存就能跑，性价比确实高”

而且别忘了，Qwen3.6-35B-A3B是一个MoE（混合专家）模型，总参数量350亿，但激活参数只有30亿。这意味着用消费级显卡（24GB显存）就能跑起来。

相比之下，Claude 3.7 Sonnet是闭源模型，只能通过API调用，价格不菲。

质疑者怎么看

质疑主要集中在三个方面：

1. 评测标准的选择性使用

除了SWE-bench，还有很多编程能力评测标准：HumanEval、MBPP、BigCodeBench……在不同标准下，模型表现排名可能完全不同。选择对自己有利的标准来宣传，是常见的营销策略。

2. 闭源 vs 开源的对比不公平

Qwen3.6是开源模型，Claude 3.7是闭源模型。开源模型可以通过本地部署、量化压缩来优化，但商业模型有部署成本和延迟限制。在同等硬件条件下对比，可能结果会不一样。

3. “编程能力”的定义本身就有争议

解决SWE-bench题目需要的是”在已有代码库中定位和修复问题”，这和”写一个完整项目”是完全不同的能力。前者更考验代码库理解，后者更考验创意和架构设计。

真实的行业影响

不管评测争议如何，Qwen3.6的发布对行业有真实的影响。

第一，编程模型的价格会被继续压低。

Qwen3.6-35B-A3B的性价比太高了：开源、量化后23GB可跑、编程能力接近一线闭源模型。这会倒逼Claude和GPT降低编程辅助的API价格。

第二，本地部署编程助手会成为主流。

代码安全敏感的企业，终于有一个可以私有化部署的编程模型选择了。不用把代码发给第三方，数据不出域，用自己的GPU跑。

第三，开源模型和闭源模型的差距在缩小。

这是最关键的趋势。2025年，闭源模型在编程能力上还有明显优势。2026年，Qwen3.6、Gemma 4等开源模型已经在部分指标上追上来。差距正在缩小。

怎么看待这类评测争议

作为一个长期关注AI领域的观察者，我的建议是：看评测，但别迷信评测。

每个模型都有它擅长的场景和不擅长的场景。Qwen3.6在某些编程任务上可能确实比Claude 3.7强，但在其他任务上可能不如。

最好的验证方式永远是：拿你的真实任务测试它。

如果你正在做一个需要处理长上下文的代码库，Qwen3.6可能是个好选择。

如果你需要处理复杂的逻辑推理和多步骤问题分解，Claude Opus可能仍然更稳。

如果你需要私有化部署、成本敏感，Qwen3.6的开源版本几乎是唯一选择。

选什么，看你的真实需求，而不是厂商的宣传。

写在最后

Qwen3.6的评测争议，本质上是AI行业”基准测试政治学”的又一次体现。

每一个发布评测结果的厂商，都会选择对自己最有利的标准、最有利的配置、最有利的对比对象。这不是造假，但是一种叙事策略。

作为开发者，我们需要理解这种叙事背后的真实情况：国产AI编程能力确实在进步，这是事实；但在某些维度上仍有差距，这也是事实。

既不用因为一次评测结果就盲目吹爆，也不用因为是国产就刻意贬低。

最理性的态度是：测试它，用你的真实任务测试它，然后选择最合适的工具。

国产AI编程越级 Claude 3.7：真实突破还是营销叙事？

国产AI编程越级 Claude 3.7：真实突破还是营销叙事？

SWE-bench是什么

数字背后的细节

支持者怎么看

质疑者怎么看

真实的行业影响

怎么看待这类评测争议

写在最后

☕ 如果内容对您有帮助，欢迎打赏

评论区

发表回复取消回复

国产AI编程越级 Claude 3.7：真实突破还是营销叙事？

SWE-bench是什么

数字背后的细节

支持者怎么看

质疑者怎么看

真实的行业影响

怎么看待这类评测争议

写在最后

☕ 如果内容对您有帮助，欢迎打赏

相关文章

✨ Windows 版 Claude Desktop 用户请求：提供禁用捆绑 Cowork 后台服务的方法

✨ Windows 版 Claude Desktop 捆绑 Cowork 服务引争议：用户为何呼吁提供禁用选项

✨ Claude Code Telegram 插件消息路由深度解析：入站消息静默丢弃问题排查实录

评论区

发表回复 取消回复

发表回复取消回复