Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测重塑 SOTA 天花板

2026 年 5 月 3 日，Hugging Face 正式发布 Transformers v5.7.0，这是该开源项目在 2026 年的首次重大版本更新。本版本由 320 位贡献者合力完成 752 次提交，代码改动量创下近几个版本之最。

本次更新的最大亮点在于两个全新模型架构：Laguna——一种融合了辅助损失自由负载均衡机制的专家混合模型；以及 DEIMv2——首个在 COCO 基准上以低于 1000 万参数超越 50 AP 的实时目标检测器。两者分别代表了 LLM 和 CV 领域的前沿探索路径。

一、Laguna：辅助损失自由的 MoE 新范式

1.1 背景：传统 MoE 的负载均衡困境

Mixture-of-Experts（混合专家）模型通过稀疏激活机制，在保持模型总参数量的同时显著提升模型容量。然而，传统 MoE 的路由器（Router）在训练过程中面临负载均衡难题：专家网络极易出现不均衡激活——少数”明星专家”被频繁调用，而大多数专家处于闲置状态。

此前主流解法是引入辅助损失（Auxiliary Loss），强制要求各专家的激活频率趋于均匀。但辅助损失本质上是一种正则化约束，它与主损失函数存在竞争，可能损害模型的整体收敛质量。

1.2 核心创新：Sigmoid 路由器 + 可学习偏置

Laguna 提出了一个优雅的替代方案。其路由器不再依赖 softmax 归一化，而是直接对每个专家的门控 logits 取 Sigmoid 函数，再结合可学习的每专家偏置（per-expert bias）进行评分：

Score(expert_i) = sigmoid(gate_logit_i) + bias_i

这种设计的深层逻辑在于：

– Sigmoid 输出天然有界（0~1），不像 softmax 会产生竞争性归一化

– 可学习偏置在训练过程中自适应调整，实质上学会了”将激活压力”从过载专家转移到欠载专家

– 无需辅助损失，主损失函数可以更纯粹地优化任务目标

1.3 创新二：Per-Layer Head Counts 动态 KV Cache

Laguna 的另一项关键创新是允许不同 decoder 层拥有不同的 Query Head 数量，同时共享相同的 KV Cache 形状。

这解决了实际部署中的一个痛点：传统 Transformer 中，所有层的 KV Cache 头数必须一致，但不同层对 KV 缓存的需求量并不相同——浅层更关注浅层特征，深层更关注语义信息。Laguna 通过解耦 Query 头数与 KV 头数，实现了计算资源与内存访问的更优分配。

1.4 技术规格

模型	参数量	专家数	激活专家数	上下文长度
Laguna XS	~2B	8	2	32K
Laguna 7B	~7B	8	2	32K

二、DEIMv2：从 X 到 Atto，实时目标检测的全尺度覆盖

2.1 DEIMv2 是什么

DEIMv2（DETR with Improved Matching v2）是一个实时目标检测模型家族，延续了 DINOv3 的特征表示能力，并将其注入 DETR（DEtection TRansformer）框架。项目由 Harshal Janjani 等研究者在 PR #44339 中引入，在 Hugging Face Transformers 5.7.0 中正式支持。

DEIMv2 的核心改进在于：

– 基于 DINOv3 特征：使用 DINOv3 预训练的视觉特征替代此前版本使用的标准 ViT 特征

– Spatial Tuning Adapter（STA）：在大型变体中引入空间调优适配器，将 DINOv3 的单尺度输出转换为多尺度特征金字塔

– 轻量级 backbone：超轻量模型（Atto、Zepto）使用剪枝后的 HGNetv2 backbone，进一步压缩计算量

2.2 突破性性能数据

DEIMv2 最引人注目的成就是其性能-参数量权衡曲线：

模型	参数量	COCO AP
DEIMv2-X	50.3M	57.8
DEIMv2-S	~9M	>50
DEIMv2-Atto	<3M	~42

DEIMv2-S 是**史上首个在 COCO 基准上以低于 1000 万参数超越 50 AP** 的模型，真正实现了端侧实时检测的可能性。

2.3 STA 适配器的工作原理

STA（Spatial Tuning Adapter）是大型 DEIMv2 变体的关键组件。DINOv3 输出的特征图分辨率固定，而检测任务通常需要多尺度特征进行不同尺寸目标的检测。STA 通过可学习的空间调制模块，在不破坏 DINOv3 预训练表示的前提下，将单尺度特征上采样/下采样为多尺度金字塔输出。

三、其他重要更新

3.1 Attention 修复

本次修复了多个注意力相关的 bug：

– T5Gemma2 长输入跨注意力缓存类型错误：长序列场景下缓存层类型不匹配导致的精度问题

– Qwen3.5 GDN 线性注意力多 token 缓存前向错误：修复了 gated-delta-net 在生成阶段缓存行为异常的问题

– GraniteMoeHybrid 无 Mamba 层崩溃：模型配置与实际层数不匹配时的稳定性修复

3.2 Tokenizer 紧急回退

有一个关于 AutoTokenizer 初始化错误类的 bug（会导致 DeepSeek R1 等模型 tokenizer 回归问题）在发布后被紧急回退，相关修复将在 v5.7.1 中重新引入。

3.3 Continuous Batching 改进

新增 CPU 请求卸载机制（#45184），显著改善了长序列（16K+）生成的 KV 去重和内存估算准确性。

四、总结

Transformers v5.7.0 虽然没有引入颠覆性的框架级变化，但在模型架构层面的两个新增却颇具深意：

– Laguna 代表了 MoE 训练范式的一次微妙但重要的转向——从”强制均衡”到”自适应引导”，为未来超大参数模型的训练提供了新的设计思路

– DEIMv2 则展示了 CV 领域在端侧部署上的持续突破，50M 参数达到 57.8 AP 的成绩，意味着在消费级 GPU 上实现高质量实时检测已不再遥远

建议有相关需求的用户尽快升级，体验新模型和修复带来的改进。

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测重塑 SOTA 天花板

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测重塑 SOTA 天花板

一、Laguna：辅助损失自由的 MoE 新范式

1.1 背景：传统 MoE 的负载均衡困境

1.2 核心创新：Sigmoid 路由器 + 可学习偏置

1.3 创新二：Per-Layer Head Counts 动态 KV Cache

1.4 技术规格

二、DEIMv2：从 X 到 Atto，实时目标检测的全尺度覆盖

2.1 DEIMv2 是什么

2.2 突破性性能数据

2.3 STA 适配器的工作原理

三、其他重要更新

3.1 Attention 修复

3.2 Tokenizer 紧急回退

3.3 Continuous Batching 改进

四、总结

☕ 如果内容对您有帮助，欢迎打赏

评论区

发表回复取消回复

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测重塑 SOTA 天花板

一、Laguna：辅助损失自由的 MoE 新范式

1.1 背景：传统 MoE 的负载均衡困境

1.2 核心创新：Sigmoid 路由器 + 可学习偏置

1.3 创新二：Per-Layer Head Counts 动态 KV Cache

1.4 技术规格

二、DEIMv2：从 X 到 Atto，实时目标检测的全尺度覆盖

2.1 DEIMv2 是什么

2.2 突破性性能数据

2.3 STA 适配器的工作原理

三、其他重要更新

3.1 Attention 修复

3.2 Tokenizer 紧急回退

3.3 Continuous Batching 改进

四、总结

☕ 如果内容对您有帮助，欢迎打赏

相关文章

✨ Windows 版 Claude Desktop 用户请求：提供禁用捆绑 Cowork 后台服务的方法

✨ Windows 版 Claude Desktop 捆绑 Cowork 服务引争议：用户为何呼吁提供禁用选项

✨ Claude Code Telegram 插件消息路由深度解析：入站消息静默丢弃问题排查实录

评论区

发表回复 取消回复

发表回复取消回复