Transformers v5.7.0 发布:Laguna MoE 与 DEIMv2 目标检测重塑 SOTA 天花板

Transformers v5.7.0 发布:Laguna MoE 与 DEIMv2 目标检测重塑 SOTA 天花板

2026 年 5 月 3 日,Hugging Face 正式发布 Transformers v5.7.0,这是该开源项目在 2026 年的首次重大版本更新。本版本由 320 位贡献者合力完成 752 次提交,代码改动量创下近几个版本之最。

本次更新的最大亮点在于两个全新模型架构:Laguna——一种融合了辅助损失自由负载均衡机制的专家混合模型;以及 DEIMv2——首个在 COCO 基准上以低于 1000 万参数超越 50 AP 的实时目标检测器。两者分别代表了 LLM 和 CV 领域的前沿探索路径。


一、Laguna:辅助损失自由的 MoE 新范式

1.1 背景:传统 MoE 的负载均衡困境

Mixture-of-Experts(混合专家)模型通过稀疏激活机制,在保持模型总参数量的同时显著提升模型容量。然而,传统 MoE 的路由器(Router)在训练过程中面临负载均衡难题:专家网络极易出现不均衡激活——少数”明星专家”被频繁调用,而大多数专家处于闲置状态。

此前主流解法是引入辅助损失(Auxiliary Loss),强制要求各专家的激活频率趋于均匀。但辅助损失本质上是一种正则化约束,它与主损失函数存在竞争,可能损害模型的整体收敛质量。

1.2 核心创新:Sigmoid 路由器 + 可学习偏置

Laguna 提出了一个优雅的替代方案。其路由器不再依赖 softmax 归一化,而是直接对每个专家的门控 logits 取 Sigmoid 函数,再结合可学习的每专家偏置(per-expert bias)进行评分:

Score(expert_i) = sigmoid(gate_logit_i) + bias_i

这种设计的深层逻辑在于:

Sigmoid 输出天然有界(0~1),不像 softmax 会产生竞争性归一化

可学习偏置在训练过程中自适应调整,实质上学会了”将激活压力”从过载专家转移到欠载专家

无需辅助损失,主损失函数可以更纯粹地优化任务目标

1.3 创新二:Per-Layer Head Counts 动态 KV Cache

Laguna 的另一项关键创新是允许不同 decoder 层拥有不同的 Query Head 数量,同时共享相同的 KV Cache 形状。

这解决了实际部署中的一个痛点:传统 Transformer 中,所有层的 KV Cache 头数必须一致,但不同层对 KV 缓存的需求量并不相同——浅层更关注浅层特征,深层更关注语义信息。Laguna 通过解耦 Query 头数与 KV 头数,实现了计算资源与内存访问的更优分配。

1.4 技术规格

模型 参数量 专家数 激活专家数 上下文长度
Laguna XS ~2B 8 2 32K
Laguna 7B ~7B 8 2 32K

二、DEIMv2:从 X 到 Atto,实时目标检测的全尺度覆盖

2.1 DEIMv2 是什么

DEIMv2(DETR with Improved Matching v2)是一个实时目标检测模型家族,延续了 DINOv3 的特征表示能力,并将其注入 DETR(DEtection TRansformer)框架。项目由 Harshal Janjani 等研究者在 PR #44339 中引入,在 Hugging Face Transformers 5.7.0 中正式支持。

DEIMv2 的核心改进在于:

基于 DINOv3 特征:使用 DINOv3 预训练的视觉特征替代此前版本使用的标准 ViT 特征

Spatial Tuning Adapter(STA):在大型变体中引入空间调优适配器,将 DINOv3 的单尺度输出转换为多尺度特征金字塔

轻量级 backbone:超轻量模型(Atto、Zepto)使用剪枝后的 HGNetv2 backbone,进一步压缩计算量

2.2 突破性性能数据

DEIMv2 最引人注目的成就是其性能-参数量权衡曲线

模型 参数量 COCO AP
DEIMv2-X 50.3M **57.8**
DEIMv2-S ~9M **>50**
DEIMv2-Atto <3M ~42

DEIMv2-S 是**史上首个在 COCO 基准上以低于 1000 万参数超越 50 AP** 的模型,真正实现了端侧实时检测的可能性。

2.3 STA 适配器的工作原理

STA(Spatial Tuning Adapter)是大型 DEIMv2 变体的关键组件。DINOv3 输出的特征图分辨率固定,而检测任务通常需要多尺度特征进行不同尺寸目标的检测。STA 通过可学习的空间调制模块,在不破坏 DINOv3 预训练表示的前提下,将单尺度特征上采样/下采样为多尺度金字塔输出。


三、其他重要更新

3.1 Attention 修复

本次修复了多个注意力相关的 bug:

T5Gemma2 长输入跨注意力缓存类型错误:长序列场景下缓存层类型不匹配导致的精度问题

Qwen3.5 GDN 线性注意力多 token 缓存前向错误:修复了 gated-delta-net 在生成阶段缓存行为异常的问题

GraniteMoeHybrid 无 Mamba 层崩溃:模型配置与实际层数不匹配时的稳定性修复

3.2 Tokenizer 紧急回退

有一个关于 AutoTokenizer 初始化错误类的 bug(会导致 DeepSeek R1 等模型 tokenizer 回归问题)在发布后被紧急回退,相关修复将在 v5.7.1 中重新引入。

3.3 Continuous Batching 改进

新增 CPU 请求卸载机制(#45184),显著改善了长序列(16K+)生成的 KV 去重和内存估算准确性。


四、总结

Transformers v5.7.0 虽然没有引入颠覆性的框架级变化,但在模型架构层面的两个新增却颇具深意:

Laguna 代表了 MoE 训练范式的一次微妙但重要的转向——从”强制均衡”到”自适应引导”,为未来超大参数模型的训练提供了新的设计思路

DEIMv2 则展示了 CV 领域在端侧部署上的持续突破,50M 参数达到 57.8 AP 的成绩,意味着在消费级 GPU 上实现高质量实时检测已不再遥远

建议有相关需求的用户尽快升级,体验新模型和修复带来的改进。

如果内容对您有帮助,欢迎打赏

您的支持是我继续创作的动力

前往打赏页面

评论区

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注