vLLM v0.20.0 发布:752 commits、DeepSeek V4 首发支持、CUDA 13.0 全面换挡
vLLM 团队于 2026 年 4 月 27 日发布了 v0.20.0 版本,这是该项目有史以来规模最大的版本更新之一——来自 320 位贡献者的 752 个 commits,其中 123 人是首次参与开源社区。
作为当前最流行的 LLM 推理引擎,vLLM 的每次更新都直接影响着大量 AI 应用的技术选型。本文带你深入解析 v0.20.0 的核心变化。
一、DeepSeek V4 正式支持:首批推理框架之一
v0.20.0 最引人注目的特性是 DeepSeek V4 的首发支持。这意味着开发者现在可以直接通过 vLLM 部署 DeepSeek V4 模型,享受 vLLM 带来的一系列推理优化。
关键技术修复
DeepSeek V4 的支持伴随着多个关键修复:
– DSML Token Leakage Fix (#40806):修复了 DeepSeek V4/3.2 中的 token 泄露问题
– DSA + MTP IMA Fix (#40772):解决了 DSA(DeepSeek Attention)和 MTP(Multi-Token Prediction)IMA 的兼容性问题
– Shared Expert Silu Clamp (#40950):对 shared expert 应用 silu clamp 限制,解决了某些场景下的数值不稳定问题
# 部署 DeepSeek V4 示例(vLLM v0.20.0+)
from vllm import LLM
llm = LLM(model="deepseek-ai/DeepSeek-V4")
outputs = llm.generate("Explain the key innovations in DeepSeek V4.")
二、CUDA 13.0 成为默认:英伟达生态全面升级
本次更新将 CUDA 默认版本升至 13.0,PyPI 上的默认 CUDA wheel 和 Docker 镜像 vllm/vllm-openai:v0.20.0 均已切换至 CUDA 13.0,同时 CUDA 版本号更新至 13.0.2 以匹配最新驱动。
为什么这次升级重要
CUDA 13.0 带来了对 Blackwell 架构(B200 等新显卡)的更好支持。对于在高端 GPU 上运行 vLLM 的用户,这意味着:
– 更好的内存管理效率
– 对新硬件特性的原生支持
– 潜在的性能提升
版本选择建议
| 使用场景 | 推荐 CUDA 版本 |
|---|---|
| 生产环境(稳定优先) | CUDA 12.x(通过 v0.19.x) |
| 新硬件(B200 等) | CUDA 13.0(v0.20.0+) |
| 开发测试 | CUDA 13.0(最新特性) |
三、近期版本演进回顾:从 v0.18 到 v0.20
理解 v0.20.0 的意义,需要回顾过去两个月的演进路径:
v0.19.0:Gemma 4 支持与 Zero-Bubble 调度
v0.19.0(2026-04-03)带来了:
– Google Gemma 4 完整支持:MoE、多模态、推理、工具调用
– Zero-Bubble 异步调度 + 投机解码:大幅提升吞吐
v0.18.0:gRPC 支持
v0.18.0(2026-03-20)引入了:
– gRPC Serving 支持:通过 --grpc 标志启用
– 445 commits,213 位贡献者
四、社区反馈与已知问题
已知问题
根据官方公告,v0.20.0 目前已知以下问题:
– 部分场景下 DeepSeek V4 的首次推理延迟略高(官方已在优化)
– CUDA 13.0 在某些老款显卡上可能存在兼容性问题
用户反馈
从 GitHub Issues 来看,社区对 DeepSeek V4 支持的反响热烈。一位用户评论道:
> “终于可以在本地跑 DeepSeek V4 了,vLLM 的量化支持让 70B 模型在单卡上成为可能。”
五、升级建议
谁应该升级
– 使用 DeepSeek V4 的团队
– 在 Blackwell 架构(CUDA 13.0+)上运行的用户
– 需要最新特性(如改进的投机解码)的开发者
谁应该等待
– 生产环境以稳定性优先的团队(建议等待 v0.20.1 patch)
– 使用较老 GPU 架构的用户(确保 CUDA 13.0 兼容)
升级命令
# PyPI 安装
pip install vllm==0.20.0
# Docker
docker pull vllm/vllm-openai:v0.20.0
六、vLLM 生态现状
vLLM 凭借其 PagedAttention 技术和持续的社区投入,已经成为 LLM 推理的事实标准之一:
– 78,666 GitHub Stars:过去一年增长超过 200%
– 320 位贡献者:社区活跃度高
– 752 commits/v0.20.0:单个版本规模创纪录
从 AutoGPT 到 LangChain,大量 AI Agent 框架都将 vLLM 作为默认推理后端。随着 DeepSeek V4 的加入,vLLM 的生态影响力将进一步扩大。
相关链接:
– GitHub: https://github.com/vllm-project/vllm
– Release Notes: https://github.com/vllm-project/vllm/releases/tag/v0.20.0
– DeepSeek V4 支持讨论: https://github.com/vllm-project/vllm/issues/40860
评论区