文章列表

AI资讯

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测重塑 SOTA 天花板

2026年5月3日 0 评论 5 分钟

2026 年 5 月 3 日，Hugging Face 正式发布 Transformers v5.7.0，这是该开源项目在 2026 年的首次重大版本更新。本版...

阅读全文

实战笔记

Tailscale 内网穿透完全指南：从原理到生产环境部署

2026年5月2日 0 评论 10 分钟

# Tailscale 内网穿透完全指南：从原理到生产环境部署前言在公网 IP 日益稀缺、云服务器价格居高不下的背景下，内网穿透成为每个开发者必须掌握的技能...

阅读全文

实战笔记

MCP Server 开发指南：从协议原理到生产级实现

2026年5月2日 0 评论 54 分钟

# MCP Server 开发指南：从协议原理到生产级实现前言 Model Context Protocol（MCP）正在成为 AI 工具生态的核心接口标准。...

阅读全文

实战笔记

vLLM PagedAttention 调优完全指南：从原理到生产级配置

2026年5月2日 0 评论 29 分钟

# vLLM PagedAttention 调优完全指南：从原理到生产级配置前言 vLLM 已经成为大模型推理服务的事实标准，其核心技术 PagedAtten...

阅读全文

技术教程

vLLM MoE 内存优化新招：GPU Prefetch 机制深度解析

2026年5月2日 0 评论 12 分钟

背景 Mixture-of-Experts（MoE）架构的大语言模型正在成为主流。DeepSeek-V3、Qwen3.5-MoE、Mixtral 等模型都采用了...

阅读全文

技术教程

Ollama v0.22.1 发布：Gemma 4 推理能力全面跃升，tool calling 精度大幅提升

2026年5月2日 0 评论 16 分钟

背景 Ollama 是本地大模型推理的事实标准框架，支持一键拉取运行 Gemma、Kimi、DeepSeek、Qwen 等数十种开源模型。2026 年 4 月 ...

阅读全文

AI研究

DeepSeek 技术报告：GPU 编译器生态封闭性诊断与 Hyperion 栈开放替代方案

2026年5月1日 0 评论 12 分钟

DeepSeek 技术报告：GPU 编译器生态封闭性诊断与 Hyperion 栈开放替代方案背景：GPU 计算生态的”零”的困局大语言模型训练和推理背后，G...

阅读全文

AI研究

DeepSeek-V3 多 Token 预测：如何让大模型推理吞吐量翻倍

2026年5月1日 0 评论 12 分钟

背景：自回归解码的瓶颈大语言模型（LLM）生成文本时，默认采用自回归（Autoregressive）解码策略：每一步生成一个 token，再将新 token ...

阅读全文

技术教程

Hermes Agent 接入 MCP：配置与使用完全指南

2026年5月1日 0 评论 14 分钟

AI 智能体时代，工具生态的丰富程度直接决定了一个 Agent 的能力上限。Hermes Agent 内置了完整的 MCP（Model Context Prot...

阅读全文

实战笔记

DeepSeek-V4 强制 reasoning_content 导致无法从非 think 模式切换到 think 模式

2026年5月1日 0 评论 4 分钟

背景：DeepSeek-V4 的 thinking_mode 强制约束 DeepSeek-V4 在 thinking 模式下，对所有 tool call 强制要...

阅读全文

上一页 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 222324 下一页