突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

mysmile 2025年12月09日 06:34 23 0

关键技术详解｜腾讯一念 LLM 分布式推理优化实践

作者 | 袁镱

编辑｜李忠良

策划｜AICon 全球人工智能开发与应用大会

你是否好奇，为什么大模型推理框架在短短半年内性能飙升数倍？从 vLLM、SGLang 到 TensorRT-LLM、MindIE，再到腾讯自研的“一念”，各团队在算子优化、显存管理与调度策略上展开激烈博弈。现有开源框架是否已成熟？推理系统究竟卡在哪些瓶颈？

InfoQ 特邀腾讯 PCG 机器学习平台技术负责人袁镱，在 AICon 全球人工智能开发与应用大会·深圳站分享《一念 LLM 分布式推理优化实践》。从 KV cache 全链路管理、算子自研封装，到多维并行（PP/DP/EP）、MoE 负载均衡与 MLA，以及 PD 分离与多阶段流水线调度，揭秘一套高效工程化解法。

12 月 19～20 日的 AICon 北京站将聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同探讨如何构建可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 成为企业增长核心引擎。

详细日程见：

https://aicon.infoq.cn/202512/beijing/schedule

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

面对 vLLM、SGLang 等成熟框架，腾讯为何还要自研“一念 LLM”？答案藏在大模型推理的深层挑战中。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

大语言模型推理流程如何优化？当海量请求并发涌入，系统首先进行并行调度与显存管理。KV cache 分配成为关键：显存不足时，需智能决策是从外部调入，还是将请求 offload 到内存。随后，批处理与算子调度生成 KV cache，执行后进入采样阶段。整个过程涉及并行调度、显存队列管理与算子优化，这正是各框架的核心差异点。

算子层面，因 Transformer 架构稳定，优化路径趋同，优秀算子往往被快速复用。硬件厂商如 TensorRT-LLM 凭借硬件理解深度领先；非硬件厂商则聚焦调度与显存管理，如 vLLM 的 paged attention 和 SGLang 的 prefix caching。一念框架在此基础上，针对业务响应与系统稳定性进行深度定制。

竞争为何如此激烈？以 DeepSeek 模型为例，在 H20 16 张卡部署中，理论吞吐应达 30K，但半年前 vLLM 和 SGLang 仅实现 2K。经过优化，当前性能提升至 4-6K，TensorRT-LLM 达 11.2K，而一念则突破至 14.6K。与理论值相比，基础设施仍有巨大优化空间。

一念框架的设计逻辑基于两大判断：推理环节在业务中占比将持续扩大，成为后台最庞大服务，对可控性与稳定性要求极高；硬件与模型厂商已深度优化算子，一念以高效引入开源算子、支持多硬件为基础，构建 C++ 手写模型架构，实现显存全流程自主管理。在 R1 模型上，Kv-cache 可用显存提升 130%，吞吐量增加 30%。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

推理优化面临哪些核心瓶颈？Prefilling Tokens 长度增加，但效率低下集中在 Decoding 阶段。每次仅生成 1-3 个 Token，提升 batch size 是直接手段，却受限于显存容量。在 A100 上，Forwarding 计算随 Token 增加逼近硬件上限，而 decoding 的低效需通过并行处理突破。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

MoE 架构中，256 个路由专家加 1 个共享专家导致负载不均。共享专家路径全量 Token 通过，负载集中。解决方案包括增加并行 Token 数摊薄不均衡，或采用 EP 为共享专家设置多副本。MLA 部分通过压缩 Kv-cache 减少占用，但多卡间重复存储造成浪费，需权重吸收与全 DP 优化。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

优化技术从计算、通信和显存三维展开。全 TP 方案简单但通信开销大、Kv-cache 冗余。改进方案通过减少冗余，将 MoE 分配到更少卡上，逻辑上扩大 batch 规模，提升 MoE Token 数并降低通信。但 DP 规模过大会增加权重与 buffer 压力，需精细显存管理。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

引入 PD 分离（Prefill 与 Decode 分离），因混合执行相互影响性能。Prefill 一次性输入数千 Token 占满硬件，放大 Decode 延迟。DeepSeek 的权重吸收机制进一步增加开销。二者最优 batch size 不同：Prefill 需较小 batch，Decode 需更大 batch。但 PD 分离需 Kv-cache 同步与大并行规模，适合高性能集群，建议依赖云厂商方案。

推理系统为何趋向“小型机化”？同步请求与大量数据交换推动此趋势。例如，61 层 DeepSeek 输出一个 Token 需 122 次跨机通信，性能不足则效率骤降。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

减少跨机通信，流水线并行成关键。两机仅需两次异步通信，大幅降低开销。但 Kv-cache 与自回归逻辑使多 batch 推理复杂。一念实现多阶段流水线并行，通过多 batch 负载均衡优化。Prefill 与 Decode 混合时，调度需引入多种策略，确保性能稳定。优化后吞吐量从 5K 提升至 9K。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

提升 MoE 利用率，需解决 DP 中 KvCache 冗余问题。仅保留一份副本避免存储浪费，但权重集中增加单卡压力。面对 64K 请求，需保证任意 DP 可处理，中间 buffer 要求严格。多 DP 细切时，大规模请求放大 MoE 压力，需负载均衡机制。一念通过精细显存管理与 DP 间调度，结合 MT-Batch 与流水线并行，吞吐量达 14.6K。但对比 TensorRT-LLM 的 DP 性能，一念仍有优化空间。

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

一念优先实现 PP（流水线并行），因硬件性能差异显著。H800 与 H20 存在十倍差距，PP 带来更优显存利用与更低通信开销。EP 与 PD 分离可支持更大 batch size，是下一步重点。当前工作聚焦四大方向：调度策略兼容业务峰值，保证吞吐同时优化 TPOT、TTFT 体验；推进柔性 KV cache，在上下文相似时复用缓存；解耦层间进度，引入异步提升效率；优化 batch 间流程编排，交叉执行提升资源利用率。多模态支持与国产 GPU 适配同步进行。

AI 重塑组织的浪潮已至！12 月 19-20 日，AICon 北京站邀您直面行业变革，探索大模型推理前沿技术。立即报名，与专家共话 Agentic 未来！

突破性能瓶颈！腾讯一念LLM分布式推理优化实战大揭秘

Java分布式技术学习指南-ZOL问答

分布式事务这块有点难,可以看看Seata框架,了解下常见的解决方案比如TCC、Saga模式学Java分布式的话,先从SpringCloud和Dubbo入手吧,网上教程多,文档也全,上手...

分布式数据融合用的什么技术?

分布式数据融合用的是计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。分布式数据融合...

分布式发电与智能微电网技术就业怎么样?

就业好。前景不错,分析如下:本专业培养德、智、体、美全面发展,具有良好职业道德和人文素养,掌握太阳能、风能、生物质能等多种分布式能源发电基本知识,具...

分布式WiFi是什么技术?-ZOL问答

无线分布式系统WDS(WirelessDistributionSystem),是建构在HFSS或DSSS底下,可让...技术上讲,它是通过Wi-FiMesh系统实现的,在多个接入点之间建立动态路由...

分布式的网络系统采用什么技术?

分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。1、副本(Replica)是分布式系统最常见的概念之一...

分布式电源接入电网技术规范?

根据《国家电网公司光伏电站接入电网技术规定》4.3.1要求:小型光伏电站总容量不宜超过上一级变压器供电区域内最大负荷的25%。当地相关执行依据为电力行业标...

云计算分布式技术的五大特点?

云计算分布式技术具有以下五大特点:1.资源共享:云计算分布式技术允许多个用户共享同一组资源,包括计算资源、存储资源和网络资源。这样可以更有效地利用资源...

分布式发电与微电网专业好不好?

分布式发电与微电网专业是一个涉及电气工程、能源管理和电力系统运行的领域。以下是关于这个专业的一些观点:-就业前景:随着可再生能源的快速发展和分布式...

区块链的分布式账本技术有什么好的应用吗?

日本SBI控股株式会社进军区块链的行动还没有完全结束。这家金融巨头公司日前宣布,计划推出一款将使用Ripple(瑞波币)分布式账本技术的iOS和Android移动支付应...

云计算分布式技术具有廉价性吗?

云计算分布式技术具有廉价性。因为分布式技术通过多副本、分散数据存储等技术,可以让整个服务不受个别硬件不可用的影响。这就意味着云服务可以大量使用廉价...