全局多级KV Cache¶
背景¶
大型语言模型(LLM)解码阶段因自回归生成需频繁访问历史KV缓存,导致显存带宽成为瓶颈。随着模型规模与上下文窗口扩大(如128K Token消耗超40GB显存),单卡显存压力剧增。现有方案(如vLLM)在长上下文场景下存在明显局限:预填充耗时激增、解码阶段显存带宽争抢严重,为满足SLO(TTFT<2s, TBT<100ms)常需过量预留资源,致使GPU利用率不足40%,且难以利用跨服务器资源。为此,我们提出分布式全局多级KV缓存管理系统,采用存算一体架构以突破单机资源限制。
功能介绍¶
xLLM 全局KV Cache功能主要通过以下三个模块实现: - etcd: 集群服务注册、负载信息同步及全局缓存状态管理 - xLLM Service: 调度请求和管理所有计算实例 - xLLM: 请求计算实例
整体架构图如下: 
功能使用示例¶
使用准备¶
安装相关依赖¶
使用方式¶
- etcd启动配置:
- xLLM Service启动配置:
- xLLM启动添加上下面的 gflag 参数即可: