xLLM

多模态支持

正在初始化搜索引擎

jd-opensource/xllm

主页
用户指南
功能介绍
CLI参考

xLLM

jd-opensource/xllm

主页
用户指南
用户指南
- 快速开始
- 模型支持列表
- 启动xllm
- PD分离部署
- 多机部署
- 基本用法
  基本用法
  - 在线服务
  - 离线推理
功能介绍
功能介绍
- 概览
  概览
  - 整体架构
- 功能列表
  功能列表
  - 运行时
    运行时
    
    异步调度
    
    多流并行
  - 调度器
    调度器
    
    Continuous调度器
    
    ChunkedPrefill调度器
    
    Zero Evict调度器
  - 分布式
    分布式
    
    PD分离
  - 算子
    算子
    
    GroupGEMM算子优化
    
    PpMatmul 算子优化
    
    Topk&Topp算子优化
  - KV存储管理
    KV存储管理
    
    Prefix Cache 优化
    
    全局多级KV Cache
    
    None
  - 多模态
    多模态
    
    多模态支持多模态支持
    目录
    
    支持模型
    
    模态类型
  - MoE优化
    MoE优化
    
    EP并行
    
    MoE负载均衡（EPLB）
  - 进阶指南
    进阶指南
    
    投机推理
    
    GraphMode
  - xLLM Service概览
CLI参考
CLI参考
- 服务启动参数

目录

支持模型
模态类型

主页
功能介绍
功能列表
多模态

多模态支持¶

本文档主要介绍xLLM推理引擎中多模态的支持进展，包括支持模型及模态类型，以及离在线接口等。

支持模型¶

Qwen2.5-VL: 包括7B/32B/72B。
Qwen3-VL: 包括2B/4B/8B/32B。
Qwen3-VL-MoE: 包括A3B/A22B。
MiniCPM-V-2_6: 7B。

模态类型¶

图片: 支持单图、多图的输入，以及图片+Prompt组合、纯文本Promot等输入方式。

注意事项

目前多模态后端不支持prefix cache以及chunk prefill，正在支持中。
目前，xLLM统一基于JinJa渲染ChatTemplate，部署MiniCPM-V-2_6，模型目录需提供ChatTemplate文件。
图片支持Base64输入以及图片Url。
目前多模态模型主要支持了图片模态，视频、音频等模态正在推进中。

2026年4月14日

全局多级KV Cache

Copyright © 2025 xLLM Team

Made with Material for MkDocs