xLLM

多模态支持

正在初始化搜索引擎

jd-opensource/xllm

主页
开始使用
功能介绍
CLI参考

xLLM

jd-opensource/xllm

主页
开始使用
开始使用
- 安装编译
- 快速开始
  快速开始
  - 在线服务
    在线服务
    
    单节点部署
    
    多节点部署
    
    PD分离部署
  - 多模态支持
    多模态支持
    
    VLM启动服务
- 启动脚本
功能介绍
功能介绍
- 概览
  概览
  - 整体架构
- 功能列表
  功能列表
  - 运行时
    运行时
    
    异步调度
    
    多流并行
  - 调度算法
    调度算法
    
    continuous调度器
    
    chunked调度器
    
    zero_evict调度器
    
    prefix cache 优化
  - 分布式
    分布式
    
    PD分离
  - 算子
    算子
    
    GroupGEMM算子优化
    
    PpMatmul 算子优化
    
    Topk&Topp算子优化
  - KV存储管理
    KV存储管理
    
    全局多级KV Cache
    
    xTensor显存管理
  - 多模态
    多模态
    
    多模态支持多模态支持
    目录
    
    支持模型
    
    模态类型
  - MoE优化
    MoE优化
    
    EP并行
    
    MOE负载均衡
  - 进阶指南
    进阶指南
    
    投机推理
    
    ACLGraph
  - xLLM Service概览
CLI参考
CLI参考
- 服务启动参数

目录

支持模型
模态类型

多模态支持¶

本文档主要介绍xLLM推理引擎中多模态的吃场景支持模型及模态类型，以及离在线接口等。

支持模型¶

Qwen2.5-VL: 包括7B/32B/72B多个系列。
MiniCPM-V-2_6: 7B。

模态类型¶

图片: 支持单图、多图的输入，以及图片+Prompt组合、纯文本Promot等输入方式。

注意事项

目前，xLLM统一基于JinJa渲染ChatTemplate，部署MiniCPM-V-2_6，模型目录需提供ChatTemplate文件。
图片仅支持Base64输入，不支持输入图片Url。
目前多模态模型主要支持了图片模态，视频、音频等模态正在推进中。

2025年10月29日

xTensor显存管理

Copyright © 2025 xLLM Team

Made with Material for MkDocs