跳转至

VLM启动服务

本文档介绍基于xLLM推理引擎启动VLM模型服务

单卡

启动服务,在xllm工程主目录中执行下面命令:

ASCEND_RT_VISIBLE_DEVICES=0 ./build/xllm/core/server/xllm --model=/path/to/Qwen2.5-VL-7B-Instruct  --port=12345  --max_memory_utilization 0.90 --backend vlm

多卡

启动服务,在xllm工程主目录中执行下面命令:

ASCEND_RT_VISIBLE_DEVICES=0,1 ./build/xllm/core/server/xllm --model=/path/to/Qwen2.5-VL-7B-Instruct  --port=12345  --max_memory_utilization 0.90 --backend vlm