VLM启动服务¶
本文档介绍基于xLLM推理引擎启动VLM模型服务
单卡¶
启动服务,在xllm工程主目录中执行下面命令:
ASCEND_RT_VISIBLE_DEVICES=0 ./build/xllm/core/server/xllm --model=/path/to/Qwen2.5-VL-7B-Instruct --port=12345 --max_memory_utilization 0.90 --backend vlm
多卡¶
启动服务,在xllm工程主目录中执行下面命令: