1. LLM精度测试¶
1.1 设置ais_bench¶
# 使用conda或uv为ais_bench创建虚拟环境
conda create --name ais_bench python=3.10 -y
conda activate ais_bench
# 下载ais_bench并安装依赖
git clone https://gitee.com/aisbench/benchmark.git
cd benchmark/
pip3 install -e ./ --use-pep517
# 下载数据集并复制到ais_bench目录下
cp -r /path/to/dataset /path/to/benchmark/ais_bench/datasets
1.2 修改配置¶
根据实际情况修改精度测试配置文件:/path/to/benchmark/ais_bench/benchmark/configs/models/vllm_api/vllm_api_general_chat.py,采样参数建议按如下代码设置:
models = [
dict(
attr="service",
type=VLLMCustomAPIChat,
abbr='vllm-api-general-chat',
path="/path/to/model/Qwen3-8B", # 模型路径
model="Qwen3-8B", # 模型名称
request_rate = 0,
retry = 2,
host_ip = "127.0.0.1",
host_port = 19000, # xllm服务端端口
max_out_len = 32768, # 限制模型最大长度
batch_size=32,
trust_remote_code=False,
generation_kwargs = dict(
temperature = 0.6,
# top_k = -1,
top_p = 0.95,
# seed = None,
# repetition_penalty = 1,
),
pred_postprocessor=dict(type=extract_non_reasoning_content)
)
]
1.3 启动ais_bench¶
在使用ais_bench前需要先启动xllm服务。使用ais_bench -h能够获取参数含义,对于gsm8k和ceval数据集的启动命令如下:
# 使用gsm8k数据集
ais_bench --models vllm_api_general_chat --datasets gsm8k_gen_0_shot_cot_chat_prompt --dump-eval-details
# 使用ceval数据集
ais_bench --models vllm_api_general_chat --datasets ceval_gen_0_shot_cot_chat_prompt --merge-ds --dump-eval-details
我们会在未来将ais_bench和数据集(ceval和gsm8k)集成进开发镜像,ais_bench文档和数据集如下: * ais_bench文档 * 数据集