gptq量化vllm推理优化
-
vLLM怎么开启GPTQ量化加速推理,vllm gptq量化配置教程
vLLM开启GPTQ量化加速推理的核心在于使用支持GPTQ权重的模型 checkpoint,并在启动服务时通过 –quantization gptq 参数指定量化格式,配合 –device cuda 和合理的 –gpu-memory-utilization 配置,即可在保持精度的同时显著降低显存占用并提升……
vLLM开启GPTQ量化加速推理的核心在于使用支持GPTQ权重的模型 checkpoint,并在启动服务时通过 –quantization gptq 参数指定量化格式,配合 –device cuda 和合理的 –gpu-memory-utilization 配置,即可在保持精度的同时显著降低显存占用并提升……