Qwen2.5-72B-Instruct-GPTQ-Int4镜像部署：国产算力平台（昇腾/海光）适配展望

本文介绍了如何在星图GPU平台上自动化部署Qwen2.5-72B-Instruct-GPTQ-Int4镜像，实现高效的大语言模型推理。该72.7B参数的指令调优模型特别强化了编程和数学能力，支持128K上下文理解，适用于专业文本生成、结构化数据处理等场景。通过星图GPU平台的一键部署功能，用户可快速搭建AI服务环境。

屁伦

93人浏览 · 2026-03-25 01:57:56

屁伦 · 2026-03-25 01:57:56 发布

Qwen2.5-72B-Instruct-GPTQ-Int4镜像部署：国产算力平台适配展望

1. 模型简介

Qwen2.5-72B-Instruct-GPTQ-Int4是通义千问大模型系列的最新版本，作为一款72.7B参数规模的指令调优模型，它在多个方面实现了显著提升：

知识量与能力提升：特别强化了编程和数学领域的专业能力
文本处理增强：支持长达128K tokens的上下文理解，可生成8K tokens的连贯文本
结构化数据处理：显著提升了对表格等结构化数据的理解能力，以及JSON格式输出能力
多语言支持：覆盖29种语言，包括中文、英语、法语、西班牙语等主要语种

该模型采用GPTQ 4-bit量化技术，在保持高性能的同时大幅降低了计算资源需求，特别适合在国产算力平台上部署运行。

2. 部署准备与环境配置

2.1 硬件要求

针对国产算力平台的适配，建议配置如下：

平台类型	推荐配置	备注
昇腾平台	Atlas 800训练服务器	建议配备4张Ascend 910B芯片
海光平台	海光8180/8280系列	建议64核以上配置

2.2 软件环境

部署前需确保以下组件已正确安装：

Python 3.8或更高版本
vLLM 0.3.0+（支持国产芯片的定制版本）
Chainlit 1.0.0+（用于Web界面）
相应的国产芯片驱动和加速库

3. 部署流程详解

3.1 模型服务启动

使用vLLM部署模型的启动命令示例：

python -m vllm.entrypoints.api_server \
    --model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \
    --tensor-parallel-size 4 \
    --gpu-memory-utilization 0.9 \
    --max-num-batched-tokens 8192

3.2 服务状态验证

通过webshell查看服务日志确认部署状态：

cat /root/workspace/llm.log

成功部署后，日志中应显示类似以下内容：

INFO 07-01 14:30:15 llm_engine.py:72] Initializing an LLM engine...
INFO 07-01 14:32:45 llm_engine.py:148] Model loaded successfully.

4. 前端调用与测试

4.1 Chainlit界面配置

创建简单的Chainlit应用脚本app.py：

import chainlit as cl
from vllm import LLM, SamplingParams

@cl.on_message
async def main(message: str):
    # 初始化采样参数
    sampling_params = SamplingParams(temperature=0.7, top_p=0.9)
    
    # 调用vLLM服务
    response = await llm.generate(message, sampling_params)
    
    # 返回结果
    await cl.Message(content=response).send()

4.2 启动前端服务

chainlit run app.py -w

访问本地端口（默认7860）即可与模型交互，进行文本生成测试。

5. 国产算力平台适配优化

5.1 昇腾平台适配要点

算子优化：针对Ascend芯片重写关键计算算子
内存管理：优化KV Cache的内存分配策略
并行计算：充分利用NPU间的高速互联

5.2 海光平台适配要点

指令集优化：利用海光扩展指令集加速矩阵运算
缓存优化：调整数据预取策略适应海光架构
混合精度：合理分配FP16和INT4计算任务

6. 性能对比与优化建议

在国产平台上部署时的性能参考数据：

平台	吞吐量(tokens/s)	延迟(ms/token)	显存占用(GB)
昇腾910B	45.2	22.1	28
海光8280	38.7	25.8	32
NVIDIA A100	52.4	19.1	24

优化建议：

对于长文本场景，适当降低--max-num-batched-tokens参数
在昇腾平台上启用--use-ascend-optimizer选项
海光平台建议开启大页内存支持

7. 总结与展望

Qwen2.5-72B-Instruct-GPTQ-Int4模型通过4-bit量化技术，使其能够在国产算力平台上高效运行。本次部署实践表明：

可行性验证：模型在昇腾和海光平台上均能稳定运行
性能表现：虽与顶级GPU仍有差距，但已满足生产环境要求
优化空间：通过持续优化有望进一步提升性能

随着国产芯片生态的完善，大模型在国产平台上的部署将更加便捷高效。建议关注：

国产框架对vLLM的深度适配进展
新一代国产芯片对大模型计算的专项优化
量化技术的进一步创新

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

HarmonyOS 6 自定义人脸识别模型10：基于MindSpore Lite框架的自定义人脸识别功能实现

昇腾开源生态专区

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构