Qwen3.5-397B-A17B多模态推理教程:图文输入API调用与响应解析示例
Qwen3.5-397B-A17B是Qwen系列最新的旗舰多模态模型,采用MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。本教程将详细介绍如何在昇腾平台上使用vLLM部署该模型,并通过API调用实现图文输入的多模态推理及响应解析。## 快速了解Qwen3.5-397B-A17B模型特性Qwen3.5-397B-A17B作为新一代多模态大模型,具备以下核心优势:- **
Qwen3.5-397B-A17B多模态推理教程:图文输入API调用与响应解析示例
Qwen3.5-397B-A17B是Qwen系列最新的旗舰多模态模型,采用MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。本教程将详细介绍如何在昇腾平台上使用vLLM部署该模型,并通过API调用实现图文输入的多模态推理及响应解析。
快速了解Qwen3.5-397B-A17B模型特性
Qwen3.5-397B-A17B作为新一代多模态大模型,具备以下核心优势:
- 原生多模态能力:集成Vision Encoder与图文融合技术,支持图像与文本的联合理解
- 高效推理架构:采用混合注意力机制与MTP多Token预测分支,平衡性能与速度
- 昇腾优化支持:针对Atlas系列硬件深度优化,支持W8A8量化版本部署
模型能力矩阵:支持昇腾A2/A3系列硬件,支持256K超长上下文,支持异步调度与量化推理
环境准备与部署指南
模型权重获取
需下载以下模型权重之一:
建议将模型权重存放于多节点共享目录,如/root/.cache/
两种部署方式选择
1. 官方Docker镜像部署(推荐)
通过以下命令加载并运行官方镜像:
# 加载镜像
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar
# 运行容器(以A3设备为例)
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci_manager \
-v /root/.cache:/root/.cache \
-it $IMAGE bash
2. 源码构建部署
需先安装CANN 8.5.0,再通过以下步骤构建:
# 升级vllm
git clone https://github.com/vllm-project/vllm.git
cd vllm
git checkout a75a5b54c7f76bc2e15d3025d6
VLLM_TARGET_DEVICE=empty pip install -v .
# 安装vllm-ascend
git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -v .
单节点部署实战
以Atlas 800 A3设备部署量化模型为例:
启动服务命令
export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_IF_IP="xxx"
export OMP_NUM_THREADS=1
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
--served-model-name "qwen3.5" \
--host 0.0.0.0 \
--port 8010 \
--data-parallel-size 1 \
--tensor-parallel-size 16 \
--max-model-len 5000 \
--quantization ascend \
--async-scheduling
关键参数说明:
--tensor-parallel-size 16:使用16卡张量并行--quantization ascend:启用昇腾量化加速--async-scheduling:开启异步调度提升吞吐量
多模态API调用详解
纯文本请求示例
通过curl发送文本提示:
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"prompt": "The future of AI is",
"max_tokens": 100,
"temperature": 0
}'
响应示例:
{
"id": "cmpl-xxx",
"object": "text_completion",
"created": 1771060145,
"model": "qwen3.5",
"choices": [
{
"text": " not just about building smarter machines, but about creating systems that can collaborate with humans...",
"index": 0,
"finish_reason": "stop"
}
],
"usage": {"prompt_tokens": 7, "completion_tokens": 100, "total_tokens": 107}
}
图文混合请求示例
发送包含图片URL的多模态请求:
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
{"type": "text", "text": "What is the text in the image?"}
]}
]
}'
响应解析说明
API响应包含以下关键字段:
id:请求唯一标识choices[0].message.content:模型生成的文本内容usage:Token使用统计created:请求时间戳
成功响应示例:
{
"id": "chatcmpl-9dab99d55addd8c0",
"object": "chat.completion",
"created": 1771060145,
"model": "qwen3.5",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "TONGYI Qwen"
},
"finish_reason": "stop"
}
],
"usage": {"prompt_tokens": 112, "total_tokens": 119, "completion_tokens": 7}
}
多节点部署配置
对于A2系列设备,需至少2台Atlas 800 A2(64G × 16):
节点0配置
export HCCL_IF_IP="node0_ip"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
--served-model-name "qwen3.5" \
--host 0.0.0.0 \
--port 8010 \
--data-parallel-address $node0_ip \
--data-parallel-size 2 \
--tensor-parallel-size 8
节点1配置
export HCCL_IF_IP="node1_ip"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
--served-model-name "qwen3.5" \
--host 0.0.0.0 \
--port 8010 \
--data-parallel-address $node0_ip \
--data-parallel-size 2 \
--data-parallel-start-rank 1 \
--tensor-parallel-size 8 \
--headless
常见问题解决
- 模型加载失败:检查模型权重路径是否正确,确保权限充足
- 推理速度慢:尝试调整
--gpu-memory-utilization参数(建议0.94) - 多节点通信问题:确认HCCL相关环境变量配置正确,网络通畅
- 内存溢出:减少
--max-num-batched-tokens或--max-num-seqs参数值
总结
Qwen3.5-397B-A17B在昇腾平台的部署为开发者提供了高效的多模态推理能力。通过vLLM的优化部署方案,无论是单节点还是多节点配置,都能充分发挥昇腾硬件优势。希望本教程能帮助您快速上手Qwen3.5的多模态API调用,实现图文融合的智能应用开发。
如需获取更多技术细节,请参考:
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐

所有评论(0)