Qwen3.5-397B-A17B多模态推理教程:图文输入API调用与响应解析示例

【免费下载链接】Qwen3.5 Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。 【免费下载链接】Qwen3.5 项目地址: https://ai.gitcode.com/vLLM_Ascend/Qwen3.5

Qwen3.5-397B-A17B是Qwen系列最新的旗舰多模态模型,采用MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。本教程将详细介绍如何在昇腾平台上使用vLLM部署该模型,并通过API调用实现图文输入的多模态推理及响应解析。

快速了解Qwen3.5-397B-A17B模型特性

Qwen3.5-397B-A17B作为新一代多模态大模型,具备以下核心优势:

  • 原生多模态能力:集成Vision Encoder与图文融合技术,支持图像与文本的联合理解
  • 高效推理架构:采用混合注意力机制与MTP多Token预测分支,平衡性能与速度
  • 昇腾优化支持:针对Atlas系列硬件深度优化,支持W8A8量化版本部署

模型能力矩阵:支持昇腾A2/A3系列硬件,支持256K超长上下文,支持异步调度与量化推理

环境准备与部署指南

模型权重获取

需下载以下模型权重之一:

建议将模型权重存放于多节点共享目录,如/root/.cache/

两种部署方式选择

1. 官方Docker镜像部署(推荐)

通过以下命令加载并运行官方镜像:

# 加载镜像
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar

# 运行容器(以A3设备为例)
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci_manager \
-v /root/.cache:/root/.cache \
-it $IMAGE bash
2. 源码构建部署

需先安装CANN 8.5.0,再通过以下步骤构建:

# 升级vllm
git clone https://github.com/vllm-project/vllm.git
cd vllm
git checkout a75a5b54c7f76bc2e15d3025d6
VLLM_TARGET_DEVICE=empty pip install -v .

# 安装vllm-ascend
git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -v .

单节点部署实战

以Atlas 800 A3设备部署量化模型为例:

启动服务命令

export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_IF_IP="xxx"
export OMP_NUM_THREADS=1

vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-size 1 \
    --tensor-parallel-size 16 \
    --max-model-len 5000 \
    --quantization ascend \
    --async-scheduling

关键参数说明

  • --tensor-parallel-size 16:使用16卡张量并行
  • --quantization ascend:启用昇腾量化加速
  • --async-scheduling:开启异步调度提升吞吐量

多模态API调用详解

纯文本请求示例

通过curl发送文本提示:

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
        "prompt": "The future of AI is",
        "max_tokens": 100,
        "temperature": 0
      }'

响应示例:

{
  "id": "cmpl-xxx",
  "object": "text_completion",
  "created": 1771060145,
  "model": "qwen3.5",
  "choices": [
    {
      "text": " not just about building smarter machines, but about creating systems that can collaborate with humans...",
      "index": 0,
      "finish_reason": "stop"
    }
  ],
  "usage": {"prompt_tokens": 7, "completion_tokens": 100, "total_tokens": 107}
}

图文混合请求示例

发送包含图片URL的多模态请求:

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
        "model": "qwen3.5",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": [
                {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
                {"type": "text", "text": "What is the text in the image?"}
            ]}
        ]
      }'

响应解析说明

API响应包含以下关键字段:

  • id:请求唯一标识
  • choices[0].message.content:模型生成的文本内容
  • usage:Token使用统计
  • created:请求时间戳

成功响应示例:

{
  "id": "chatcmpl-9dab99d55addd8c0",
  "object": "chat.completion",
  "created": 1771060145,
  "model": "qwen3.5",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "TONGYI Qwen"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {"prompt_tokens": 112, "total_tokens": 119, "completion_tokens": 7}
}

多节点部署配置

对于A2系列设备,需至少2台Atlas 800 A2(64G × 16):

节点0配置

export HCCL_IF_IP="node0_ip"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-address $node0_ip \
    --data-parallel-size 2 \
    --tensor-parallel-size 8

节点1配置

export HCCL_IF_IP="node1_ip"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-address $node0_ip \
    --data-parallel-size 2 \
    --data-parallel-start-rank 1 \
    --tensor-parallel-size 8 \
    --headless

常见问题解决

  1. 模型加载失败:检查模型权重路径是否正确,确保权限充足
  2. 推理速度慢:尝试调整--gpu-memory-utilization参数(建议0.94)
  3. 多节点通信问题:确认HCCL相关环境变量配置正确,网络通畅
  4. 内存溢出:减少--max-num-batched-tokens--max-num-seqs参数值

总结

Qwen3.5-397B-A17B在昇腾平台的部署为开发者提供了高效的多模态推理能力。通过vLLM的优化部署方案,无论是单节点还是多节点配置,都能充分发挥昇腾硬件优势。希望本教程能帮助您快速上手Qwen3.5的多模态API调用,实现图文融合的智能应用开发。

如需获取更多技术细节,请参考:

【免费下载链接】Qwen3.5 Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。 【免费下载链接】Qwen3.5 项目地址: https://ai.gitcode.com/vLLM_Ascend/Qwen3.5

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐