Qwen3.5-397B-A17B多模态推理教程：图文输入API调用与响应解析示例

Qwen3.5-397B-A17B是Qwen系列最新的旗舰多模态模型，采用MoE（混合专家）架构，在保持强大模型能力的同时显著降低了推理成本。本教程将详细介绍如何在昇腾平台上使用vLLM部署该模型，并通过API调用实现图文输入的多模态推理及响应解析。## 快速了解Qwen3.5-397B-A17B模型特性Qwen3.5-397B-A17B作为新一代多模态大模型，具备以下核心优势：- **

张飚贵Alarice

789人浏览 · 2026-03-01 00:18:31

张飚贵Alarice · 2026-03-01 00:18:31 发布

Qwen3.5-397B-A17B多模态推理教程：图文输入API调用与响应解析示例

【免费下载链接】Qwen3.5 Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型，采用 MoE（混合专家）架构，在保持强大模型能力的同时显著降低了推理成本。项目地址: https://ai.gitcode.com/vLLM_Ascend/Qwen3.5

Qwen3.5-397B-A17B是Qwen系列最新的旗舰多模态模型，采用MoE（混合专家）架构，在保持强大模型能力的同时显著降低了推理成本。本教程将详细介绍如何在昇腾平台上使用vLLM部署该模型，并通过API调用实现图文输入的多模态推理及响应解析。

快速了解Qwen3.5-397B-A17B模型特性

Qwen3.5-397B-A17B作为新一代多模态大模型，具备以下核心优势：

原生多模态能力：集成Vision Encoder与图文融合技术，支持图像与文本的联合理解
高效推理架构：采用混合注意力机制与MTP多Token预测分支，平衡性能与速度
昇腾优化支持：针对Atlas系列硬件深度优化，支持W8A8量化版本部署

模型能力矩阵：支持昇腾A2/A3系列硬件，支持256K超长上下文，支持异步调度与量化推理

环境准备与部署指南

模型权重获取

需下载以下模型权重之一：

Qwen3.5-397B-A17B（BF16版本）：下载模型权重
Qwen3.5-397B-A17B-w8a8（量化版本）：下载模型权重

建议将模型权重存放于多节点共享目录，如/root/.cache/

两种部署方式选择

1. 官方Docker镜像部署（推荐）

通过以下命令加载并运行官方镜像：

# 加载镜像
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar

# 运行容器（以A3设备为例）
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci_manager \
-v /root/.cache:/root/.cache \
-it $IMAGE bash

2. 源码构建部署

需先安装CANN 8.5.0，再通过以下步骤构建：

# 升级vllm
git clone https://github.com/vllm-project/vllm.git
cd vllm
git checkout a75a5b54c7f76bc2e15d3025d6
VLLM_TARGET_DEVICE=empty pip install -v .

# 安装vllm-ascend
git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -v .

单节点部署实战

以Atlas 800 A3设备部署量化模型为例：

启动服务命令

export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_IF_IP="xxx"
export OMP_NUM_THREADS=1

vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-size 1 \
    --tensor-parallel-size 16 \
    --max-model-len 5000 \
    --quantization ascend \
    --async-scheduling

关键参数说明：

--tensor-parallel-size 16：使用16卡张量并行

--quantization ascend：启用昇腾量化加速

--async-scheduling：开启异步调度提升吞吐量

多模态API调用详解

纯文本请求示例

通过curl发送文本提示：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
        "prompt": "The future of AI is",
        "max_tokens": 100,
        "temperature": 0
      }'

响应示例：

{
  "id": "cmpl-xxx",
  "object": "text_completion",
  "created": 1771060145,
  "model": "qwen3.5",
  "choices": [
    {
      "text": " not just about building smarter machines, but about creating systems that can collaborate with humans...",
      "index": 0,
      "finish_reason": "stop"
    }
  ],
  "usage": {"prompt_tokens": 7, "completion_tokens": 100, "total_tokens": 107}
}

图文混合请求示例

发送包含图片URL的多模态请求：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
        "model": "qwen3.5",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": [
                {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
                {"type": "text", "text": "What is the text in the image?"}
            ]}
        ]
      }'

响应解析说明

API响应包含以下关键字段：

id：请求唯一标识
choices[0].message.content：模型生成的文本内容
usage：Token使用统计
created：请求时间戳

成功响应示例：

{
  "id": "chatcmpl-9dab99d55addd8c0",
  "object": "chat.completion",
  "created": 1771060145,
  "model": "qwen3.5",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "TONGYI Qwen"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {"prompt_tokens": 112, "total_tokens": 119, "completion_tokens": 7}
}

多节点部署配置

对于A2系列设备，需至少2台Atlas 800 A2（64G × 16）：

节点0配置

export HCCL_IF_IP="node0_ip"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-address $node0_ip \
    --data-parallel-size 2 \
    --tensor-parallel-size 8

节点1配置

export HCCL_IF_IP="node1_ip"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-397B-A17B-w8a8/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-address $node0_ip \
    --data-parallel-size 2 \
    --data-parallel-start-rank 1 \
    --tensor-parallel-size 8 \
    --headless

常见问题解决

模型加载失败：检查模型权重路径是否正确，确保权限充足
推理速度慢：尝试调整--gpu-memory-utilization参数（建议0.94）
多节点通信问题：确认HCCL相关环境变量配置正确，网络通畅
内存溢出：减少--max-num-batched-tokens或--max-num-seqs参数值

总结

Qwen3.5-397B-A17B在昇腾平台的部署为开发者提供了高效的多模态推理能力。通过vLLM的优化部署方案，无论是单节点还是多节点配置，都能充分发挥昇腾硬件优势。希望本教程能帮助您快速上手Qwen3.5的多模态API调用，实现图文融合的智能应用开发。

如需获取更多技术细节，请参考：

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍