vllm-ascend部署qwen3-embedding-8B

{"role": "user", "content": "你好"}

LubuBlue

276人浏览 · 2026-03-17 14:35:15

LubuBlue · 2026-03-17 14:35:15 发布

😊前情提要

基于昇腾910B服务器
vllm-ascend 0.11.0镜像
部署Qwen3-Embedding-8B嵌入模型
不包含昇腾驱动、镜像等基础操作

一、拉起容器

docker run --rm \
--name vllm_qwen3_embedding_8B \
--device /dev/davinci0 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /home/models:/home/models \
-p 9001:8000 \
-it quay.io/ascend/vllm-ascend:v0.11.0-openeuler bash

二、设置环境变量

export VLLM_USE_MODELSCOPE=False
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:512

三、起服务

# 可选
cd /home/models
ln -s Qwen3-Embedding-8B qwen-emb-8b

# 起服务
nohup vllm serve /home/models/qwen-emb-8b --task embed  > /workspace/vllm.log 2>&1 &

四、请求

curl --location 'http://xx.xx.xx.xx:9001/v1/embeddings' \
--header 'Content-Type: application/json' \
--data '{
  "model": "/home/models/qwen-emb-8b",
  "messages": [
    {"role": "user", "content": "你好"}
  ]
}'

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构