😊前情提要

  • 基于昇腾910B服务器
  • vllm-ascend 0.11.0镜像
  • 部署Qwen3-Embedding-8B嵌入模型
  • 不包含昇腾驱动、镜像等基础操作

一、拉起容器

docker run --rm \
--name vllm_qwen3_embedding_8B \
--device /dev/davinci0 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /home/models:/home/models \
-p 9001:8000 \
-it quay.io/ascend/vllm-ascend:v0.11.0-openeuler bash

二、设置环境变量

export VLLM_USE_MODELSCOPE=False
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:512

三、起服务

# 可选
cd /home/models
ln -s Qwen3-Embedding-8B qwen-emb-8b
​
# 起服务
nohup vllm serve /home/models/qwen-emb-8b --task embed  > /workspace/vllm.log 2>&1 &

四、请求

curl --location 'http://xx.xx.xx.xx:9001/v1/embeddings' \
--header 'Content-Type: application/json' \
--data '{
  "model": "/home/models/qwen-emb-8b",
  "messages": [
    {"role": "user", "content": "你好"}
  ]
}'
Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐