vllm-ascend部署qwen3-embedding-8B
{"role": "user", "content": "你好"}
·
😊前情提要
- 基于昇腾910B服务器
- vllm-ascend 0.11.0镜像
- 部署Qwen3-Embedding-8B嵌入模型
- 不包含昇腾驱动、镜像等基础操作
一、拉起容器
docker run --rm \ --name vllm_qwen3_embedding_8B \ --device /dev/davinci0 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /home/models:/home/models \ -p 9001:8000 \ -it quay.io/ascend/vllm-ascend:v0.11.0-openeuler bash
二、设置环境变量
export VLLM_USE_MODELSCOPE=False export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:512
三、起服务
# 可选 cd /home/models ln -s Qwen3-Embedding-8B qwen-emb-8b # 起服务 nohup vllm serve /home/models/qwen-emb-8b --task embed > /workspace/vllm.log 2>&1 &
四、请求
curl --location 'http://xx.xx.xx.xx:9001/v1/embeddings' \
--header 'Content-Type: application/json' \
--data '{
"model": "/home/models/qwen-emb-8b",
"messages": [
{"role": "user", "content": "你好"}
]
}'
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐


所有评论(0)