vllm-ascend部署qwen3-rerank-8B
"人工智能在医疗领域的应用越来越广泛","query": "人工智能的发展前景","机器学习是人工智能的核心技术之一","传统行业数字化转型需要人工智能支持"
·
😊前情提要
- 基于昇腾910B服务器
- vllm-ascend 0.11.0镜像
- 部署Qwen3-Rerank-8B嵌入模型
- 不包含昇腾驱动、镜像等基础操作
一、拉起容器
docker run --rm \ --name vllm_qwen3_rerank_8B \ --device /dev/davinci1 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /home/models:/home/models \ -p 9002:8000 \ -it quay.io/ascend/vllm-ascend:v0.11.0-openeuler bash
二、起服务
nohup vllm serve /home/models/Qwen3-Reranker-8B --host 0.0.0.0 --port 8000 --hf_overrides '{"architectures": ["Qwen3ForSequenceClassification"],"classifier_from_token": ["no", "yes"],"is_original_qwen3_reranker": true}' > /workspace/vllm_serve.log 2>&1 &
三、请求
curl --location 'http://xx.xx.xx.xx:9002/v1/rerank' \
--header 'Content-Type: application/json' \
--data '{
"query": "人工智能的发展前景",
"documents": [
"人工智能在医疗领域的应用越来越广泛",
"机器学习是人工智能的核心技术之一",
"传统行业数字化转型需要人工智能支持"
],
"return_documents": true,
"top_n": 3
}'
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐


所有评论(0)