😊前情提要

  • 基于昇腾910B服务器
  • vllm-ascend 0.11.0镜像
  • 部署Qwen3-Rerank-8B嵌入模型
  • 不包含昇腾驱动、镜像等基础操作

一、拉起容器

docker run --rm \
--name vllm_qwen3_rerank_8B \
--device /dev/davinci1 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /home/models:/home/models \
-p 9002:8000 \
-it quay.io/ascend/vllm-ascend:v0.11.0-openeuler bash

 

二、起服务

nohup vllm serve /home/models/Qwen3-Reranker-8B --host 0.0.0.0 --port 8000 --hf_overrides '{"architectures": ["Qwen3ForSequenceClassification"],"classifier_from_token": ["no", "yes"],"is_original_qwen3_reranker": true}'  > /workspace/vllm_serve.log 2>&1 &

 

三、请求

curl --location 'http://xx.xx.xx.xx:9002/v1/rerank' \
--header 'Content-Type: application/json' \
--data '{
    "query": "人工智能的发展前景",
    "documents": [
      "人工智能在医疗领域的应用越来越广泛",
      "机器学习是人工智能的核心技术之一",
      "传统行业数字化转型需要人工智能支持"
    ],
    "return_documents": true,
    "top_n": 3
  }'

 

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐