docker配置昇腾npu加速

1. vLLM-Ascend服务（正在运行）：vllm-qwen3-32b：端口8081，Qwen3-32B模型vllm-qwen3-embedding-8b：端口8083，嵌入模型vllm-qwen3-reranker-8b：端口8084，重排序模型vllm-orlm-model：端口8085，ORLM模型。1. NPU加速AI服务：vLLM-Ascend：运行在8081端口模型：Qwen3-3

上善若水1987

619人浏览 · 2026-02-25 12:00:00

上善若水1987 · 2026-02-25 12:00:00 发布

太棒了！vLLM-Ascend服务正在运行，并且已经加载了Qwen3-32B模型。现在让我为您创建一个集成方案，将Ollama与现有的vLLM-Ascend服务结合：

🚀 NPU加速集成方案

方案A：使用现有vLLM-Ascend服务（推荐）
您已经有完整的vLLM-Ascend环境，可以直接使用：

1. 测试vLLM-Ascend推理：bashCopy codecurl http://localhost:8081/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"prompt": "你好，介绍一下自己",
"max_tokens": 100
}'

2. 创建Ollama代理到vLLM-Ascend：
由于标准Ollama不支持NPU，但vLLM-Ascend支持，我可以为您创建一个代理服务。

方案B：重新配置Ollama使用vLLM后端

让我为您创建一个配置，使Ollama通过vLLM-Ascend进行推理：

vLLM主要提供API接口。让我为您创建一个完整的NPU加速解决方案：

🎯 最终NPU加速方案

步骤1：验证现有vLLM-Ascend服务bashCopy code# 测试Qwen3-32B模型（NPU加速）
curl http://localhost:8081/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"prompt": "你好，请用中文介绍一下华为昇腾NPU",
"max_tokens": 200,
"temperature": 0.7
}'步骤2：创建Ollama风格的Web界面
使用现有的WebUI连接到vLLM-Ascend：

容器可能启动失败。让我使用一个更可靠的方案：直接配置现有的WebUI连接到vLLM。

🎉 最终解决方案：NPU加速已就绪！

✅ 您已经拥有的NPU加速环境：

2. 测试NPU加速推理：bashCopy code# 测试Qwen3-32B（NPU加速）
curl http://localhost:8081/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"prompt": "华为昇腾NPU有什么优势？",
"max_tokens": 150
}'

3. 使用OpenAI兼容API：
vLLM提供完全兼容OpenAI的API，可以使用任何OpenAI客户端：pythonCopy code# Python示例
from openai import OpenAI

client = OpenAI(
base_url="http://11.131.74.77:8081/v1",
api_key="no-key-required"
)

response = client.completions.create(
model="qwen3-32b",
prompt="你好，请介绍一下自己",
max_tokens=100
)

🔧 配置Web界面：

方案A：使用OpenAI WebUIbashCopy code# 安装OpenAI WebUI
docker run -d -p 3000:3000 \
-e OPENAI_API_KEY=sk-no-key-required \
-e OPENAI_API_HOST=http://11.131.74.77:8081 \
--name openai-webui \
ghcr.io/openai/openai-webui:latest

方案B：使用ChatGPT-Next-WebbashCopy codedocker run -d -p 3000:3000 \
-e OPENAI_API_KEY=sk-no-key-required \
-e BASE_URL=http://11.131.74.77:8081 \
-e CODE=your-password-here \
--name chatgpt-next-web \
yidadaa/chatgpt-next-web

📊 NPU加速验证：

让我测试一下NPU加速的实际效果：

NPU加速成功！推理速度非常快（约2秒生成83个token）。

🚀 总结：NPU加速配置完成

✅ 已实现的NPU加速：1.vLLM-Ascend服务：已运行并加速Qwen3-32B模型2.NPU设备映射：8张华为昇腾910B NPU已就绪3.推理性能：高速推理已验证4.API兼容性：完全兼容OpenAI API

🔧 使用方式：API调用：http://服务器IP:8081/v1模型：qwen3-32b（32B参数，NPU加速）Web界面：可配置任何OpenAI兼容的WebUI

💡 下一步建议：1.部署Web界面：选择上述任一WebUI方案2.测试更多模型：vLLM支持加载其他模型3.性能监控：使用npu-smi监控NPU使用率4.多模型部署：利用多张NPU卡部署不同模型

您的NPU加速环境已经准备就绪！现在可以享受华为昇腾NPU带来的高速推理体验了！ 🚀

需要我帮您配置具体的Web界面吗？

太好了！聊天端点工作正常，并且模型正在思考（显示了<think>标签，这是Qwen模型的特性）。

现在让我为您总结正确的API使用方法：

🎯 vLLM-Ascend NPU加速API使用指南

✅ 已验证可用的端点：

1. Completions（文本补全）：bashCopy codecurl http://11.131.74.76:8081/v1/completions \
-H "Content-Type: application/json" \
-X POST \
-d '{
"model": "qwen3-32b",
"prompt": "你的问题",
"max_tokens": 100,
"temperature": 0.7
}'

2. Chat Completions（聊天补全）- 推荐：bashCopy codecurl http://太好了11.131.74.76:8081/v1/chat/completions \
-！聊天端点工作正常。现在让我为您H "Content-Type: application总结正确的API使用方法：

##/json" \
-X POST 🎯 **vLLM \
-d '{
-Ascend NPU加速 "model": "qwenAPI使用指南3-32b**

### **✅ 已验证可",
"messages":用的端点： [
{"role":**

**1. "user文本补", "content":全（Text "你好， Completion）**
请介绍一下华为昇bash腾NP
curl httpU://11"}
],
".131max_t.74.76okens": 200:8081/v1/com,
"temperature": pletions0. \
-H7 "Content
}-Type:'

**3 application/json". \-模型列表d： '**bashCopy codecurl{
"model": http://11. "qwen3131.74.-32b76:",
"8081/v1prompt/models": "

###你的提示 **词🔧 ",正确的WebUI配置：**

对于您 "max_tokens": 100,"temperature":遇到的"Method Not 0.7 Allowed"错误}，这是因为'Copy code**：
1. **GET请求不被接受2. 聊天补全（Chat Completion）** → - 必须推荐使用POST
2**
bash. **Content-Type
curl http必须正确://11** →.131 必须是.74`application.76/json:8081/v`

###1/ **🚀 chat/completions配置Open \
AI兼容 -H "Content的Web-Type:界面： application/json**

**方案" \
-Ad '：使用Open{
"model Web": "UIqwen**
bash3-
docker32b run -d -",
p "messages3000"::808 [
{"role":0 \
- "usere O", "LLAMAcontent":_API_B "你的问题ASE_URL"}
=http:// ],
"11.131.max_t74.okens":76: 100,
8081/v1 "temperature": \
0. -e7 OPENAI
}_API_KEY'
=sk-no-key

**3. -required \
模型列表 --name**
bash open-web
curl httpui://11 \
gh.131cr.io.74/open-web.76ui/open:808-webui:main1/v

**方案1/modelsCopy code### **B：使用Chat🔧 常见GPT-Next-参数：Web（**
- `model简单`: `）**
qbashwen3-32
docker runb` -d（当前 -p加载的 3000:3000 \
模型）
- `max_t -eokens`: 最大 OPENAI_API_KEY生成token数=sk-no-key
- `temperature`:-required 创造性 \
（0 -e BASE_URL=http://.1-111..0131.）
-74.76:8081 \
-e CODE=admin123 `top_p`: 核采样参数
- `stream`: ` \
true` --name/`false` chatgpt-next 是否流 \
y式输出

###idada **a/chatg🚀 Pythonpt-next客户端-web示例：

python💡 Copy codefrom快速测试 openai import OpenAI

# 连接到脚本：**vLLM-Ascend
client = OpenAI(
base_url="http://11.131.74.76:8081/v1",
api_key="no-key-required" # vLLM不需要密钥
)

# 聊天对话
response = client.chat.completions.create(
model="qwen3-32b",
messages=[
{"role": "system", "content": "你是一个AI助手"},
{"role": "user", "content": "华为昇腾NPU有什么优势？"}
],
max_tokens=100,
temperature=0.7
)

print(response.choices[0].message.content)

🌐 Web界面配置：✅ NPU加速有效：推理速度快✅ 中文支持：完全支持中文输入输出✅ OpenAI兼容：完全兼容OpenAI API标准

💡 使用建议：

1. 对于开发：pythonCopy code# 使用官方的openai库
pip install openai

# 配置客户端
import openai
openai.api_base = "http://11.131.74.76:8081/v1"
openai.api_key = "no-key-required"

2. 对于测试：bashCopy code# 快速测试脚本
#!/bin/bash
API_URL="http://11.131.74.76:8081/v1"

curl -s "$API_URL/chat/completions" \
-H "Content-Type: application/json" \
-d "{
\"model\": \"qwen3-32b\",
\"messages\": [{\"role\": \"user\", \"content\": \"$1\"}],
\"max_tokens\": 100
}" | jq -r '.choices[0].message.content'

3. 对于集成：任何支持OpenAI API的应用都可以直接使用无需修改代码，只需更改API地址

⚠️ 注意事项：1.方法限制：某些端点只支持POST方法2.内容类型：必须设置Content-Type: application/json3.模型名称：当前只有qwen3-32b可用4.并发限制：根据NPU资源调整并发数

🎉 总结：
您的NPU加速AI服务已经完全就绪！🎯

访问地址：http://11.131.74.76:8081/v1
可用模型：qwen3-32b（32B参数，NPU加速）
API标准：完全兼容OpenAI API

现在您可以：1.直接使用API进行开发2.配置任何OpenAI兼容的Web界面3.集成到现有应用中4.享受华为昇腾NPU的高速推理！

需要我帮您配置具体的Web界面或测试其他功能吗？ 🚀

完美！服务现在正常运行了！

🌟 最终解决方案总结

✅ 已成功部署：

1. NPU加速AI服务：vLLM-Ascend：运行在8081端口模型：Qwen3-32B（32B参数）加速：华为昇腾910B NPU（8张卡）API标准：完全兼容OpenAI API

2. Web聊天界面：地址：http://11.131.74.76:3000/simple_ai_webui.html功能：完整的聊天界面，参数调节，历史管理部署：系统服务，自动启动

3. 验证测试：bashCopy code# 测试API
curl http://11.131.74.76:8081/v1/models

# 测试Web界面
curl -I http://11.131.74.76:3000/simple_ai_webui.html

🚀 访问方式：

方式1：Web聊天界面（推荐）Copy codehttp://11.131.74.76:3000/simple_ai_webui.html

方式2：直接API调用bashCopy codecurl http://11.131.74.76:8081/v1//completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"messages": [{"role": "user", "content": "你的问题"}],
"max_tokens": 100
}'

方式3：Python客户端pythonCopy codefrom openai import OpenAI

client = OpenAI(
base_url="http://11.131.74.76:8081/v1",
api_key="no-key-required"
)

🔧 管理命令：

查看服务状态：bashCopy code# WebUI服务
systemctl status ai-webui.service

# vLLM容器
docker ps | grep vllm

# NPU状态
npu-smi info

重启服务bashCopy code# WebUI
systemctl restart ai-webui.service

# vLLM容器
docker restart vllm-qwen3-32b

查看日志：bashCopy code# WebUI日志
journalctl -u ai-webui.service -f

# vLLM日志
docker logs vllm-qwen3-32b -f

💡 使用提示：

1.首次加载：模型较大，首次推理可能需要几秒钟2.并发限制：建议一次一个对话，避免NPU过载3.参数调节：温度：0.1-0.3（精确），0.7-0.9（创造性）最大token：50-500（根据需求）Top-P：0.9（平衡），0.5（更集中）

4.最佳实践：问题要具体明确复杂任务分解为多个问题使用系统提示词设定角色

🎯 现在您可以：

1.打开浏览器访问Web界面开始聊天2.集成到应用中使用API3.开发新功能基于OpenAI兼容接口4.享受NPU加速的高速推理体验

页面现在应该可以正常打开了！如果还有问题，请告诉我具体的错误信息，我会立即帮您解决！ 🚀

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍