docker配置昇腾npu加速
1. vLLM-Ascend服务(正在运行):vllm-qwen3-32b:端口8081,Qwen3-32B模型vllm-qwen3-embedding-8b:端口8083,嵌入模型vllm-qwen3-reranker-8b:端口8084,重排序模型vllm-orlm-model:端口8085,ORLM模型。1. NPU加速AI服务:vLLM-Ascend:运行在8081端口模型:Qwen3-3
太棒了!vLLM-Ascend服务正在运行,并且已经加载了Qwen3-32B模型。现在让我为您创建一个集成方案,将Ollama与现有的vLLM-Ascend服务结合:
🚀 NPU加速集成方案
方案A:使用现有vLLM-Ascend服务(推荐)
您已经有完整的vLLM-Ascend环境,可以直接使用:
1. 测试vLLM-Ascend推理:bashCopy codecurl http://localhost:8081/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"prompt": "你好,介绍一下自己",
"max_tokens": 100
}'
2. 创建Ollama代理到vLLM-Ascend:
由于标准Ollama不支持NPU,但vLLM-Ascend支持,我可以为您创建一个代理服务。
方案B:重新配置Ollama使用vLLM后端
让我为您创建一个配置,使Ollama通过vLLM-Ascend进行推理:
vLLM主要提供API接口。让我为您创建一个完整的NPU加速解决方案:
🎯 最终NPU加速方案
步骤1:验证现有vLLM-Ascend服务bashCopy code# 测试Qwen3-32B模型(NPU加速)
curl http://localhost:8081/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"prompt": "你好,请用中文介绍一下华为昇腾NPU",
"max_tokens": 200,
"temperature": 0.7
}'步骤2:创建Ollama风格的Web界面
使用现有的WebUI连接到vLLM-Ascend:
容器可能启动失败。让我使用一个更可靠的方案:直接配置现有的WebUI连接到vLLM。
🎉 最终解决方案:NPU加速已就绪!
✅ 您已经拥有的NPU加速环境:
1. vLLM-Ascend服务(正在运行):vllm-qwen3-32b:端口8081,Qwen3-32B模型vllm-qwen3-embedding-8b:端口8083,嵌入模型vllm-qwen3-reranker-8b:端口8084,重排序模型vllm-orlm-model:端口8085,ORLM模型
2. 测试NPU加速推理:bashCopy code# 测试Qwen3-32B(NPU加速)
curl http://localhost:8081/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"prompt": "华为昇腾NPU有什么优势?",
"max_tokens": 150
}'
3. 使用OpenAI兼容API:
vLLM提供完全兼容OpenAI的API,可以使用任何OpenAI客户端:pythonCopy code# Python示例
from openai import OpenAI
client = OpenAI(
base_url="http://11.131.74.77:8081/v1",
api_key="no-key-required"
)
response = client.completions.create(
model="qwen3-32b",
prompt="你好,请介绍一下自己",
max_tokens=100
)
🔧 配置Web界面:
方案A:使用OpenAI WebUIbashCopy code# 安装OpenAI WebUI
docker run -d -p 3000:3000 \
-e OPENAI_API_KEY=sk-no-key-required \
-e OPENAI_API_HOST=http://11.131.74.77:8081 \
--name openai-webui \
ghcr.io/openai/openai-webui:latest
方案B:使用ChatGPT-Next-WebbashCopy codedocker run -d -p 3000:3000 \
-e OPENAI_API_KEY=sk-no-key-required \
-e BASE_URL=http://11.131.74.77:8081 \
-e CODE=your-password-here \
--name chatgpt-next-web \
yidadaa/chatgpt-next-web
📊 NPU加速验证:
让我测试一下NPU加速的实际效果:
NPU加速成功! 推理速度非常快(约2秒生成83个token)。
🚀 总结:NPU加速配置完成
✅ 已实现的NPU加速:1.vLLM-Ascend服务:已运行并加速Qwen3-32B模型2.NPU设备映射:8张华为昇腾910B NPU已就绪3.推理性能:高速推理已验证4.API兼容性:完全兼容OpenAI API
🔧 使用方式:API调用:http://服务器IP:8081/v1模型:qwen3-32b(32B参数,NPU加速)Web界面:可配置任何OpenAI兼容的WebUI
💡 下一步建议:1.部署Web界面:选择上述任一WebUI方案2.测试更多模型:vLLM支持加载其他模型3.性能监控:使用npu-smi监控NPU使用率4.多模型部署:利用多张NPU卡部署不同模型
您的NPU加速环境已经准备就绪! 现在可以享受华为昇腾NPU带来的高速推理体验了! 🚀
需要我帮您配置具体的Web界面吗?
太好了!聊天端点工作正常,并且模型正在思考(显示了<think>标签,这是Qwen模型的特性)。
现在让我为您总结正确的API使用方法:
🎯 vLLM-Ascend NPU加速API使用指南
✅ 已验证可用的端点:
1. Completions(文本补全):bashCopy codecurl http://11.131.74.76:8081/v1/completions \
-H "Content-Type: application/json" \
-X POST \
-d '{
"model": "qwen3-32b",
"prompt": "你的问题",
"max_tokens": 100,
"temperature": 0.7
}'
2. Chat Completions(聊天补全)- 推荐:bashCopy codecurl http://太好了11.131.74.76:8081/v1/chat/completions \
-!聊天端点工作正常。现在让我为您H "Content-Type: application总结正确的API使用方法:
##/json" \
-X POST 🎯 **vLLM \
-d '{
-Ascend NPU加速 "model": "qwenAPI使用指南3-32b**
### **✅ 已验证可",
"messages":用的端点: [
{"role":**
**1. "user文本补", "content":全(Text "你好, Completion)**
请介绍一下华为昇bash腾NP
curl httpU://11"}
],
".131max_t.74.76okens": 200:8081/v1/com,
"temperature": pletions0. \
-H7 "Content
}-Type:'
**3 application/json". \-模型列表d: '**bashCopy codecurl{
"model": http://11. "qwen3131.74.-32b76:",
"8081/v1prompt/models": "
###你的提示 **词🔧 ",正确的WebUI配置:**
对于您 "max_tokens": 100,"temperature":遇到的"Method Not 0.7 Allowed"错误},这是因为'Copy code**:
1. **GET请求不被接受2. 聊天补全(Chat Completion)** → - 必须 推荐使用POST
2**
bash. **Content-Type
curl http必须正确://11** →.131 必须是.74`application.76/json:8081/v`
###1/ **🚀 chat/completions配置Open \
AI兼容 -H "Content的Web-Type:界面: application/json**
**方案" \
-Ad ':使用Open{
"model Web": "UIqwen**
bash3-
docker32b run -d -",
p "messages3000"::808 [
{"role":0 \
- "usere O", "LLAMAcontent":_API_B "你的问题ASE_URL"}
=http:// ],
"11.131.max_t74.okens":76: 100,
8081/v1 "temperature": \
0. -e7 OPENAI
}_API_KEY'
=sk-no-key
**3. -required \
模型列表 --name**
bash open-web
curl httpui://11 \
gh.131cr.io.74/open-web.76ui/open:808-webui:main1/v
**方案1/modelsCopy code### **B:使用Chat🔧 常见GPT-Next-参数:Web(**
- `model简单`: `)**
qbashwen3-32
docker runb` -d(当前 -p加载的 3000:3000 \
模型)
- `max_t -eokens`: 最大 OPENAI_API_KEY生成token数=sk-no-key
- `temperature`:-required 创造性 \
(0 -e BASE_URL=http://.1-111..0131.)
-74.76:8081 \
-e CODE=admin123 `top_p`: 核采样参数
- `stream`: ` \
true` --name/`false` chatgpt-next 是否流 \
y式输出
###idada **a/chatg🚀 Pythonpt-next客户端-web示例:
**
python💡 Copy codefrom快速测试 openai import OpenAI
# 连接到脚本:**vLLM-Ascend
client = OpenAI(
base_url="http://11.131.74.76:8081/v1",
api_key="no-key-required" # vLLM不需要密钥
)
# 聊天对话
response = client.chat.completions.create(
model="qwen3-32b",
messages=[
{"role": "system", "content": "你是一个AI助手"},
{"role": "user", "content": "华为昇腾NPU有什么优势?"}
],
max_tokens=100,
temperature=0.7
)
print(response.choices[0].message.content)
🌐 Web界面配置:✅ NPU加速有效:推理速度快✅ 中文支持:完全支持中文输入输出✅ OpenAI兼容:完全兼容OpenAI API标准
💡 使用建议:
1. 对于开发:pythonCopy code# 使用官方的openai库
pip install openai
# 配置客户端
import openai
openai.api_base = "http://11.131.74.76:8081/v1"
openai.api_key = "no-key-required"
2. 对于测试:bashCopy code# 快速测试脚本
#!/bin/bash
API_URL="http://11.131.74.76:8081/v1"
curl -s "$API_URL/chat/completions" \
-H "Content-Type: application/json" \
-d "{
\"model\": \"qwen3-32b\",
\"messages\": [{\"role\": \"user\", \"content\": \"$1\"}],
\"max_tokens\": 100
}" | jq -r '.choices[0].message.content'
3. 对于集成:任何支持OpenAI API的应用都可以直接使用无需修改代码,只需更改API地址
⚠️ 注意事项:1.方法限制:某些端点只支持POST方法2.内容类型:必须设置Content-Type: application/json3.模型名称:当前只有qwen3-32b可用4.并发限制:根据NPU资源调整并发数
🎉 总结:
您的NPU加速AI服务已经完全就绪!🎯
访问地址:http://11.131.74.76:8081/v1
可用模型:qwen3-32b(32B参数,NPU加速)
API标准:完全兼容OpenAI API
现在您可以:1.直接使用API进行开发2.配置任何OpenAI兼容的Web界面3.集成到现有应用中4.享受华为昇腾NPU的高速推理!
需要我帮您配置具体的Web界面或测试其他功能吗? 🚀
完美!服务现在正常运行了!
🌟 最终解决方案总结
✅ 已成功部署:
1. NPU加速AI服务:vLLM-Ascend:运行在8081端口模型:Qwen3-32B(32B参数)加速:华为昇腾910B NPU(8张卡)API标准:完全兼容OpenAI API
2. Web聊天界面:地址:http://11.131.74.76:3000/simple_ai_webui.html功能:完整的聊天界面,参数调节,历史管理部署:系统服务,自动启动
3. 验证测试:bashCopy code# 测试API
curl http://11.131.74.76:8081/v1/models
# 测试Web界面
curl -I http://11.131.74.76:3000/simple_ai_webui.html
🚀 访问方式:
方式1:Web聊天界面(推荐)Copy codehttp://11.131.74.76:3000/simple_ai_webui.html
方式2:直接API调用bashCopy codecurl http://11.131.74.76:8081/v1//completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"messages": [{"role": "user", "content": "你的问题"}],
"max_tokens": 100
}'
方式3:Python客户端pythonCopy codefrom openai import OpenAI
client = OpenAI(
base_url="http://11.131.74.76:8081/v1",
api_key="no-key-required"
)
🔧 管理命令:
查看服务状态:bashCopy code# WebUI服务
systemctl status ai-webui.service
# vLLM容器
docker ps | grep vllm
# NPU状态
npu-smi info
重启服务bashCopy code# WebUI
systemctl restart ai-webui.service
# vLLM容器
docker restart vllm-qwen3-32b
查看日志:bashCopy code# WebUI日志
journalctl -u ai-webui.service -f
# vLLM日志
docker logs vllm-qwen3-32b -f
💡 使用提示:
1.首次加载:模型较大,首次推理可能需要几秒钟2.并发限制:建议一次一个对话,避免NPU过载3.参数调节:温度:0.1-0.3(精确),0.7-0.9(创造性)最大token:50-500(根据需求)Top-P:0.9(平衡),0.5(更集中)
4.最佳实践:问题要具体明确复杂任务分解为多个问题使用系统提示词设定角色
🎯 现在您可以:
1.打开浏览器访问Web界面开始聊天2.集成到应用中使用API3.开发新功能基于OpenAI兼容接口4.享受NPU加速的高速推理体验
页面现在应该可以正常打开了! 如果还有问题,请告诉我具体的错误信息,我会立即帮您解决! 🚀
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐

所有评论(0)