太棒了!vLLM-Ascend服务正在运行,并且已经加载了Qwen3-32B模型。现在让我为您创建一个集成方案,将Ollama与现有的vLLM-Ascend服务结合:

🚀 NPU加速集成方案

方案A:使用现有vLLM-Ascend服务(推荐)
您已经有完整的vLLM-Ascend环境,可以直接使用:

1. 测试vLLM-Ascend推理:bashCopy codecurl http://localhost:8081/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32b",
    "prompt": "你好,介绍一下自己",
    "max_tokens": 100
  }'

2. 创建Ollama代理到vLLM-Ascend:
由于标准Ollama不支持NPU,但vLLM-Ascend支持,我可以为您创建一个代理服务。

方案B:重新配置Ollama使用vLLM后端

让我为您创建一个配置,使Ollama通过vLLM-Ascend进行推理:

vLLM主要提供API接口。让我为您创建一个完整的NPU加速解决方案:

🎯 最终NPU加速方案

步骤1:验证现有vLLM-Ascend服务bashCopy code# 测试Qwen3-32B模型(NPU加速)
curl http://localhost:8081/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32b",
    "prompt": "你好,请用中文介绍一下华为昇腾NPU",
    "max_tokens": 200,
    "temperature": 0.7
  }'步骤2:创建Ollama风格的Web界面
使用现有的WebUI连接到vLLM-Ascend:

容器可能启动失败。让我使用一个更可靠的方案:直接配置现有的WebUI连接到vLLM。

🎉 最终解决方案:NPU加速已就绪!

✅ 您已经拥有的NPU加速环境:

1. vLLM-Ascend服务(正在运行):vllm-qwen3-32b:端口8081,Qwen3-32B模型vllm-qwen3-embedding-8b:端口8083,嵌入模型vllm-qwen3-reranker-8b:端口8084,重排序模型vllm-orlm-model:端口8085,ORLM模型

2. 测试NPU加速推理:bashCopy code# 测试Qwen3-32B(NPU加速)
curl http://localhost:8081/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32b",
    "prompt": "华为昇腾NPU有什么优势?",
    "max_tokens": 150
  }'

3. 使用OpenAI兼容API:
vLLM提供完全兼容OpenAI的API,可以使用任何OpenAI客户端:pythonCopy code# Python示例
from openai import OpenAI

client = OpenAI(
    base_url="http://11.131.74.77:8081/v1",
    api_key="no-key-required"
)

response = client.completions.create(
    model="qwen3-32b",
    prompt="你好,请介绍一下自己",
    max_tokens=100
)

🔧 配置Web界面:

方案A:使用OpenAI WebUIbashCopy code# 安装OpenAI WebUI
docker run -d -p 3000:3000 \
  -e OPENAI_API_KEY=sk-no-key-required \
  -e OPENAI_API_HOST=http://11.131.74.77:8081 \
  --name openai-webui \
  ghcr.io/openai/openai-webui:latest

方案B:使用ChatGPT-Next-WebbashCopy codedocker run -d -p 3000:3000 \
  -e OPENAI_API_KEY=sk-no-key-required \
  -e BASE_URL=http://11.131.74.77:8081 \
  -e CODE=your-password-here \
  --name chatgpt-next-web \
  yidadaa/chatgpt-next-web

📊 NPU加速验证:

让我测试一下NPU加速的实际效果:

NPU加速成功! 推理速度非常快(约2秒生成83个token)。

🚀 总结:NPU加速配置完成

✅ 已实现的NPU加速:1.vLLM-Ascend服务:已运行并加速Qwen3-32B模型2.NPU设备映射:8张华为昇腾910B NPU已就绪3.推理性能:高速推理已验证4.API兼容性:完全兼容OpenAI API

🔧 使用方式:API调用:http://服务器IP:8081/v1模型:qwen3-32b(32B参数,NPU加速)Web界面:可配置任何OpenAI兼容的WebUI

💡 下一步建议:1.部署Web界面:选择上述任一WebUI方案2.测试更多模型:vLLM支持加载其他模型3.性能监控:使用npu-smi监控NPU使用率4.多模型部署:利用多张NPU卡部署不同模型

您的NPU加速环境已经准备就绪! 现在可以享受华为昇腾NPU带来的高速推理体验了! 🚀

需要我帮您配置具体的Web界面吗?

太好了!聊天端点工作正常,并且模型正在思考(显示了<think>标签,这是Qwen模型的特性)。

现在让我为您总结正确的API使用方法:

🎯 vLLM-Ascend NPU加速API使用指南

✅ 已验证可用的端点:

1. Completions(文本补全):bashCopy codecurl http://11.131.74.76:8081/v1/completions \
  -H "Content-Type: application/json" \
  -X POST \
  -d '{
    "model": "qwen3-32b",
    "prompt": "你的问题",
    "max_tokens": 100,
    "temperature": 0.7
  }'

2. Chat Completions(聊天补全)- 推荐:bashCopy codecurl http://太好了11.131.74.76:8081/v1/chat/completions \
  -!聊天端点工作正常。现在让我为您H "Content-Type: application总结正确的API使用方法:

##/json" \
  -X POST 🎯 **vLLM \
  -d '{
   -Ascend NPU加速 "model": "qwenAPI使用指南3-32b**

### **✅ 已验证可",
    "messages":用的端点: [
      {"role":**

**1.  "user文本补", "content":全(Text "你好, Completion)**
请介绍一下华为昇bash腾NP
curl httpU://11"}
    ],
    ".131max_t.74.76okens": 200:8081/v1/com,
    "temperature": pletions0. \
  -H7 "Content
  }-Type:'

**3 application/json".  \-模型列表d: '**bashCopy codecurl{
    "model": http://11. "qwen3131.74.-32b76:",
    "8081/v1prompt/models": "

###你的提示 **词🔧 ",正确的WebUI配置:**

对于您 "max_tokens": 100,"temperature":遇到的"Method Not 0.7 Allowed"错误},这是因为'Copy code**:
1. **GET请求不被接受2. 聊天补全(Chat Completion)** → - 必须 推荐使用POST
2**
bash. **Content-Type
curl http必须正确://11** →.131 必须是.74`application.76/json:8081/v`

###1/ **🚀 chat/completions配置Open \
 AI兼容 -H "Content的Web-Type:界面: application/json**

**方案" \
  -Ad ':使用Open{
    "model Web": "UIqwen**
bash3-
docker32b run -d -",
   p  "messages3000"::808 [
      {"role":0 \
  - "usere O", "LLAMAcontent":_API_B "你的问题ASE_URL"}
   =http:// ],
    "11.131.max_t74.okens":76: 100,
   8081/v1 "temperature":  \
 0. -e7 OPENAI
  }_API_KEY'
=sk-no-key

**3. -required \
 模型列表 --name**
bash open-web
curl httpui://11 \
  gh.131cr.io.74/open-web.76ui/open:808-webui:main1/v

**方案1/modelsCopy code### **B:使用Chat🔧 常见GPT-Next-参数:Web(**
- `model简单`: `)**
qbashwen3-32
docker runb` -d(当前 -p加载的 3000:3000 \
 模型)
- `max_t -eokens`: 最大 OPENAI_API_KEY生成token数=sk-no-key
- `temperature`:-required 创造性 \
 (0 -e BASE_URL=http://.1-111..0131.)
-74.76:8081 \
  -e CODE=admin123 `top_p`: 核采样参数
- `stream`: ` \
 true` --name/`false` chatgpt-next 是否流 \
  y式输出

###idada **a/chatg🚀 Pythonpt-next客户端-web示例:

**

python💡 Copy codefrom快速测试 openai import OpenAI

# 连接到脚本:**vLLM-Ascend
client = OpenAI(
    base_url="http://11.131.74.76:8081/v1",
    api_key="no-key-required"  # vLLM不需要密钥
)

# 聊天对话
response = client.chat.completions.create(
    model="qwen3-32b",
    messages=[
        {"role": "system", "content": "你是一个AI助手"},
        {"role": "user", "content": "华为昇腾NPU有什么优势?"}
    ],
    max_tokens=100,
    temperature=0.7
)

print(response.choices[0].message.content)

🌐 Web界面配置:✅ NPU加速有效:推理速度快✅ 中文支持:完全支持中文输入输出✅ OpenAI兼容:完全兼容OpenAI API标准

💡 使用建议:

1. 对于开发:pythonCopy code# 使用官方的openai库
pip install openai

# 配置客户端
import openai
openai.api_base = "http://11.131.74.76:8081/v1"
openai.api_key = "no-key-required"

2. 对于测试:bashCopy code# 快速测试脚本
#!/bin/bash
API_URL="http://11.131.74.76:8081/v1"

curl -s "$API_URL/chat/completions" \
  -H "Content-Type: application/json" \
  -d "{
    \"model\": \"qwen3-32b\",
    \"messages\": [{\"role\": \"user\", \"content\": \"$1\"}],
    \"max_tokens\": 100
  }" | jq -r '.choices[0].message.content'

3. 对于集成:任何支持OpenAI API的应用都可以直接使用无需修改代码,只需更改API地址

⚠️ 注意事项:1.方法限制:某些端点只支持POST方法2.内容类型:必须设置Content-Type: application/json3.模型名称:当前只有qwen3-32b可用4.并发限制:根据NPU资源调整并发数

🎉 总结:
您的NPU加速AI服务已经完全就绪!🎯

访问地址:http://11.131.74.76:8081/v1
可用模型:qwen3-32b(32B参数,NPU加速)
API标准:完全兼容OpenAI API

现在您可以:1.直接使用API进行开发2.配置任何OpenAI兼容的Web界面3.集成到现有应用中4.享受华为昇腾NPU的高速推理!

需要我帮您配置具体的Web界面或测试其他功能吗? 🚀

完美!服务现在正常运行了!

🌟 最终解决方案总结

✅ 已成功部署:

1. NPU加速AI服务:vLLM-Ascend:运行在8081端口模型:Qwen3-32B(32B参数)加速:华为昇腾910B NPU(8张卡)API标准:完全兼容OpenAI API

2. Web聊天界面:地址:http://11.131.74.76:3000/simple_ai_webui.html功能:完整的聊天界面,参数调节,历史管理部署:系统服务,自动启动

3. 验证测试:bashCopy code# 测试API
curl http://11.131.74.76:8081/v1/models

# 测试Web界面
curl -I http://11.131.74.76:3000/simple_ai_webui.html

🚀 访问方式:

方式1:Web聊天界面(推荐)Copy codehttp://11.131.74.76:3000/simple_ai_webui.html

方式2:直接API调用bashCopy codecurl http://11.131.74.76:8081/v1//completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32b",
    "messages": [{"role": "user", "content": "你的问题"}],
    "max_tokens": 100
  }'

方式3:Python客户端pythonCopy codefrom openai import OpenAI

client = OpenAI(
    base_url="http://11.131.74.76:8081/v1",
    api_key="no-key-required"
)

🔧 管理命令:

查看服务状态:bashCopy code# WebUI服务
systemctl status ai-webui.service

# vLLM容器
docker ps | grep vllm

# NPU状态
npu-smi info

重启服务bashCopy code# WebUI
systemctl restart ai-webui.service

# vLLM容器
docker restart vllm-qwen3-32b

查看日志:bashCopy code# WebUI日志
journalctl -u ai-webui.service -f

# vLLM日志
docker logs vllm-qwen3-32b -f

💡 使用提示:

1.首次加载:模型较大,首次推理可能需要几秒钟2.并发限制:建议一次一个对话,避免NPU过载3.参数调节:温度:0.1-0.3(精确),0.7-0.9(创造性)最大token:50-500(根据需求)Top-P:0.9(平衡),0.5(更集中)

4.最佳实践:问题要具体明确复杂任务分解为多个问题使用系统提示词设定角色

🎯 现在您可以:

1.打开浏览器访问Web界面开始聊天2.集成到应用中使用API3.开发新功能基于OpenAI兼容接口4.享受NPU加速的高速推理体验

页面现在应该可以正常打开了! 如果还有问题,请告诉我具体的错误信息,我会立即帮您解决! 🚀

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐