8卡华为昇腾910b使用docker部署千问2.5模型

本文介绍了在openEuler系统上使用Docker安装Ollama大语言模型服务的完整方案。主要内容包括：1）通过npu-smi命令查看8个NPU设备状态；2）提供三种安装方案（推荐Docker方式）；3）详细说明Docker安装步骤及验证方法；4）给出基本使用命令和API调用示例；5）建议添加GPU加速参数以提升性能。安装完成后，可通过11434端口访问服务，模型数据持久化存储在Docker卷

上善若水1987

577人浏览 · 2026-02-23 23:43:36

上善若水1987 · 2026-02-23 23:43:36 发布

(base) [root@localhost ~]# npu-smi info
+------------------------------------------------------------------------------------------------+
| npu-smi 25.5.0 Version: 25.5.0 |
+---------------------------+---------------+----------------------------------------------------+
| NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page)|
| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) |
+===========================+===============+====================================================+
| 0 910B4-1 | OK | 94.8 34 0 / 0 |
| 0 | 0000:C1:00.0 | 0 0 / 0 61280/ 65536 |
+===========================+===============+====================================================+
| 1 910B4-1 | OK | 98.2 33 0 / 0 |
| 0 | 0000:C2:00.0 | 0 0 / 0 61267/ 65536 |
+===========================+===============+====================================================+
| 2 910B4-1 | OK | 89.7 32 0 / 0 |
| 0 | 0000:81:00.0 | 0 0 / 0 3415 / 65536 |
+===========================+===============+====================================================+
| 3 910B4-1 | OK | 88.3 34 0 / 0 |
| 0 | 0000:82:00.0 | 0 0 / 0 3415 / 65536 |
+===========================+===============+====================================================+
| 4 910B4-1 | OK | 92.3 39 0 / 0 |
| 0 | 0000:01:00.0 | 0 0 / 0 56135/ 65536 |
+===========================+===============+====================================================+
| 5 910B4-1 | OK | 88.6 38 0 / 0 |
| 0 | 0000:02:00.0 | 0 0 / 0 59055/ 65536 |
+===========================+===============+====================================================+
| 6 910B4-1 | OK | 93.9 37 0 / 0 |
| 0 | 0000:41:00.0 | 0 0 / 0 64387/ 65536 |
+===========================+===============+====================================================+
| 7 910B4-1 | OK | 89.5 37 0 / 0 |
| 0 | 0000:42:00.0 | 0 0 / 0 56755/ 65536 |
+===========================+===============+====================================================+
+---------------------------+---------------+----------------------------------------------------+
| NPU Chip | Process id | Process name | Process memory(MB) |
+===========================+===============+====================================================+
| 0 0 | 1403184 | VLLMWorker_TP | 121 |
| 0 0 | 2767306 | llamafactory-cl | 121 |
| 0 0 | 1403183 | VLLMWorker_TP | 57629 |
+===========================+===============+====================================================+
| 1 0 | 1403184 | VLLMWorker_TP | 57757 |
+===========================+===============+====================================================+
| No running processes found in NPU 2 |
+===========================+===============+====================================================+
| No running processes found in NPU 3 |
+===========================+===============+====================================================+
| 4 0 | 1400225 | VLLMEngineCor | 52637 |
+===========================+===============+====================================================+
| 5 0 | 1399660 | VLLMEngineCor | 55561 |
+===========================+===============+====================================================+
| 6 0 | 1406814 | VLLMEngineCor | 60877 |
+===========================+===============+====================================================+
| 7 0 | 1406350 | VLLMEngineCor | 53261 |
+===========================+===============+====================================================+

太好了！Docker已经安装并且运行正常。现在让我为您提供几种安装Ollama的方案：

📋 安装方案对比

方案A：Docker安装（推荐）
最简单快捷，无需处理依赖问题：bashCopy code# 拉取Ollama Docker镜像
docker pull ollama/ollama

# 运行Ollama容器
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

方案B：手动下载二进制文件
如果网络允许，可以直接下载二进制文件：bashCopy code# 下载Linux版本的Ollama
curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama
chmod +x /usr/local/bin/ollama

方案C：使用包管理器
对于openEuler系统，可以尝试：bashCopy code# 添加第三方仓库（如果可用）
# 或者从源码编译

🚀 推荐执行方案

我建议使用Docker方案，因为：1.✅ 无需处理复杂的依赖关系2.✅ 隔离性好，不影响现有服务3.✅ 易于管理和升级4.✅ 您已经有成熟的Docker环境

要使用Docker安装Ollama，请执行：

docker pull ollama/ollama

太好了！镜像已经成功拉取。现在让我创建并运行Ollama容器：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

完美！Ollama容器已经成功启动。让我验证一下服务是否正常运行：

docker ps | grep ollama

curl -s http://localhost:11434/api/tags

安装成功！

Ollama已经通过Docker成功安装并运行！以下是安装总结：

✅ 已完成的操作：1.拉取镜像：成功下载了最新的Ollama Docker镜像2.创建容器：使用数据卷持久化存储模型数据3.端口映射：将容器11434端口映射到宿主机11434端口4.服务验证：API接口已正常响应

📊 当前状态：容器名称：ollama运行状态：正常访问地址：http://localhost:11434 或 http://服务器IP:11434数据存储：使用Docker卷 ollama 持久化存储

🔧 基本使用方法：

1. 拉取模型：bashCopy codedocker exec ollama ollama pull llama3.2

2. 运行模型：bashCopy codedocker exec ollama ollama run llama3.2

3. 查看已安装模型：bashCopy codedocker exec ollama ollama list

4. 通过API调用：bashCopy codecurl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "你好，介绍一下自己"
}'

💡 高级配置建议：
如果您需要GPU加速（NPU），可以添加 --gpus all 参数重新运行容器：bashCopy codedocker stop ollama
docker rm ollama
docker run -d -v ollama:/root/.ollama -p 11434:11434 --gpus all --name ollama ollama/ollama

现在您可以开始使用Ollama来运行各种大语言模型了！有什么特定的模型您想要安装吗？

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍