深求·墨鉴部署教程：国产昇腾910B平台适配DeepSeek-OCR-2 CANN加速方案

本文介绍了如何在星图GPU平台上自动化部署🖋️ 深求·墨鉴 (DeepSeek-OCR-2)镜像，实现高效文档识别。该平台简化了部署流程，用户可快速搭建基于昇腾910B的OCR服务，轻松应用于古籍数字化、会议纪要整理等场景，提升文档处理效率。

小鹿嘻嘻

83人浏览 · 2026-03-13 02:29:45

小鹿嘻嘻 · 2026-03-13 02:29:45 发布

深求·墨鉴部署教程：国产昇腾910B平台适配DeepSeek-OCR-2 CANN加速方案

1. 引言

想象一下，你手边有一叠泛黄的纸质古籍，或者一份急需整理成电子版的会议纪要。传统的方法是手动打字录入，耗时耗力，还容易出错。现在，有一款工具能像一位技艺精湛的书法家，将图片上的文字“誊写”成工整的电子文档，整个过程还充满了水墨画般的优雅体验。这就是「深求·墨鉴」。

它基于强大的DeepSeek-OCR-2模型，不仅能高精度识别文字，还能理解表格、公式等复杂排版。更重要的是，它专为昇腾910B这样的国产AI计算平台进行了深度优化，通过华为CANN加速库，让OCR识别变得又快又稳。

本教程将带你从零开始，在昇腾910B平台上部署并运行「深求·墨鉴」，让你亲身体验这份科技与美学交融的文档解析艺术。

2. 环境准备与平台介绍

在开始动手之前，我们先来了解一下这次部署的“舞台”——昇腾910B平台，以及需要准备哪些“道具”。

2.1 昇腾910B平台与CANN简介

昇腾910B是华为推出的高性能AI处理器，专门为深度学习训练和推理设计。它就像是AI计算的“超级引擎”，而CANN（Compute Architecture for Neural Networks）则是驱动这个引擎的“操作系统”和“变速箱”。

简单来说，CANN是一套软件栈，它能把我们用PyTorch或TensorFlow写的AI模型，高效地“翻译”成昇腾芯片能理解并快速执行的指令。没有CANN，再好的模型在昇腾芯片上也跑不起来。

选择昇腾910B部署「深求·墨鉴」有几个好处：

自主可控：核心算力平台掌握在自己手中。
高性能：针对视觉、NLP等AI任务有专门的硬件优化，推理速度快。
生态成熟：CANN和配套工具链不断完善，部署AI应用越来越方便。

2.2 系统与软件要求

为了让部署过程顺利，请确保你的昇腾服务器满足以下条件：

硬件与操作系统：

硬件：搭载昇腾910B AI处理器的服务器或 Atlas 系列产品。
操作系统：Ubuntu 18.04/20.04 LTS 或 CentOS 7.6/8.2（推荐使用官方验证过的版本）。
驱动：已正确安装昇腾AI处理器的驱动。

关键软件依赖：

Python: 版本 3.7 到 3.9。
CANN 工具包: 这是核心。你需要从华为昇腾社区下载对应你操作系统和910B芯片的CANN安装包（例如 CANN 6.0.RC1 或更新版本）。安装后，需要设置环境变量。
PyTorch (Ascend版本): 普通的PyTorch无法直接调用昇腾芯片。必须安装华为适配的PyTorch版本。这个版本通常包含在CANN套件中，或者可以在昇腾社区找到。
其他Python库: 比如OpenCV用于图片处理，Flask或Gradio用于构建Web界面（如果「深求·墨鉴」自带Web服务）。

检查环境是否就绪： 打开终端，可以依次运行以下命令进行基础检查：

# 检查Python版本
python3 --version

# 检查CANN环境变量是否设置（路径可能因安装而异）
echo $ASCEND_HOME

# 尝试导入torch，并查看是否支持ascend后端（安装华为PyTorch后）
python3 -c "import torch; print(f'PyTorch version: {torch.__version__}'); print(f'Available backends: {torch.__backends__}')"

如果这些检查都通过了，那么你的基础环境就已经准备好了。

3. 获取与部署深求·墨鉴

环境准备好后，我们就可以请出今天的主角了。

3.1 获取项目代码

「深求·墨鉴」的项目代码通常托管在代码仓库中。我们通过 git 命令来获取它。

# 克隆项目仓库到本地（请替换为实际仓库地址）
git clone https://your-code-repo.com/deepseek-ocr-inkstone.git
cd deepseek-ocr-inkstone

# 查看项目结构
ls -la

一个典型的项目目录可能包含以下内容：

README.md: 项目说明文档。
requirements.txt: Python依赖包列表。
app.py 或 main.py: 应用程序的主入口文件。
models/: 存放DeepSeek-OCR-2模型文件的目录。
utils/, configs/: 工具脚本和配置文件目录。

3.2 安装Python依赖

项目运行需要一系列Python库的支持。使用 pip 根据 requirements.txt 文件一键安装是最方便的方法。

# 安装项目所需的所有依赖包
pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：如果项目依赖中包含 torch，并且你已经安装了华为适配的Ascend版本PyTorch，这里可能会冲突。通常的解决方法是，先安装华为PyTorch，然后注释掉 requirements.txt 中的 torch 行，再运行上述安装命令。

3.3 下载与转换模型权重

DeepSeek-OCR-2是一个预训练好的模型。我们需要下载它的权重文件（通常是一个 .pth 或 .ckpt 文件）。有时，直接从PyTorch格式的权重在昇腾上运行效率不是最优的，我们需要利用CANN工具将其转换成更高效的格式（称为OM模型）。

步骤1：下载原始模型权重 根据项目README的指引，从指定的源（如ModelScope、Hugging Face或项目提供的链接）下载模型权重文件，并放置到 models/ 目录下。

步骤2：模型转换（关键步骤） 这是适配昇腾平台的核心环节。我们使用CANN提供的 atc 工具将PyTorch模型转换为昇腾专用的OM模型。

# 示例命令，参数需要根据实际模型结构调整
atc --model=./models/deepseek_ocr_2.onnx \ # 输入模型，通常需要先将.pth转为.onnx
    --framework=5 \                         # 5代表ONNX
    --output=./models/deepseek_ocr_2_910b \ # 输出OM模型路径和前缀
    --soc_version=Ascend910B \              # 指定芯片型号
    --input_format=NCHW \                   # 输入数据格式
    --input_shape="actual_input_1:1,3,224,224" \ # 定义输入张量形状（示例，需修改）
    --log=info

这个过程可能需要模型开发者提供详细的输入输出节点名、形状等信息。如果项目已经提供了转换好的OM模型或转换脚本，那将大大简化这一步。

4. 配置与运行应用

模型就位，代码在手，现在让我们把它运行起来。

4.1 修改配置文件

大多数AI应用都会有一个配置文件，用来设置模型路径、服务端口、图片预处理参数等。我们需要找到并修改它，确保它指向我们转换好的OM模型，并且配置符合昇腾环境。

通常配置文件叫 config.yaml 或 settings.py。你需要打开它，找到类似下面的配置项进行修改：

# config.yaml 示例
model:
  # 将原来的 .pth 路径改为 .om 模型路径
  checkpoint_path: "./models/deepseek_ocr_2_910b.om"
  engine: "ascend" # 指定推理引擎为昇腾

server:
  host: "0.0.0.0"
  port: 7860 # Gradio常用端口

preprocess:
  image_size: [224, 224] # 根据模型要求调整

4.2 编写适配昇腾的推理代码

如果项目的原始代码是为GPU（CUDA）编写的，我们需要对其进行一些小修改，使其能调用昇腾NPU进行计算。

主要修改点通常在主模型的加载和推理部分：

# 原始GPU代码可能长这样：
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.load_state_dict(torch.load('model.pth'))
model.to(device)

# 修改为适配Ascend的代码：
import torch
import torch_npu # 这是华为PyTorch扩展库

# 检查Ascend设备
if torch.npu.is_available():
    device = torch.device('npu:0') # 使用第一个NPU设备
    print("Using Ascend NPU for acceleration.")
else:
    device = torch.device('cpu')
    print("Ascend NPU not available, using CPU.")

# 加载模型（如果是OM模型，加载方式可能不同，需参考CANN样例）
# 假设我们使用华为提供的推理接口（ACL）或封装好的推理框架
model = load_om_model('./models/deepseek_ocr_2_910b.om')

具体的加载和推理API需要参考华为CANN的官方文档和示例代码。有时项目作者已经做好了适配，我们只需要在配置中切换一下引擎选项。

4.3 启动应用

一切配置妥当后，就可以启动「深求·墨鉴」服务了。

# 通常启动命令如下（以使用Gradio构建的Web UI为例）
python3 app.py

# 或者如果使用生产级服务器，如搭配Gunicorn
gunicorn -w 2 -b 0.0.0.0:7860 app:app

启动成功后，终端会输出服务运行的地址，通常是 http://服务器IP地址:7860。用浏览器打开这个地址，你就能看到「深求·墨鉴」那充满水墨韵味的界面了。

5. 使用体验与效果验证

服务跑起来了，是骡子是马，拉出来遛遛。我们来实际体验一下，看看在昇腾910B加持下的「深求·墨鉴」表现如何。

5.1 基本功能测试

上传图片：在Web界面中，点击“卷轴入画”区域，上传一张包含清晰文字的图片（比如一页书、一份打印的文件）。
启动识别：点击红色的「研墨启笔」按钮。
查看结果：稍等片刻（速度取决于图片复杂度和模型优化程度），你会在“墨影初现”区域看到识别出的、排版优美的文字，在“经纬原典”区域看到对应的Markdown源码，在“笔触留痕”区域看到模型识别出的文字框。

你可以测试不同类型的图片：

纯文本文档：检查文字识别的准确率和标点符号的正确性。
简单表格：看它能否正确区分表格线和文字，并生成对应的Markdown表格语法。
混合排版（图文）：观察它如何处理图片周围的文字环绕。

5.2 性能观察与对比

这是本次部署的重点。在体验功能的同时，关注以下几点：

推理速度：从点击按钮到出结果，耗时多少？可以尝试用不同大小和复杂度的图片多次测试，感受一下速度。由于使用了CANN加速和OM模型，理论上应该比在CPU上运行快很多，与高端GPU的体验接近。
资源占用：通过 npu-smi 命令（类似于GPU的 nvidia-smi）查看昇腾910B芯片的利用率、内存占用和功耗。这能直观反映CANN优化是否有效，模型是否在高效地利用硬件。
识别精度：这是模型本身的能力。DeepSeek-OCR-2作为先进模型，在印刷体、常见字体上的识别精度应该很高。重点关注在昇腾平台上运行，精度是否与官方报告或GPU上运行的结果一致。

一个简单的速度测试思路： 准备一组（如10张）标准测试图片，记录在昇腾910B上运行的总时间，并与在CPU或其它平台上运行的时间进行粗略对比。你会发现，对于OCR这种计算密集型的任务，专用AI芯片带来的加速效果是非常显著的。

6. 常见问题与优化建议

第一次部署难免会遇到问题，这里汇总一些可能的情况和解决办法。

6.1 部署常见问题

问题：导入 torch_npu 失败或 torch.npu 不可用。
- 解决：这通常意味着华为Ascend版本的PyTorch没有正确安装。请确认你安装的是从昇腾社区获取的特定版本PyTorch，并且安装了对应的 torch_npu 包。重新检查安装步骤和环境变量（如 LD_LIBRARY_PATH 是否包含了CANN的库路径）。
问题：运行 atc 命令转换模型失败，报错信息模糊。
- 解决：模型转换是最容易出错的环节。首先确保输入模型（ONNX）是正确的。仔细核对 atc 命令中的每一个参数，特别是 --input_shape，必须与模型定义完全一致。查看详细的日志文件（--log=debug 级别），根据错误信息搜索华为昇腾社区的解决方案。
问题：应用启动后，访问Web界面报错或无法识别图片。
- 解决：
  1. 检查服务是否真的在运行（ps aux | grep python）。
  2. 检查防火墙是否放行了服务端口（如7860）。
  3. 查看应用的后台日志，通常会有更详细的错误信息。可能是模型加载路径错误、预处理代码不兼容，或缺少某个依赖库。

6.2 性能优化建议

如果部署成功但感觉速度不够理想，可以尝试以下优化方向：

模型量化：使用CANN工具将FP32精度的OM模型转换为INT8精度。这通常会大幅提升推理速度，并降低内存占用，而对精度的影响在可接受范围内。命令类似 atc ... --precision_mode=allow_fp32_to_int8。
批处理（Batch Inference）：如果业务场景中需要连续处理多张图片，可以修改代码，支持一次传入一个批次的图片给模型推理，这比一张一张处理要高效得多。
AIPP（AI Pre-Processing）配置：在 atc 模型转换时，通过 --insert_op_conf 参数引入AIPP配置文件，将图片缩放、归一化等预处理操作放到AI芯片上执行，减少CPU和AI芯片之间的数据搬运，提升整体流水线效率。
使用AscendGraph：对于极其复杂的模型，可以尝试使用华为提供的AscendGraph图优化工具，对计算图进行更深层次的融合和优化。

7. 总结

通过这篇教程，我们完成了一次完整的AI应用国产化迁移实践：将基于DeepSeek-OCR-2的「深求·墨鉴」部署到了昇腾910B平台。

整个过程的核心可以概括为三步：准备昇腾环境（CANN+PyTorch）、转换模型格式（ATC工具）、适配并运行应用。我们不仅让这个优雅的文档解析工具运行了起来，还通过CANN加速库，充分释放了国产AI硬件的算力潜力，实现了高效、自主可控的OCR服务。

「深求·墨鉴」本身将冰冷的OCR技术赋予了水墨艺术的美感，而在昇腾平台上的部署，则为其注入了强劲的“中国芯”。这不仅仅是技术的部署，更是一次关于效率、自主与美学结合的探索。

希望这篇教程能为你打开一扇窗，看到在国产AI基础设施上构建和运行先进AI应用的可行性与巨大潜力。现在，你可以开始用你部署好的「深求·墨鉴」，去优雅地处理那些堆积如山的文档了。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍