从算子到框架：我的CANN算子集成实战之路

2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。

程序员清洒

656人浏览 · 2025-11-03 18:48:25

程序员清洒 · 2025-11-03 18:48:25 发布

在这里插入图片描述

训练营简介

报名链接：https://www.hiascend.com/developer/activities/cann20252

前言

经过几个月的算子优化工作，我写出了性能不错的Conv2D、MatMul、Softmax等算子。但一个新的问题摆在面前：怎样让这些算子真正为业务所用？

我很快发现，从孤立的算子开发到被框架调用，中间还隔着一个很大的鸿沟。这篇文章记录了我如何跨越这个鸿沟的过程。

第一个困境：算子的"孤岛问题"

发现问题

完成了若干高性能算子后，我想把它们应用到实际的模型中。我自信地拿着优化好的Conv2D算子去替换PyTorch模型中的conv2d层，结果… 直接crash了。🔥

深度剖析根本原因

花了整整一天时间调试，我才明白问题的本质：

问题1：数据格式不匹配
PyTorch用NCHW格式的张量，但我的算子内部处理的是特殊的块格式。两者之间的转换不仅耗时，还容易出错。

问题2：动态shape支持不足
训练模型时batch size经常变化，但我的算子是针对固定尺寸优化的。遇到不同尺寸就要重新计算分块方案，太复杂了。

问题3：缺少梯度支持
推理还好说，但训练时需要反向传播。我的算子只实现了前向，没有对应的反向算子。

这一刻我意识到：优化单个算子只是开始，真正的挑战在于系统集成。 💭

走进CANN框架的内部世界

在"企业原生案例对话室"的启蒙

正在困顿时，训练营的企业原生案例对话室邀请了某大模型框架的技术负责人。他讲述了他们如何把CANN算子集成到推理框架中的故事。

关键的一句话是：

“框架集成不是简单的’插件’问题，而是要理解框架的执行机制、显存管理、计算图优化。算子只是其中一环。”

这让我决定深入学习CANN框架的架构。

框架集成的三层抽象

通过研究CANN文档和社区案例，我逐渐理解了框架集成的三层抽象：

第一层：算子实现层
纯粹的Ascend C代码，负责核算计算。我已经在这一层做了充分优化。

第二层：算子包装层
这是桥梁层。需要定义算子的输入输出规格、支持的数据类型、Shape推导逻辑等。这一层很容易被忽视，但至关重要。

第三层：框架适配层
具体怎样在PyTorch、TensorFlow中使用这个算子。需要写C++扩展、定义自动求导规则等。

我之前只关注第一层，完全忽视了后两层。这正是我失败的根本原因！

算子包装的实战教学

遇见我的"mentor"

在社区论坛发帖求助后，一位资深开发者主动帮我。他看了我的代码后，耐心地教我怎样正确地包装算子。 🙏

学习数据类型适配

第一课是理解CANN的数据类型支持。看似简单的问题，实际很复杂：

FP32、FP16、INT8、BFP16...

不同数据类型需要不同的处理方式。我的Conv2D算子原本只支持FP32和FP16，mentor教我怎样扩展到INT8量化场景。

关键是定义一个Shape推导函数，根据输入数据类型和尺寸，计算输出形状。同时要处理各种边界情况——如果输入是INT8，量化缩放因子怎么处理？这些细节很容易被忽视。

处理动态Shape的挑战

支持固定shape和支持动态shape，代码复杂度完全是两个量级。

我的方案是：在算子注册时，为不同的shape提前计算好分块方案，并缓存起来。运行时根据实际shape查表，快速得到对应的配置。这样既支持了动态shape，也保证了性能。

虽然实现起来花了两周时间，但这个解决方案让算子的适用范围扩大了十倍。 ✨

PyTorch扩展的惊险历程

初次尝试的失败

有了正确包装的算子后，我开始实现PyTorch扩展。从网上找了个教程，按部就班地写了C++代码。

结果跑起来… 又炸了。这次的错误更诡异——compute正确，但前后传播时内存泄漏。 😱

深入理解自动求导

mentor指点我去研究PyTorch的自动求导机制。我才明白，实现自定义算子的反向传播并不是简单的数学求导，还要考虑：

问题1：Tensor生命周期管理
前向计算的中间结果需要保存给反向使用，但怎样高效地存储和释放这些数据，需要精细的设计。

问题2：梯度累积
多个损失项对同一参数的梯度需要正确累积，不能覆盖。

问题3：显存优化
反向过程中可能需要大量中间变量，怎样平衡计算复杂度和显存使用。

我花了两周时间学习这些概念，最终实现了一个正确的反向算子。虽然过程很曲折，但这段深入学习让我对自动求导有了真正的理解。

大规模应用中的性能诊断

从单算子优化到全局优化

当我终于能在模型训练中使用自己的算子时，遇到了新的问题：单个算子性能不错，但集成到完整模型后，整体性能并没有想象中的提升。 📉

性能分析的系统方法

我开始用更系统的方法来诊断问题：

首先，用CANN的全局Profiling工具分析整个计算图。发现虽然我的Conv算子性能达到80%峰值，但整个模型的平均利用率只有40%。

深入分析后发现，问题出在算子间的数据流：

Conv的输出需要复制到CPU（没有直接的后续GPU算子）
然后又复制回来进行归一化
多次往复，数据搬运成了瓶颈！

融合策略的升级

我修改了算子调度策略，把能融合的算子尽量融合在一起，减少中间数据的搬运。改动不大，但效果显著——模型整体性能提升了25%。 🚀

这让我意识到，局部最优不等于全局最优。框架级别的优化需要考虑整体的数据流和计算图。

从独行者到生态参与者

贡献第一个正式算子包

经过几个月的积累，我决定把自己完整的Conv2D算子包（包括实现、包装、PyTorch扩展、文档）贡献给社区。 📤

提交前，我参考了码力全开特辑中的最佳实践，确保代码有详细注释、包含完整测试、提供使用示例。

审核过程中收到了很多建议，改进了十多处细节。最终合并时，社区管理员的评价是：“这是我们收到的最完整的算子包装范例。” 🌟

成为社区导师

贡献后，开始有人问我怎样开发和集成算子。我决定写系列文章分享经验。第一篇是"CANN算子集成常见问题解答"，一发出来就被精华置顶。

后来我被邀请成为训练营的助教，在社区直播中讲解算子集成的最佳实践。虽然初次讲座很紧张，但反馈非常好，很多初学者说"终于明白算子集成为什么这么复杂了"。

职业转折点

从学生到专家

通过这一系列的实践和社区贡献，我的技术能力从"能写算子"升级到了"懂框架集成"。这个转变在求职时体现得非常明显。

面试时不再是讲我的单个算子有多快，而是讲我怎样设计算子包装接口、怎样优化框架级的计算图、怎样在精度和性能间权衡。 💼

最终我收到了某大型AI公司的offer，职位是"AI系统工程师"。offer信中特别提到了我在CANN社区的贡献。

给后来者的建议

如果你已经掌握了算子开发，想要进阶到框架集成阶段，我有几点建议：

建议1：学习框架的设计思想
不要急着写代码。先深入理解PyTorch、TensorFlow、ONNX这些框架的执行机制。这是做好集成的前提。

建议2：重视算子包装层
包装层容易被忽视，但决定了算子的易用性。花时间设计好接口，会让后续工作事半功倍。

建议3：充分测试反向传播
训练和推理在算子层差异很大。一定要实现反向算子并充分测试，否则训练时会出现各种诡异问题。

建议4：使用性能工具做全局分析
不要满足于单个算子的性能。要用框架级的Profiling工具，找到真正的系统瓶颈。

建议5：参与社区贡献
贡献过程本身就是最好的学习。写完整的文档、回答他人问题、做peer review，这些都能深化你的理解。

总结

从算子开发到框架集成，这段进阶之路让我认识到AI系统工程的完整性。单个算子的性能重要，但系统的协同优化更重要。

CANN训练营的课程体系在这个阶段依然很有价值。企业原生案例对话室让我了解了产业实践，开发者说让我学到了系统级的思维方式。

如果你对AI系统工程感兴趣，想要从应用层走向基础设施层，那么系统地学习算子开发和框架集成正是不二之选。这条路可能更具挑战性，但收获也会更丰富。 💪

期待在CANN社区看到更多优秀的系统工程师加入！

关于作者：计算机专业学生，昇腾CANN社区活跃贡献者，担任训练营助教，从事AI系统工程方向研究

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

HarmonyOS 6 自定义人脸识别模型10：基于MindSpore Lite框架的自定义人脸识别功能实现

昇腾开源生态专区

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构