昇腾开源

【AI落地应用实战】国产算力与Gemma 模型的深度融合——基于昇腾AI推理Gemma 2模型及模型性能评测

武汉主理人-中杯可乐多加冰 2025-11-12

昇腾服务器AISBench+GPUStack提升大模型性能测试效率

z27341 2025-11-17
暂无图片

我的第一个Ascend C算子：从“Hello World”到向量加法

霖705 2025-11-17
暂无图片

告别迷茫：Ascend C开发环境搭建全攻略（VSCode版）

霖705 2025-11-17
释放 AI 算力的“加速引擎“：深入解析 CANN ACLNN 算子库的性能优势与实战应用!

喵手 2025-11-17

昇腾开源

https://ascendai.csdn.net

成员

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

昇腾服务器AISBench+GPUStack提升大模型性能测试效率

AISBench与GPUStack协同提升昇腾NPU大模型测试效率摘要：本文介绍了国产开源软件AISBench(性能测试工具)与GPUStack(模型部署管理工具)在昇腾NPU(910B)平台上的协同使用方法。通过华为Atlas 800IA2服务器(鲲鹏920 CPU/昇腾910B NPU)的实测验证，详细说明了两种工具的集成配置要点：1)在vllm-ascend容器中部署AISBench；2)

z27341
6小时前

 405

 8

#人工智能 #AIGC #开源
我的第一个Ascend C算子：从“Hello World”到向量加法

当终端里终于弹出“Build Success”时，我激动了没三秒，就陷入了新的迷茫：这个黑乎乎的命令行，怎么就能变出能在昇腾AI处理器上跑的算子呢？训练营的巧妙之处就在于此，它不急于灌输复杂的Tiling、流水线，而是用一个最直观的案例，让你先感受到“它跑起来了！我们的“向量加法”工程，就是让Host准备两个数组，然后命令Device把这两个数组对应位置相加，结果存到第三个数组里。// 看，就是这

 霖705
8小时前

 459

 8

#c语言 #开发语言
告别迷茫：Ascend C开发环境搭建全攻略（VSCode版）

这是代码最终运行的地方，通常是安装了昇腾AI处理器的服务器或Atlas开发板。和许多初学者一样，在满怀激情地报名了【2025年昇腾CANN训练营第二季】后，我面临的第一个“算子”不是复杂的数学公式，而是一道最现实的关卡——如何把Ascend C开发环境给搭起来。有了顺手的VSCode环境和训练营一步步的指导，我相信后面的学习会更有趣、更高效。如果你用的是云服务器，请确保你申请的是昇腾AIECS，

霖705
8小时前

 390

 8

#c语言 #vscode #开发语言
释放 AI 算力的“加速引擎“：深入解析 CANN ACLNN 算子库的性能优势与实战应用!

摘要深度学习模型部署中算子性能直接影响推理效率。华为CANN架构提供的ACLNN算子库是为昇腾NPU深度优化的高性能算子集合，涵盖基础运算到复杂神经网络层等各类算子。本文从ACLNN的架构设计、核心优势入手，结合昇腾平台实测案例，剖析其如何通过软硬协同优化实现性能加速。内容包含：ACLNN在CANN架构中的定位、覆盖范围及核心价值；其性能优势的技术解析（硬件亲和性、算法优化和内存优化）；以及矩阵

 喵手
9小时前

 672

 10

#人工智能 #CANN
智能考勤新范式：基于CANN的人脸识别考勤系统

本文基于昇腾AI平台和CANN技术构建了一套高效人脸识别考勤系统。针对企业园区高并发场景需求，采用"端侧采集+边缘推理"架构，通过CANN工具实现模型快速转换与优化，利用ops-cv算子库在NPU上完成高效图像预处理，使处理耗时从80ms降至35ms。系统支持8路1080P视频流并行处理，具备1秒内完成身份核验的能力，准确率达99%以上。实际部署证明，该方案显著提升了考勤管理效

 Want595
9小时前

 807

 8

#人工智能 #CANN
不止于推理：活用CANN实现实时视觉任务的“全管线”硬件加速！

本文提出了一种基于CANN架构的AI视觉全流程加速方案，通过将YOLOv5模型的预处理和后处理操作下沉至昇腾NPU执行，解决了传统方案中CPU与NPU间数据搬运带来的性能瓶颈。文章详细介绍了利用AscendCL接口、AIPP预处理和自定义算子技术实现"NPU全流程"加速的方法，并通过性能对比实验证明，该方案能显著降低CPU占用率（从95%降至XX%），提升端到端帧率（从19.9

bug菌¹
9小时前

 1247

 27

#昇腾 #CANN
在CANN上跑个模型到底多简单？三段代码搞定工业缺陷检测

本文分享了在openEuler操作系统上使用华为CANN框架进行昇腾NPU开发的实战经验。文章展示了一个PCB缺陷检测项目从Ubuntu+GPU迁移到openEuler+NPU的全过程，仅用三段核心代码就实现了显著性能提升：环境配置脚本、NPU混合精度训练代码和优化推理代码。最终在昇腾310上实现1.84ms的推理速度，比原GPU方案快12倍，比CPU快7.4倍。文章详细介绍了openEuler上

 程序猿追
10小时前

 896

 11

#服务器 #机器学习 #运维 +2
CANN特性能力解析：释放硬件潜能，简化AI开发

作为华为昇腾AI基础软硬件平台的核心，CANN（Compute Architecture for Neural Networks）通过端云一致的异构计算架构，为AI基础设施提供了从硬件驱动到上层框架适配的软件支撑。其以极致性能优化为核心目标，覆盖应用开发、算子开发、模型部署全流程，显著降低了AI开发门槛。接下来我将从三个维度展开，为大家揭示CANN的技术魅力。一、CANN的核心价值：构建全场景AI

陈橘又青
10小时前

 1194

 11

#人工智能 #学习
CANN在昇腾NPU上的落地实践与图像分类加速应用

通过本次落地实践可以看出，CANN 不仅解决了异构硬件适配和性能调优的行业痛点，还显著提升了端云一体的 AI 开发效率。开发者无需过多关注底层硬件细节，即可专注于模型创新和业务逻辑的优化，实现“高性能算力即开即用”的目标。

一键难忘
10小时前

 1528

 11

#分类 #人工智能 #数据挖掘 +2
CANN赋能工业视觉：ResNet模型量化加速实践与性能评估

面对工业质检等场景对AI推理实时性的极致要求，我将目光投向了华为CANN（Compute Architecture for Neural Networks）计算架构。本文以经典的图像分类模型ResNet-50为例，详细展示了如何利用CANN的**离线模型转换（ATC）**和**后训练量化（PTQ）**能力，将模型精度损失控制在1%以内，同时在昇腾AI处理器上实现了超过4倍的推理加速。这一实践证明了

 island1314
10小时前

 2441

 4

#开发语言