登录社区云,与社区用户共同成长
邀请您加入社区
暂无图片
AISBench与GPUStack协同提升昇腾NPU大模型测试效率 摘要:本文介绍了国产开源软件AISBench(性能测试工具)与GPUStack(模型部署管理工具)在昇腾NPU(910B)平台上的协同使用方法。通过华为Atlas 800IA2服务器(鲲鹏920 CPU/昇腾910B NPU)的实测验证,详细说明了两种工具的集成配置要点:1)在vllm-ascend容器中部署AISBench;2)
当终端里终于弹出“Build Success”时,我激动了没三秒,就陷入了新的迷茫:这个黑乎乎的命令行,怎么就能变出能在昇腾AI处理器上跑的算子呢?训练营的巧妙之处就在于此,它不急于灌输复杂的Tiling、流水线,而是用一个最直观的案例,让你先感受到“它跑起来了!我们的“向量加法”工程,就是让Host准备两个数组,然后命令Device把这两个数组对应位置相加,结果存到第三个数组里。// 看,就是这
这是代码最终运行的地方,通常是安装了昇腾AI处理器的服务器或Atlas开发板。和许多初学者一样,在满怀激情地报名了【2025年昇腾CANN训练营第二季】 后,我面临的第一个“算子”不是复杂的数学公式,而是一道最现实的关卡——如何把Ascend C开发环境给搭起来。有了顺手的VSCode环境和训练营一步步的指导,我相信后面的学习会更有趣、更高效。如果你用的是云服务器,请确保你申请的是昇腾AIECS,
摘要 深度学习模型部署中算子性能直接影响推理效率。华为CANN架构提供的ACLNN算子库是为昇腾NPU深度优化的高性能算子集合,涵盖基础运算到复杂神经网络层等各类算子。本文从ACLNN的架构设计、核心优势入手,结合昇腾平台实测案例,剖析其如何通过软硬协同优化实现性能加速。内容包含:ACLNN在CANN架构中的定位、覆盖范围及核心价值;其性能优势的技术解析(硬件亲和性、算法优化和内存优化);以及矩阵
本文基于昇腾AI平台和CANN技术构建了一套高效人脸识别考勤系统。针对企业园区高并发场景需求,采用"端侧采集+边缘推理"架构,通过CANN工具实现模型快速转换与优化,利用ops-cv算子库在NPU上完成高效图像预处理,使处理耗时从80ms降至35ms。系统支持8路1080P视频流并行处理,具备1秒内完成身份核验的能力,准确率达99%以上。实际部署证明,该方案显著提升了考勤管理效
本文提出了一种基于CANN架构的AI视觉全流程加速方案,通过将YOLOv5模型的预处理和后处理操作下沉至昇腾NPU执行,解决了传统方案中CPU与NPU间数据搬运带来的性能瓶颈。文章详细介绍了利用AscendCL接口、AIPP预处理和自定义算子技术实现"NPU全流程"加速的方法,并通过性能对比实验证明,该方案能显著降低CPU占用率(从95%降至XX%),提升端到端帧率(从19.9
本文分享了在openEuler操作系统上使用华为CANN框架进行昇腾NPU开发的实战经验。文章展示了一个PCB缺陷检测项目从Ubuntu+GPU迁移到openEuler+NPU的全过程,仅用三段核心代码就实现了显著性能提升:环境配置脚本、NPU混合精度训练代码和优化推理代码。最终在昇腾310上实现1.84ms的推理速度,比原GPU方案快12倍,比CPU快7.4倍。文章详细介绍了openEuler上
作为华为昇腾AI基础软硬件平台的核心,CANN(Compute Architecture for Neural Networks)通过端云一致的异构计算架构,为AI基础设施提供了从硬件驱动到上层框架适配的软件支撑。其以极致性能优化为核心目标,覆盖应用开发、算子开发、模型部署全流程,显著降低了AI开发门槛。接下来我将从三个维度展开,为大家揭示CANN的技术魅力。一、CANN的核心价值:构建全场景AI
通过本次落地实践可以看出,CANN 不仅解决了异构硬件适配和性能调优的行业痛点,还显著提升了端云一体的 AI 开发效率。开发者无需过多关注底层硬件细节,即可专注于模型创新和业务逻辑的优化,实现“高性能算力即开即用”的目标。
面对工业质检等场景对AI推理实时性的极致要求,我将目光投向了华为CANN(Compute Architecture for Neural Networks)计算架构。本文以经典的图像分类模型ResNet-50为例,详细展示了如何利用CANN的**离线模型转换(ATC)**和**后训练量化(PTQ)**能力,将模型精度损失控制在1%以内,同时在昇腾AI处理器上实现了超过4倍的推理加速。这一实践证明了