昇腾910 与 英伟达5090 对比
NPU(神经网络处理器);英伟达 RTX 5090 是。二者定位、架构、场景完全不同,下面做详细对比。
·
昇腾 910 不是 GPU,也不是开发板,而是华为自研的NPU(神经网络处理器)加速卡;英伟达 RTX 5090 是消费级 / 工作站级通用 GPU。二者定位、架构、场景完全不同,下面做详细对比。
一、先澄清:昇腾 910 是什么形态?
- 不是 GPU:GPU 是通用图形 / 并行计算处理器(CUDA 核心);昇腾 910 是达芬奇架构 NPU,专为 AI 矩阵计算优化。
- 不是开发板:它是标准 PCIe 加速卡(类似服务器 GPU 卡),插在服务器 PCIe 槽使用,无板载 CPU / 内存 / 外设。
- 形态:全长 PCIe 卡、被动 / 主动散热、服务器级供电,用于数据中心 AI 训练 / 推理。
二、核心参数横向对比(昇腾 910B vs RTX 5090)
表格
| 对比项 | 昇腾 910B(NPU) | 英伟达 RTX 5090(GPU) |
|---|---|---|
| 核心定位 | 云端 AI 训练 / 推理(数据中心) | 消费级 / 工作站:游戏 + 图形 + 通用计算 + 轻量 AI |
| 架构 | 达芬奇架构(AI 专用 NPU) | Blackwell 2.0(通用 GPU) |
| 制程 | 7nm(中芯 N+1) | 5nm(台积电) |
| FP16 算力 | 320 TFLOPS | ~105 TFLOPS(理论) |
| INT8 算力 | 640 TOPS | 约 420 TOPS(Tensor Core) |
| 显存 | 32GB HBM2 | 32GB GDDR7 |
| 显存带宽 | 1.2TB/s | 1.79TB/s |
| 功耗 | 310W | 575–600W |
| 互联 | PCIe 4.0、HCCS、RoCE v2 | PCIe 5.0 x16 |
| 视频输出 | 无(服务器卡) | HDMI 2.1b、DP 2.1 |
| 生态 | CANN、MindSpore、AscendCL | CUDA、PyTorch/TensorFlow、游戏生态 |
| 价格 | 约 5–8 万 / 卡(数据中心) | 约 1.9–2.5 万 / 卡(消费级) |
三、关键差异与选型要点
1. 架构与计算效率
- 昇腾 910:AI 专用,3D Cube 矩阵引擎,单周期 4096 次乘加,AI 训练 / 推理效率极高。
- RTX 5090:通用并行,CUDA+Tensor Core,兼顾图形渲染、游戏、科学计算、轻量 AI。
2. 算力与场景
- 训练能力:910 的FP16 算力是 5090 的 3 倍 +,适合大模型训练、千亿参数、多卡集群。
- 推理 / 游戏 / 图形:5090 在消费级场景、游戏、4K/8K 渲染、轻量 AI 推理上全面领先。
3. 功耗与部署
- 910:310W,服务器级散热,适合高密度数据中心、长期稳定运行。
- 5090:575–600W,需高端电源 / 散热,适合个人 / 工作站、短期高负载。
4. 生态与兼容性
- 910:国产自主,CANN/MindSpore,适合政务、金融、军工、国产化项目。
- 5090:CUDA 生态成熟,几乎所有 AI 框架 / 游戏 / 软件原生支持,通用性极强。
四、一句话选型建议
- 做大模型训练、数据中心 AI 集群、国产化替代 → 选昇腾 910。
- 做游戏、3D 渲染、个人 AI 开发、轻量推理 → 选RTX 5090。
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐

所有评论(0)