英伟达和华为昇腾芯片算力天梯图

部分数据为估算值，表中数据仅供参考，性能可能因具体配置、软件优化等因素有所差异，

徐梓麒

997人浏览 · 2026-01-15 14:42:35

徐梓麒 · 2026-01-15 14:42:35 发布

NVIDIA系列

型号	架构	FP32 (TFLOPS)	FP16/BF16 (TFLOPS)	FP8 (TFLOPS)	INT8 (TOPS)	显存容量	发布时间
B300（目前最强AI计算卡）	Blackwell Ultra	600T	36P (36,000T)	72P (72,000T)	-	2.3TB HBM	2025
H100	Hopper	51	3,958	9,000	-	80GB HBM3	2022
H800（特供版（NVLink带宽限制））	Hopper	51	3,958	9,000	-	80GB HBM3	2023
A100	Ampere	19.5	312/624	-	-	40/80GB HBM2e	2020
V100（Ampere架构经典产品，仍在广泛使用）	Volta	14	112	-	-	32GB HBM2	2017
T4	Turing	8.1	65	-	130	16GB GDDR6	2018
RTX 4090（消费级显卡）	Ada Lovelace	83	330	-	-	24GB GDDR6X	2022
RTX 3090	Ampere	35.6	142	-	-	24GB GDDR6X	2020

HUAWEI 昇腾（Ascend）系列

型号	架构	FP32 (TFLOPS)	FP16 (TFLOPS)	FP8 (TFLOPS)	INT8 (TOPS)	显存容量	发布时间
970	SIMD/SIMT	-	-	4P (4,000T)	-	288GB HBM	2028(Q4)
960	SIMD/SIMT	-	-	2P (2,000T)	-	288GB HBM	2027(Q4)
950DT	SIMD/SIMT	-	-	1P (1,000T)	-	144GB HBM	2026(Q4)
950PR	SIMD/SIMT	-	-	1P (1,000T)	-	128GB HBM	2026(Q1)
910C（910系列为华为主力产品）	SIMD	-	800	-	-	128GB HBM	2025(Q1)
910	DaVinci	-	256	-	512	-	2019
610	-	-	-	-	-	-	-
310	DaVinci	-	8	-	16	-	2018

算力对比分析：

B300 vs 昇腾970：B300的FP8算力72P vs 970的4P，英伟达在单芯片算力上仍有明显优势
H100 vs 昇腾910C：H100的FP16算力约4P vs 910C的800T，差距显著
架构差异：英伟达采用SIMT架构，华为从950开始升级到SIMD/SIMT混合架构

注：部分数据为估算值，表中数据仅供参考，性能可能因具体配置、软件优化等因素有所差异，精确数据查询官网。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

HarmonyOS 6 自定义人脸识别模型10：基于MindSpore Lite框架的自定义人脸识别功能实现

昇腾开源生态专区

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构