原创 老郑 系统设计笔记 

图片

产品

Atlas 900 A3 SuperPoD

形态

12 * 计算柜 (47U) + 4 * 总线设备柜 (47U)

NPU

最大支持 384 * 昇腾910

CPU

最大支持 192 * 鲲鹏920

系统内存

最大支持1536个DDR5内存,最大内存传输速率5200MT/s
单根内存条容量支持64GB/96GB

片上内存

最大支持384 * 128GB 片上内存,带宽速率最大3.2TB/s

AI算力

最大支持307.2/288.7 PFLOPS@FP16

D2D互联带宽

双向784GB/s

本地存储

最大支持 480 * 2.5英寸硬盘

供电

三相交流 380V AC + 三相交流 380V AC

散热方式

液冷(计算柜)+ 风冷(总线设备柜)

工作环境温度

工作温度:5℃~40℃(41℉~104℉)

结构尺寸

(高×宽×深)

计算柜:2250mm×600mm×1150mm (不含前后门)
总线设备柜:2250mm×600mm×1150mm (不含前后门)

Atlas 900 A3 SuperPoD 

384超节点光互联架构:主要由一套总线设备柜内的灵衢总线设备( 4*14=56台)和多套计算柜内计算节点( 12*4=48台)通过光纤实现全互联组网(物理架构384,实际部署数量取决于解决方案可靠性冗余设计)

图片

计算框

12

每框4板

计算板

48

交换框

4

每框14板

交换板

56

计算板NPU

8

整机NPU

8*48=384

计算板CPU

4

整机CPU

4*48=192

计算板SW

7

计算板SW

7*48=336

交换板SW

2

交换板SW

2*26=112

  • 整机计算板SW共  48*7=336 L1 SW   ,每个SW出16 *LQ,7个SW共112条LQ,连接到56个交换板,实现每个计算板到每一个交换板2条LQ,48*56共5376 LQ
  • 整机交换板 56*2=112  L2 SW   ,每个SW 48个LQ,48*112=5376 LQ

Atlas 900 A3 SuperPoD –计算柜

图片

图片

图片

AI系统采用2层胖树组网,含LQC和RoCE两种组网,其中LQC组网有柜内组网和跨柜组

网两种组网方式。

● LQC组网:每个计算节点有7个LQC网络,分别是L1-1~L1-7,分属于四块网络交换板。

● RoCE组网:每个计算机框有1个RoCE网络,从混合交换板引出,在任意规模的集群上都是跟外部L2标准交换机互连组成集群大网。 

Atlas 900 A3 SuperPoD –总线设备柜

图片

图片

图片

总线设备柜最大支持14个LingQu 630 V1。

1. 每台LingQu 630 V1设备内包含两个支持LQC协议的交换芯片,每个芯片支持的单链路端口的出口带宽为200GE,因此两个芯片合计的单链路端口的出口带宽为400GE。

2. 不同LingQu 630 V1设备内的两个交换芯片组成灵衢网络的L2层的不同平面,分别与下行服务器的交换芯片组成的灵衢网络L1层的不同平面进行对接。

3. 每台LingQu 630 V1设备支持48个QSFP-DD高速连接器的端口,每个端口带宽为400GE,分别与下行的48台服务器的灵衢总线板上的QSFP-DD端口进行对接。 

  • 每框2个交换板共8个交换板共计16个SW组成1个交换平面,共组成7个交换平面
  • 交换平面1,每个SW连接48个计算节点的SW1,共16*48链接
  • 交换平面2,每个SW连接48个计算节点的SW2,共16*48链接

...........

  • 交换平面7,每个SW连接48个计算节点的SW7,共16*48链接

框间互联 7*16*48=5376

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐