「赤兔」Chitu 框架深度解读(五):发力国产AI算力,全面适配昇腾、沐曦与海光

在AI算力竞争日益激烈的今天,实现算力自主可控已成为关键战略。然而,国产AI芯片如何高效承载 SOTA(State-of-the-Art)大模型,一直是业界亟待解决的难题。「赤兔」Chitu 框架通过其“多元算力适配”的核心战略,正成为连接主流大模型与国产硬件的关键桥梁。

本篇作为系列收官之作,将重点解读「赤兔」如何全面适配华为昇腾、沐曦、海光等国产算力,并结合实测数据,展现其在国产AI硬件上的卓越性能。

国产算力适配的里程碑

「赤兔」的 README.md 文件清晰地记录了其在国产算力适配上的坚定投入和关键进展:

  • [2025/06/12] v0.3.5:提供华为昇腾 910B 完整原生支持,并为 Qwen3 系列提供高性能推理方案。
  • [2025/07/28] v0.3.9首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型,攻克了在国产硬件上运行复杂 MoE 模型的难关。
  • [2025/08/01] v0.4.0:实现对昇腾、沐曦、海光的全面适配,标志着「赤兔」的国产算力版图基本成型。

此外,「赤兔」还为不同国产平台提供了专属的 Docker 镜像,极大简化了部署流程:

  • 昇腾 (Ascend): .../public/chitu-ascend:latest
  • 沐曦 (Muxi): .../public/chitu-muxi:latest
  • (海光 DCU 的性能数据也在 PERFORMANCE.md 中体现)

性能实测:国产芯片上的强劲表现

适配只是第一步,性能才是硬道理。PERFORMANCE.md 提供了「赤兔」在多款国产芯片上运行主流大模型的实测数据,结果令人振奋。

1. 华为昇腾 910B (Ascend)

昇腾 910B 是当前国产AI算力的主力之一。「赤兔」提供了其在稠密模型和 MoE 模型上的双重数据。

稠密模型:Qwen3-32B (2x 910B2)
在 BS=64 时,2 卡 910B2 跑出了 805.26 TPS 的高吞吐量,在 BS=128 时更是达到 1223.77 TPS,证明了「赤兔」在昇腾平台上具有出色的并发处理能力。

MoE 模型:GLM-4.5-Air-106B (8x 910B2)
在 8 卡 910B2 的集群上,运行智谱的 MoE 模型,BS=64 时达到 796.72 TPS,BS=128 时达到 1317.03 TPS。这一数据有力地印证了其 v0.3.9 里程碑(首发支持昇腾部署 GLM-4.5 MoE)的成果,表明「赤兔」已具备在国产算力集群上部署和高效运行复杂 MoE 模型的能力。

2. 海光 DCU (Hygon)

海光 DCU 在「赤兔」的性能评测中同样表现不俗。

稠密模型:Qwen3-32B (4x DCU)
在 4 卡 DCU(64GB 显存)配置下,运行 Qwen3-32B:

  • BS=16 时,TPS 达到 346.90
  • BS=64 时,TPS 高达 962.24

这一性能数据(特别是在 BS=64 时)甚至略高于 2 卡 910B2 的表现(注:此处为 4 卡 vs 2 卡,但展示了 DCU 平台的强劲性能),显示了「赤兔」对海光 DCU 的优化同样到位。

3. 沐曦 (Muxi)

虽然 PERFORMANCE.md 中暂未列出沐曦的具体 TPS 数据,但 README.md 的 v0.4.0 里程碑和专属 Docker 镜像 chitu-muxi:latest 的存在,明确了「赤兔」已将其纳入支持版图,并提供了可用的部署方案。

总结

「赤兔」Chitu 框架不仅在国际主流的 NVIDIA GPU 上表现出色,更以其前瞻性的战略布局和坚实的技术投入,在国产AI算力领域取得了令人瞩目的成就。

通过提供对华为昇腾、海光 DCU、沐曦等芯片的完整适配和深度性能优化,「赤兔」成功地在这些国产平台上高效运行了 Qwen3、GLM-4.5 MoE 等 SOTA 大模型。它正在扮演一个至关重要的“连接器”角色,打通了上游先进模型与下游国产硬件之间的壁垒,为中国AI产业的自主可控和生产力落地提供了坚实的“底座”。# 「赤兔」Chitu 框架深度解读(五):发力国产AI算力,全面适配昇腾、沐曦与海光

在AI算力竞争日益激烈的今天,实现算力自主可控已成为关键战略。然而,国产AI芯片如何高效承载 SOTA(State-of-the-Art)大模型,一直是业界亟待解决的难题。「赤兔」Chitu 框架通过其“多元算力适配”的核心战略,正成为连接主流大模型与国产硬件的关键桥梁。

本篇作为系列收官之作,将重点解读「赤兔」如何全面适配华为昇腾、沐曦、海光等国产算力,并结合实测数据,展现其在国产AI硬件上的卓越性能。

国产算力适配的里程碑

「赤兔」的 README.md 文件清晰地记录了其在国产算力适配上的坚定投入和关键进展:

  • [2025/06/12] v0.3.5:提供华为昇腾 910B 完整原生支持,并为 Qwen3 系列提供高性能推理方案。
  • [2025/07/28] v0.3.9首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型,攻克了在国产硬件上运行复杂 MoE 模型的难关。
  • [2025/08/01] v0.4.0:实现对昇腾、沐曦、海光的全面适配,标志着「赤兔」的国产算力版图基本成型。

此外,「赤兔」还为不同国产平台提供了专属的 Docker 镜像,极大简化了部署流程:

  • 昇腾 (Ascend): .../public/chitu-ascend:latest
  • 沐曦 (Muxi): .../public/chitu-muxi:latest
  • (海光 DCU 的性能数据也在 PERFORMANCE.md 中体现)

性能实测:国产芯片上的强劲表现

适配只是第一步,性能才是硬道理。PERFORMANCE.md 提供了「赤兔」在多款国产芯片上运行主流大模型的实测数据,结果令人振奋。

1. 华为昇腾 910B (Ascend)

昇腾 910B 是当前国产AI算力的主力之一。「赤兔」提供了其在稠密模型和 MoE 模型上的双重数据。

稠密模型:Qwen3-32B (2x 910B2)
在 BS=64 时,2 卡 910B2 跑出了 805.26 TPS 的高吞吐量,在 BS=128 时更是达到 1223.77 TPS,证明了「赤兔」在昇腾平台上具有出色的并发处理能力。

MoE 模型:GLM-4.5-Air-106B (8x 910B2)
在 8 卡 910B2 的集群上,运行智谱的 MoE 模型,BS=64 时达到 796.72 TPS,BS=128 时达到 1317.03 TPS。这一数据有力地印证了其 v0.3.9 里程碑(首发支持昇腾部署 GLM-4.5 MoE)的成果,表明「赤兔」已具备在国产算力集群上部署和高效运行复杂 MoE 模型的能力。

2. 海光 DCU (Hygon)

海光 DCU 在「赤兔」的性能评测中同样表现不俗。

稠密模型:Qwen3-32B (4x DCU)
在 4 卡 DCU(64GB 显存)配置下,运行 Qwen3-32B:

  • BS=16 时,TPS 达到 346.90
  • BS=64 时,TPS 高达 962.24

这一性能数据(特别是在 BS=64 时)甚至略高于 2 卡 910B2 的表现(注:此处为 4 卡 vs 2 卡,但展示了 DCU 平台的强劲性能),显示了「赤兔」对海光 DCU 的优化同样到位。

3. 沐曦 (Muxi)

虽然 PERFORMANCE.md 中暂未列出沐曦的具体 TPS 数据,但 README.md 的 v0.4.0 里程碑和专属 Docker 镜像 chitu-muxi:latest 的存在,明确了「赤兔」已将其纳入支持版图,并提供了可用的部署方案。

总结

「赤兔」Chitu 框架不仅在国际主流的 NVIDIA GPU 上表现出色,更以其前瞻性的战略布局和坚实的技术投入,在国产AI算力领域取得了令人瞩目的成就。

通过提供对华为昇腾、海光 DCU、沐曦等芯片的完整适配和深度性能优化,「赤兔」成功地在这些国产平台上高效运行了 Qwen3、GLM-4.5 MoE 等 SOTA 大模型。它正在扮演一个至关重要的“连接器”角色,打通了上游先进模型与下游国产硬件之间的壁垒,为中国AI产业的自主可控和生产力落地提供了坚实的“底座”。

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐