「赤兔」Chitu 框架深度解读（五）：发力国产AI算力，全面适配昇腾、沐曦

赤兔」Chitu 框架不仅在国际主流的 NVIDIA GPU 上表现出色，更以其前瞻性的战略布局和坚实的技术投入，在国产AI算力领域取得了令人瞩目的成就。通过提供对华为昇腾、海光 DCU、沐曦等芯片的完整适配和深度性能优化，「赤兔」成功地在这些国产平台上高效运行了 Qwen3、GLM-4.5 MoE 等 SOTA 大模型。它正在扮演一个至关重要的“连接器”角色，打通了上游先进模型与下游国产硬件之间

wwlsm_zql

992人浏览 · 2025-10-24 10:22:21

wwlsm_zql · 2025-10-24 10:22:21 发布

「赤兔」Chitu 框架深度解读（五）：发力国产AI算力，全面适配昇腾、沐曦与海光

在AI算力竞争日益激烈的今天，实现算力自主可控已成为关键战略。然而，国产AI芯片如何高效承载 SOTA（State-of-the-Art）大模型，一直是业界亟待解决的难题。「赤兔」Chitu 框架通过其“多元算力适配”的核心战略，正成为连接主流大模型与国产硬件的关键桥梁。

本篇作为系列收官之作，将重点解读「赤兔」如何全面适配华为昇腾、沐曦、海光等国产算力，并结合实测数据，展现其在国产AI硬件上的卓越性能。

国产算力适配的里程碑

「赤兔」的 README.md 文件清晰地记录了其在国产算力适配上的坚定投入和关键进展：

[2025/06/12] v0.3.5：提供华为昇腾 910B 完整原生支持，并为 Qwen3 系列提供高性能推理方案。
[2025/07/28] v0.3.9：首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型，攻克了在国产硬件上运行复杂 MoE 模型的难关。
[2025/08/01] v0.4.0：实现对昇腾、沐曦、海光的全面适配，标志着「赤兔」的国产算力版图基本成型。

此外，「赤兔」还为不同国产平台提供了专属的 Docker 镜像，极大简化了部署流程：

昇腾 (Ascend): .../public/chitu-ascend:latest
沐曦 (Muxi): .../public/chitu-muxi:latest
(海光 DCU 的性能数据也在 PERFORMANCE.md 中体现)

性能实测：国产芯片上的强劲表现

适配只是第一步，性能才是硬道理。PERFORMANCE.md 提供了「赤兔」在多款国产芯片上运行主流大模型的实测数据，结果令人振奋。

1. 华为昇腾 910B (Ascend)

昇腾 910B 是当前国产AI算力的主力之一。「赤兔」提供了其在稠密模型和 MoE 模型上的双重数据。

稠密模型：Qwen3-32B (2x 910B2)
在 BS=64 时，2 卡 910B2 跑出了 805.26 TPS 的高吞吐量，在 BS=128 时更是达到 1223.77 TPS，证明了「赤兔」在昇腾平台上具有出色的并发处理能力。

MoE 模型：GLM-4.5-Air-106B (8x 910B2)
在 8 卡 910B2 的集群上，运行智谱的 MoE 模型，BS=64 时达到 796.72 TPS，BS=128 时达到 1317.03 TPS。这一数据有力地印证了其 v0.3.9 里程碑（首发支持昇腾部署 GLM-4.5 MoE）的成果，表明「赤兔」已具备在国产算力集群上部署和高效运行复杂 MoE 模型的能力。

2. 海光 DCU (Hygon)

海光 DCU 在「赤兔」的性能评测中同样表现不俗。

稠密模型：Qwen3-32B (4x DCU)
在 4 卡 DCU（64GB 显存）配置下，运行 Qwen3-32B：

BS=16 时，TPS 达到 346.90。
BS=64 时，TPS 高达 962.24。

这一性能数据（特别是在 BS=64 时）甚至略高于 2 卡 910B2 的表现（注：此处为 4 卡 vs 2 卡，但展示了 DCU 平台的强劲性能），显示了「赤兔」对海光 DCU 的优化同样到位。

3. 沐曦 (Muxi)

虽然 PERFORMANCE.md 中暂未列出沐曦的具体 TPS 数据，但 README.md 的 v0.4.0 里程碑和专属 Docker 镜像 chitu-muxi:latest 的存在，明确了「赤兔」已将其纳入支持版图，并提供了可用的部署方案。

总结

「赤兔」Chitu 框架不仅在国际主流的 NVIDIA GPU 上表现出色，更以其前瞻性的战略布局和坚实的技术投入，在国产AI算力领域取得了令人瞩目的成就。

通过提供对华为昇腾、海光 DCU、沐曦等芯片的完整适配和深度性能优化，「赤兔」成功地在这些国产平台上高效运行了 Qwen3、GLM-4.5 MoE 等 SOTA 大模型。它正在扮演一个至关重要的“连接器”角色，打通了上游先进模型与下游国产硬件之间的壁垒，为中国AI产业的自主可控和生产力落地提供了坚实的“底座”。# 「赤兔」Chitu 框架深度解读（五）：发力国产AI算力，全面适配昇腾、沐曦与海光

本篇作为系列收官之作，将重点解读「赤兔」如何全面适配华为昇腾、沐曦、海光等国产算力，并结合实测数据，展现其在国产AI硬件上的卓越性能。

国产算力适配的里程碑

「赤兔」的 README.md 文件清晰地记录了其在国产算力适配上的坚定投入和关键进展：

[2025/06/12] v0.3.5：提供华为昇腾 910B 完整原生支持，并为 Qwen3 系列提供高性能推理方案。
[2025/07/28] v0.3.9：首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型，攻克了在国产硬件上运行复杂 MoE 模型的难关。
[2025/08/01] v0.4.0：实现对昇腾、沐曦、海光的全面适配，标志着「赤兔」的国产算力版图基本成型。

此外，「赤兔」还为不同国产平台提供了专属的 Docker 镜像，极大简化了部署流程：

昇腾 (Ascend): .../public/chitu-ascend:latest
沐曦 (Muxi): .../public/chitu-muxi:latest
(海光 DCU 的性能数据也在 PERFORMANCE.md 中体现)

性能实测：国产芯片上的强劲表现

适配只是第一步，性能才是硬道理。PERFORMANCE.md 提供了「赤兔」在多款国产芯片上运行主流大模型的实测数据，结果令人振奋。

1. 华为昇腾 910B (Ascend)

昇腾 910B 是当前国产AI算力的主力之一。「赤兔」提供了其在稠密模型和 MoE 模型上的双重数据。

2. 海光 DCU (Hygon)

海光 DCU 在「赤兔」的性能评测中同样表现不俗。

稠密模型：Qwen3-32B (4x DCU)
在 4 卡 DCU（64GB 显存）配置下，运行 Qwen3-32B：

BS=16 时，TPS 达到 346.90。
BS=64 时，TPS 高达 962.24。

3. 沐曦 (Muxi)

总结

「赤兔」Chitu 框架不仅在国际主流的 NVIDIA GPU 上表现出色，更以其前瞻性的战略布局和坚实的技术投入，在国产AI算力领域取得了令人瞩目的成就。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍