大模型时代的算力供给能否满足需求？

华为的昇思MindSpore AI框架支持分布式并行训练，并开发了自动混合并行解决方案，提高了大模型的开发和调优效率。同时，分布式计算和并行训练等技术也在不断发展，为大模型时代的算力供给提供了新的可能性。然而，硬件的算力供给增长缓慢，导致算力短缺问题的出现。根据华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上的揭示，大模型所需的算力相对于2020年预计将增长500倍，这个算力缺口正在不断扩大

xiehewe

171人浏览 · 2023-07-20 16:34:25

xiehewe · 2023-07-20 16:34:25 发布

随着人工智能的快速发展和大模型应用的兴起，算力需求正成为当前科技领域的一大挑战。大型深度学习模型，如GPT-3、CLIP以及其他强大的语言和视觉模型，对庞大的计算资源提出了巨大需求。然而，面对如此庞大的算力需求，我们不禁要问：在大模型时代，算力供给能否满足需求呢？

在过去两年中，大模型的快速发展引发了对算力的巨大需求增长。然而，硬件的算力供给增长缓慢，导致算力短缺问题的出现。根据华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上的揭示，大模型所需的算力相对于2020年预计将增长500倍，这个算力缺口正在不断扩大。

为了解决算力短缺问题，需要通过算力建设、基础设施的共享与优化、算法的优化和数据质量等途径来解决。其中，算力建设是最重要的方面。华为在近几年的算力建设方面取得了积极进展，在国内的城市智算中心中占据了约79%的市场份额。提升算力集群的能力也至关重要。华为宣布将对昇腾AI集群进行全面升级，将集群规模从最初的4000卡扩展到16000卡，迎来了"万卡"时代。胡厚崑表示，昇腾AI集群将把AI的算力中心当做一台超级计算机进行设计，性能效率提升超过10%，系统稳定性提高十倍以上。

华为早在2018年就预测到人工智能的快速发展，并采取了大算力、大数据生成大模型的开发模式。进入人工智能时代，仅依靠堆芯片已无法满足算力需求，需要对算力基础设施进行系统化的重塑。除了增加算力供给外，还需要解决算力利用率低和门槛高等问题，实现算力的生态化。

英伟达的GPU成为大模型所需的优秀选择，但仅仅依靠堆卡已无法满足需求。将多个服务器连接成一台"超级计算机"成为解决算力短缺问题的主要方向，即算力集群。华为发布的Atlas900AI训练集群利用数千颗昇腾910 AI芯片构建，支持8000张卡，计划扩展到超过16000张卡的规模。万卡集群使用成千上万张计算卡进行训练或推理，可以大幅缩短训练时间。

然而，针对万卡规模的训练和推理面临着诸多挑战。全球能够同时选型适用于1000张计算卡以上的模型的研究人员数量有限，需要解决软件规划和资源调度方面的困难。分布式并行训练成为提高效率的方法，将大规模数据集分成多个部分，在多个计算节点上并行训练模型。华为的昇思MindSpore AI框架支持分布式并行训练，并开发了自动混合并行解决方案，提高了大模型的开发和调优效率。

尽管算力供给面临着巨大压力，但我们并非没有解决方案。巨头企业如华为等已经积极投入算力建设，并采取了多种措施来应对算力短缺问题。从扩大算力规模到优化算法和数据质量，各方正在共同努力。同时，分布式计算和并行训练等技术也在不断发展，为大模型时代的算力供给提供了新的可能性。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

SenseVoice-Small ONNX部署案例：低配CPU/GPU也能跑的中文语音识别方案

本文介绍了如何在星图GPU平台上自动化部署⚡ SenseVoice-Small ONNX语音识别工具，实现高效的中文语音转文字。该方案专为低配硬件优化，支持完全本地化部署，可广泛应用于会议记录、采访内容整理、视频字幕生成等场景，大幅提升音频内容处理效率。

昇腾开源生态专区

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构