大模型时代的算力供给能否满足需求?
华为的昇思MindSpore AI框架支持分布式并行训练,并开发了自动混合并行解决方案,提高了大模型的开发和调优效率。同时,分布式计算和并行训练等技术也在不断发展,为大模型时代的算力供给提供了新的可能性。然而,硬件的算力供给增长缓慢,导致算力短缺问题的出现。根据华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上的揭示,大模型所需的算力相对于2020年预计将增长500倍,这个算力缺口正在不断扩大
随着人工智能的快速发展和大模型应用的兴起,算力需求正成为当前科技领域的一大挑战。大型深度学习模型,如GPT-3、CLIP以及其他强大的语言和视觉模型,对庞大的计算资源提出了巨大需求。然而,面对如此庞大的算力需求,我们不禁要问:在大模型时代,算力供给能否满足需求呢?

在过去两年中,大模型的快速发展引发了对算力的巨大需求增长。然而,硬件的算力供给增长缓慢,导致算力短缺问题的出现。根据华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上的揭示,大模型所需的算力相对于2020年预计将增长500倍,这个算力缺口正在不断扩大。
为了解决算力短缺问题,需要通过算力建设、基础设施的共享与优化、算法的优化和数据质量等途径来解决。其中,算力建设是最重要的方面。华为在近几年的算力建设方面取得了积极进展,在国内的城市智算中心中占据了约79%的市场份额。提升算力集群的能力也至关重要。华为宣布将对昇腾AI集群进行全面升级,将集群规模从最初的4000卡扩展到16000卡,迎来了"万卡"时代。胡厚崑表示,昇腾AI集群将把AI的算力中心当做一台超级计算机进行设计,性能效率提升超过10%,系统稳定性提高十倍以上。

华为早在2018年就预测到人工智能的快速发展,并采取了大算力、大数据生成大模型的开发模式。进入人工智能时代,仅依靠堆芯片已无法满足算力需求,需要对算力基础设施进行系统化的重塑。除了增加算力供给外,还需要解决算力利用率低和门槛高等问题,实现算力的生态化。
英伟达的GPU成为大模型所需的优秀选择,但仅仅依靠堆卡已无法满足需求。将多个服务器连接成一台"超级计算机"成为解决算力短缺问题的主要方向,即算力集群。华为发布的Atlas900AI训练集群利用数千颗昇腾910 AI芯片构建,支持8000张卡,计划扩展到超过16000张卡的规模。万卡集群使用成千上万张计算卡进行训练或推理,可以大幅缩短训练时间。

然而,针对万卡规模的训练和推理面临着诸多挑战。全球能够同时选型适用于1000张计算卡以上的模型的研究人员数量有限,需要解决软件规划和资源调度方面的困难。分布式并行训练成为提高效率的方法,将大规模数据集分成多个部分,在多个计算节点上并行训练模型。华为的昇思MindSpore AI框架支持分布式并行训练,并开发了自动混合并行解决方案,提高了大模型的开发和调优效率。
尽管算力供给面临着巨大压力,但我们并非没有解决方案。巨头企业如华为等已经积极投入算力建设,并采取了多种措施来应对算力短缺问题。从扩大算力规模到优化算法和数据质量,各方正在共同努力。同时,分布式计算和并行训练等技术也在不断发展,为大模型时代的算力供给提供了新的可能性。
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐

所有评论(0)