1.1自动代码生成

融入生产力,提高开发效率。

  1. 程序生成
  2. 注释生成/代码解释
  3. 代码翻译

1.2代码预训练

代码预训练特点

训练:多语言能力掌握;特殊格式处理

评测:追求正确性,功能,逻辑正确;实现用户意图

代码预训练发展

针对代码的transformer: codebert、graphcodebert

大规模生成模型: codex、incoder、codegen、codegeex

1.3代码预训练模型介绍

1.4CodeGeeX:开源的大规模多语言代码生成模型

可以实现代码翻译、解释的功能,涵盖语言种类繁多。

2、学习心得

CodeGeeX是一个多编程语言代码生成预训练模型,具有130亿参数,在23种编程语言上预训练,采用华为MindSpore框架实现,在1536个Ascend 910 AI处理器上训练了2个月,共计训练了8500亿个tokens。学习CodeGeeX模型也让我体会到了开源社区的重要性和力量。CodeGeeX模型本身以及训练代码都是开源的,这为学习和研究提供了便利。

3、经验分享

CodeGeeX的开源特性让我深刻体会到了开源社区的价值。通过参与开源项目的讨论和贡献,我不仅获得了更多的学习资源和技术支持,还结识了许多有趣的同行和专家。这种开放的学习环境激发了我的学习热情,也促进了我的个人成长。

4、课程反馈

有清华大学大佬给我们授课,详细讲述了已开源的CodeGeeX模型,从训练数据到模型优化,详尽地讲述了模型预训练的实现过程,受益匪浅。

5、未来展望

通过本课程的学习,我发现参与开源社区的讨论和交流,可以获得更多的学习资源和技术支持,未来我也要更深入了解CodeGeeX开元开发计划,实现更好的成长!

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐