MindSpeed RL是针对昇腾硬件推出的强化学习开发套件。提供端到端的RL后训练解决方案,支持超大昇腾集群训推共卡/分离部署模式,通过多模型异步流水调度机制实现算力资源高效利用,依托训推异构切分通信架构降低数据交互延迟,同时序列合并长序列并行处理技术,解决序列计算瓶颈问题,全面提升分布式训推效率。

代码仓地址:https://gitcode.com/Ascend/MindSpeed-RL

下面是MindSpeed RL主要的代码结构类图,其中主要分5部分:

  1. Trainer:训练入口
  2. RayWorkGroup:负责worker的管理和调度
  3. worker:各种worker,供RayWorkGroup调度,包括IntegratedWorker、RuleReward等
  4. ActorRolloutHybrid:训推转换的关键(actor和vllm)
  5. Engine:有训练engine(主要供actor和reference调用)、推理engine(主要是vllm)

图中一些重要方法标注了颜色,相同颜色的方法有调用关系,可以通过颜色看出调用流程。

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐