PyTorch多卡/多GPU/分布式DPP的基本概念(node&rank&local_rank&nnodes&node_rank&nproc_per_node&world_size)

node物理节点，可以是一台机器也可以是一个容器，节点内部可以有多个GPU。rank & local_rank用于表示进程的编号/序号（在一些结构图中rank指的是软节点，rank可以看成一个计算单位），每一个进程对应了一个rank的进程，整个分布式由许多rank完成。local_rank： rank是指在整个分布式任务中进程的序号；local_rank是指在一个node上进程的相对序号，

hxxjxw

23795人浏览 · 2021-08-11 14:49:13

hxxjxw · 2021-08-11 14:49:13 发布

node

物理节点，就是一台机器，节点内部可以有多个GPU(一台机器有多卡)。

rank & local_rank

用于表示进程的序号，用于进程间通信。每一个进程对应了一个rank。

rank=0的进程就是master进程。

local_rank： rank是指在整个分布式任务中进程的序号；local_rank是指在一台机器上(一个node上)进程的相对序号，例如机器一上有0,1,2,3,4,5,6,7，机器二上也有0,1,2,3,4,5,6,7。local_rank在node之间相互独立。

单机多卡时，rank就等于local_rank

nnodes

物理节点数量

node_rank

物理节点的序号

nproc_per_node

每个物理节点上面进程的数量。

group

进程组。默认只有一个组

world size 全局的并行数

全局（一个分布式任务）中，rank的数量。

每个node包含16个GPU，且nproc_per_node=8，nnodes=3，机器的node_rank=5，请问world_size是多少？答案：world_size = 3*8 = 24

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

【RL】Slime训练流程

整个流程体现了slime框架的核心设计：通过Ray实现分布式协调，SGLang负责高效推理，Megatron负责稳定训练，两者通过精心设计的数据传递和权重同步机制无缝集成，实现高效的RL训练循环。返回samples + rewards。返回rollout_data_ref。转换为train_data。

昇腾开源生态专区

SGLang：面向大模型服务化的高吞吐推理框架综述Structured Generation Language）

随着 Llama-3-405B、DeepSeek-V3、Kimi-K2 等千亿级模型密集开源，推理端“高并发、低延迟、低成本”成为新的技术瓶颈。在稀疏化、长序列、结构化生成三大趋势下，它已成为业界少有的“全栈、跨硬件、零门槛”开源基座。请求 → Pre-Schedule（Radix 前缀匹配、内存预算）→ Compute Batch（Prefill/Decode 分离）→ Sample（GPU）→