环境变量含义

开启cpu高性能模式

宿主机上执行cpupower -c all frequency-set -g performance

source /usr/local/Ascend/atb/set_env.sh

作用:初始化ATB(Auto Tune Boost)自动调优工具的环境,用于模型性能优化。

source /usr/local/Ascend/atb-models/set_env.sh

作用:加载ATB预置模型的环境配置,可能包含特定模型的优化参数。

HCCL_OP_EXPANSION_MODE HCCL操作扩展模式,AIV 表示启用高级智能优化(如算子融合、通信优化)。

NPU_MEMORY_FRACTION    NPU显存使用比例(0.0-1.0),0.96 表示使用96%的显存。     避免设置过高导致OOM,需根据模型显存需求调整。

PYTORCH_NPU_ALLOC_CONF PyTorch在NPU上的内存分配策略,expandable_segments 表示动态扩展内存段。 优化碎片化,适合动态形状模型。

ATB_WORKSPACE_MEM_ALLOC_ALG_TYPE ATB内存分配算法类型,3 表示基于启发式的自适应算法。    可选值 0~3,需根据模型复杂度选择。

ATB_WORKSPACE_MEM_ALLOC_GLOBAL   全局内存分配模式,1 表示启用全局统一管理。     提升内存利用率,但可能限制灵活性。

HCCL_BUFFSIZE HCCL通信缓冲区大小(MB),64 表示64MB。   较大的值可提升大带宽场景性能,但占用更多内存。

HCCL_RDMA_PCIE_DIRECT_POST_NOSTRICT  允许PCIE直连通信的宽松模式,TRUE 表示启用。优化PCIE设备间的通信延迟。

INF_NAN_MODE_ENABLE    启用INF/NAN检测模式(1),在训练中实时监控数值溢出或无效值。 用于调试数值稳定性问题。

ATB_LAYER_INTERNAL_TENSOR_REUSE  启用层内张量复用(1),减少中间结果的存储开销。适用于Transformer等重复结构模型。

MINDIE_ASYNC_SCHEDULING_ENABLE   启用MindSpore的异步调度模式(1),提升流水线执行效率。

ATB_OPERATION_EXECUTE_ASYNC 启用ATB操作的异步执行(1),减少CPU-GPU同步开销。 适用于计算密集型任务。

HCCL_CONNECT_TIMEOUT   HCCL节点连接超时时间(秒),7200 表示2小时。   长训练任务需增大此值。

HCCL_EXEC_TIMEOUT  HCCL通信超时模式,0 表示无限等待。   用于调试通信阻塞问题,生产环境慎用。

ATB_LLM_HCCL_ENABLE    启用LLM(大语言模型)的HCCL优化(1),优化通信模式。     针对Transformer架构的通信优化。

config文件参数介绍

maxSeqLen:这是输入和输出的最大总长度,范围是(0,16K],默认是256。同时,它需要大于maxInputTokenLen和maxIterTimes的和。

maxInputTokenLen:这是输入部分的最大token数量,必须小于maxSeqLen。如果输入被截断,可能需要增加这个参数的值。

maxPrefillBatchSize:这是prefill阶段的最大batch size,范围在[1, maxBatchSize]之间。过大会导致OOM。建议设置为maxBatchSize的一半

maxPrefillTokens:这是prefill阶段所有请求的总token数上限,必须大于等于maxInputTokenLen。设置过大会导致OOM,

maxBatchSize:这是decode阶段的最大batch size,影响并发处理能力。maxBatchSize的取值范围较广(1到5000)。

maxIterTimes:这是最大迭代次数,即输出的最大token数,必须小于maxSeqLen。它与maxInputTokenLen的和应不超过maxSeqLen。

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐