Mindie服务化推理,相关参数介绍
华为昇腾Mindie使用指南,相关环境和config文件参数介绍,超级详细超级全,领导审核后让我铺发
环境变量含义:
开启cpu高性能模式
宿主机上执行cpupower -c all frequency-set -g performance
source /usr/local/Ascend/atb/set_env.sh
作用:初始化ATB(Auto Tune Boost)自动调优工具的环境,用于模型性能优化。
source /usr/local/Ascend/atb-models/set_env.sh
作用:加载ATB预置模型的环境配置,可能包含特定模型的优化参数。
HCCL_OP_EXPANSION_MODE HCCL操作扩展模式,AIV 表示启用高级智能优化(如算子融合、通信优化)。
NPU_MEMORY_FRACTION NPU显存使用比例(0.0-1.0),0.96 表示使用96%的显存。 避免设置过高导致OOM,需根据模型显存需求调整。
PYTORCH_NPU_ALLOC_CONF PyTorch在NPU上的内存分配策略,expandable_segments 表示动态扩展内存段。 优化碎片化,适合动态形状模型。
ATB_WORKSPACE_MEM_ALLOC_ALG_TYPE ATB内存分配算法类型,3 表示基于启发式的自适应算法。 可选值 0~3,需根据模型复杂度选择。
ATB_WORKSPACE_MEM_ALLOC_GLOBAL 全局内存分配模式,1 表示启用全局统一管理。 提升内存利用率,但可能限制灵活性。
HCCL_BUFFSIZE HCCL通信缓冲区大小(MB),64 表示64MB。 较大的值可提升大带宽场景性能,但占用更多内存。
HCCL_RDMA_PCIE_DIRECT_POST_NOSTRICT 允许PCIE直连通信的宽松模式,TRUE 表示启用。优化PCIE设备间的通信延迟。
INF_NAN_MODE_ENABLE 启用INF/NAN检测模式(1),在训练中实时监控数值溢出或无效值。 用于调试数值稳定性问题。
ATB_LAYER_INTERNAL_TENSOR_REUSE 启用层内张量复用(1),减少中间结果的存储开销。适用于Transformer等重复结构模型。
MINDIE_ASYNC_SCHEDULING_ENABLE 启用MindSpore的异步调度模式(1),提升流水线执行效率。
ATB_OPERATION_EXECUTE_ASYNC 启用ATB操作的异步执行(1),减少CPU-GPU同步开销。 适用于计算密集型任务。
HCCL_CONNECT_TIMEOUT HCCL节点连接超时时间(秒),7200 表示2小时。 长训练任务需增大此值。
HCCL_EXEC_TIMEOUT HCCL通信超时模式,0 表示无限等待。 用于调试通信阻塞问题,生产环境慎用。
ATB_LLM_HCCL_ENABLE 启用LLM(大语言模型)的HCCL优化(1),优化通信模式。 针对Transformer架构的通信优化。
config文件参数介绍:
maxSeqLen:这是输入和输出的最大总长度,范围是(0,16K],默认是256。同时,它需要大于maxInputTokenLen和maxIterTimes的和。
maxInputTokenLen:这是输入部分的最大token数量,必须小于maxSeqLen。如果输入被截断,可能需要增加这个参数的值。
maxPrefillBatchSize:这是prefill阶段的最大batch size,范围在[1, maxBatchSize]之间。过大会导致OOM。建议设置为maxBatchSize的一半
maxPrefillTokens:这是prefill阶段所有请求的总token数上限,必须大于等于maxInputTokenLen。设置过大会导致OOM,
maxBatchSize:这是decode阶段的最大batch size,影响并发处理能力。maxBatchSize的取值范围较广(1到5000)。
maxIterTimes:这是最大迭代次数,即输出的最大token数,必须小于maxSeqLen。它与maxInputTokenLen的和应不超过maxSeqLen。
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐

所有评论(0)