Mindie服务化推理，相关参数介绍

华为昇腾Mindie使用指南，相关环境和config文件参数介绍，超级详细超级全，领导审核后让我铺发

m0_45259992

1040人浏览 · 2025-06-24 20:06:51

m0_45259992 · 2025-06-24 20:06:51 发布

环境变量含义：

开启cpu高性能模式

宿主机上执行cpupower -c all frequency-set -g performance

source /usr/local/Ascend/atb/set_env.sh

作用：初始化ATB（Auto Tune Boost）自动调优工具的环境，用于模型性能优化。

source /usr/local/Ascend/atb-models/set_env.sh

作用：加载ATB预置模型的环境配置，可能包含特定模型的优化参数。

HCCL_OP_EXPANSION_MODE HCCL操作扩展模式，AIV 表示启用高级智能优化（如算子融合、通信优化）。

NPU_MEMORY_FRACTION NPU显存使用比例（0.0-1.0），0.96 表示使用96%的显存。避免设置过高导致OOM，需根据模型显存需求调整。

PYTORCH_NPU_ALLOC_CONF PyTorch在NPU上的内存分配策略，expandable_segments 表示动态扩展内存段。优化碎片化，适合动态形状模型。

ATB_WORKSPACE_MEM_ALLOC_ALG_TYPE ATB内存分配算法类型，3 表示基于启发式的自适应算法。可选值 0~3，需根据模型复杂度选择。

ATB_WORKSPACE_MEM_ALLOC_GLOBAL 全局内存分配模式，1 表示启用全局统一管理。提升内存利用率，但可能限制灵活性。

HCCL_BUFFSIZE HCCL通信缓冲区大小（MB），64 表示64MB。较大的值可提升大带宽场景性能，但占用更多内存。

HCCL_RDMA_PCIE_DIRECT_POST_NOSTRICT 允许PCIE直连通信的宽松模式，TRUE 表示启用。优化PCIE设备间的通信延迟。

INF_NAN_MODE_ENABLE 启用INF/NAN检测模式（1），在训练中实时监控数值溢出或无效值。用于调试数值稳定性问题。

ATB_LAYER_INTERNAL_TENSOR_REUSE 启用层内张量复用（1），减少中间结果的存储开销。适用于Transformer等重复结构模型。

MINDIE_ASYNC_SCHEDULING_ENABLE 启用MindSpore的异步调度模式（1），提升流水线执行效率。

ATB_OPERATION_EXECUTE_ASYNC 启用ATB操作的异步执行（1），减少CPU-GPU同步开销。适用于计算密集型任务。

HCCL_CONNECT_TIMEOUT HCCL节点连接超时时间（秒），7200 表示2小时。长训练任务需增大此值。

HCCL_EXEC_TIMEOUT HCCL通信超时模式，0 表示无限等待。用于调试通信阻塞问题，生产环境慎用。

ATB_LLM_HCCL_ENABLE 启用LLM（大语言模型）的HCCL优化（1），优化通信模式。针对Transformer架构的通信优化。

config文件参数介绍：

maxSeqLen：这是输入和输出的最大总长度，范围是(0,16K]，默认是256。同时，它需要大于maxInputTokenLen和maxIterTimes的和。

maxInputTokenLen：这是输入部分的最大token数量，必须小于maxSeqLen。如果输入被截断，可能需要增加这个参数的值。

maxPrefillBatchSize：这是prefill阶段的最大batch size，范围在[1, maxBatchSize]之间。过大会导致OOM。建议设置为maxBatchSize的一半

maxPrefillTokens：这是prefill阶段所有请求的总token数上限，必须大于等于maxInputTokenLen。设置过大会导致OOM，

maxBatchSize：这是decode阶段的最大batch size，影响并发处理能力。maxBatchSize的取值范围较广（1到5000）。

maxIterTimes：这是最大迭代次数，即输出的最大token数，必须小于maxSeqLen。它与maxInputTokenLen的和应不超过maxSeqLen。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构