CANN ops-transformer：AI 处理器上的 Transformer 模型加速引擎

ZWW_zhangww

441人浏览 · 2026-02-06 19:40:40

ZWW_zhangww · 2026-02-06 19:40:40 发布

ops-transformer 仓库链接： https://atomgit.com/cann/ops-transformer

Transformer 模型自问世以来，凭借其强大的自注意力机制和并行处理能力，在自然语言处理（NLP）、计算机视觉（CV）等领域取得了革命性突破，并成为大规模预训练模型（如 LLM）的核心架构。然而，Transformer 模型通常拥有庞大的参数量和计算复杂度，对其高效运行提出了严峻挑战。

CANN ops-transformer 算子库正是为解决这一挑战而生。它是一套专门为 Transformer 模型设计的、高度优化的算子集合，旨在充分发挥 AI 处理器在矩阵运算、向量计算和内存带宽方面的优势。通过对 Transformer 模型中的核心组件（如多头注意力、前馈网络、Layer Normalization 等）进行深度硬件适配和性能调优，ops-transformer 显著提升了 Transformer 模型在 AI 处理器上的推理和训练效率。它不仅仅是简单地将 Transformer 模块拆解为通用算子，而是从硬件架构的视角出发，重新设计和融合了关键计算模式，以实现极致的性能表现。

1. ops-transformer 的核心定位与价值

CANN ops-transformer 在 CANN 软件栈中扮演着承上启下的关键角色，是实现 Transformer 模型在 AI 处理器上高性能部署与训练的基石。

1.1 Transformer 模型的核心挑战：计算与内存

Transformer 模型虽然强大，但也伴随着巨大的计算和内存开销。

计算密集型：自注意力机制中的 QKV (Query, Key, Value) 矩阵乘法、注意力权重的 Softmax 计算、以及前馈网络中的密集连接层，都涉及大量的浮点运算，尤其是矩阵乘法。
内存带宽瓶颈：大尺寸的 Key/Value 矩阵和中间激活结果，对内存带宽构成巨大压力。在多头注意力中，对 Q, K, V 矩阵的访问模式往往不连续，加剧了内存访问的挑战。
数据类型与精度：为了兼顾性能和精度，Transformer 模型常常采用混合精度训练和推理，这要求算子库能够灵活支持 FP32、FP16 甚至 INT8 等多种数据类型。

1.2 ops-transformer 的定位与价值

ops-transformer 库旨在通过深度定制和优化，突破这些挑战。

硬件亲和：它将 Transformer 的核心计算模式直接映射到 AI 处理器特定的计算单元，如 Cube Unit (矩阵乘法) 和 Vector Unit (逐元素操作、Softmax)。
性能飞跃：相比于使用通用算子组合实现 Transformer，ops-transformer 能够实现数量级的性能提升，大幅缩短模型训练和推理时间。
降低开发成本：通过提供高度优化的算子，开发者无需深入了解底层硬件细节，即可构建高性能的 Transformer 模型。

1.3 核心优化理念

ops-transformer 的优化建立在对 AI 处理器架构的深刻理解之上。

指令级并行：最大限度利用 AI 处理器多核、多线程的并行处理能力。
片上内存复用：通过精妙的 Tiling 策略，将中间结果尽量保留在高速片上内存，减少全局内存访问。
算子融合：将多个逻辑相关的操作融合为一个高效的内核，消除中间数据写回全局内存的开销。

2. Transformer 关键算子的深度硬件适配

ops-transformer 库中的每一个算子都经过精心设计，以充分利用 AI 处理器内部的异构计算单元和特定指令集。

2.1 通用计算单元的精细调度

AI 处理器通常包含不同类型的计算单元，ops-transformer 负责将任务分配给最适合的单元。

Cube Unit (矩阵乘法单元)：对于 Transformer 中最核心的矩阵乘法操作，如 QKV 投影、注意力权重计算 (Q * K^T)、注意力结果加权 (Attention * V) 以及前馈网络中的全连接层，ops-transformer 算子会将其精确调度到 Cube Unit，利用其高吞吐的乘加能力。
Vector Unit (向量计算单元)：逐元素操作，如 Layer Normalization 的均值方差计算、Softmax 的指数和归一化、激活函数 (GELU, ReLU) 以及 Dropout，则会调度到 Vector Unit，利用其 SIMD (单指令多数据) 能力实现高效并行。

2.2 特定指令集的深度利用

ops-transformer 算子直接利用 AI 处理器提供的特定指令集，避免了通用指令模拟带来的性能损失。

Fused Multiply-Add (FMA)：在矩阵乘法和向量计算中，ops-transformer 广泛利用 FMA 指令，在一个时钟周期内完成乘法和加法操作，提高计算密度。
数据类型转换指令：高效支持 FP32 到 FP16 或 FP16 到 FP32 的数据类型转换，这是混合精度计算的关键。
原子操作与同步：在多线程或多核协同计算时，利用硬件提供的原子操作和同步机制，确保数据一致性，减少软件开销。

2.3 混合精度计算策略

Transformer 模型通常受益于混合精度计算，ops-transformer 为此提供了全面的支持。

数据类型自动选择：根据模型配置和硬件能力，ops-transformer 能够在内部自动选择 FP32、FP16 或 INT8 等数据类型进行计算。
精度保持与优化：在保持关键路径精度（例如 Softmax 的指数计算）的同时，将大部分计算下沉到 FP16，从而显著提升吞吐量并减少内存占用。GE 编译时会进一步分析并优化。
量化感知训练 (QAT)：对于需要部署到 INT8 的场景，ops-transformer 结合 CANN 的量化工具链，支持量化感知训练，确保模型精度在量化后依然能够满足要求。

3. 自注意力机制的极致性能突破

自注意力机制是 Transformer 的灵魂，也是其最主要的计算瓶颈。ops-transformer 针对其复杂结构进行了多维度优化。

3.1 多头注意力 (Multi-Head Attention) 的并行化

多头注意力通过将查询、键和值映射到多个低维子空间，然后独立执行注意力操作并拼接结果，增加了模型的表达能力。

并行计算：ops-transformer 将多个注意力头的设计映射到 AI 处理器的并行计算单元。每个注意力头可以独立计算 QKV 投影、注意力权重和加权和，这些计算可以高度并行执行。
Batching 优化：在批处理模式下，ops-transformer 进一步将 Batch 维度与序列长度或头数结合，形成更大的矩阵乘法任务，更好地利用 Cube Unit 的高吞吐量。

3.2 QKV 投影与 MatMul 融合

将输入序列转换为 Query、Key、Value 的投影操作，以及后续的注意力权重计算，是密集型矩阵乘法。

投影融合：原始的 Input * W_Q, Input * W_K, Input * W_V 可以融合为一个大的矩阵乘法 Input * W_QKV。ops-transformer 将此融合为一个内核，并利用 Cube Unit 一次性完成，减少了三次独立的矩阵乘法调度开销。
Tiling 优化：在执行 (Q * K^T) * V 这样的复杂序列时，ops-transformer 会采用精细的 Tiling 策略，将矩阵拆分为小块，使它们能够适应片上内存（如 Unified Buffer），并确保数据在 Cube Unit 和 Vector Unit 之间高效流动，最小化对全局内存的依赖。

3.3 Softmax 与 Masking 的高效实现

Softmax 函数和注意力 Masking 是自注意力机制的关键组成部分，ops-transformer 对这些操作进行了专门优化。

Vector Unit 优化：Softmax 包含指数、求和、归一化等逐元素操作，被高效地映射到 Vector Unit。ops-transformer 利用 Vector Unit 的 SIMD 指令，批量处理这些计算，例如并行计算多个元素的指数。
Masking 融合：在计算注意力权重时，通常需要应用 Mask（如 Padding Mask 或 Casual Mask）。ops-transformer 能够将 Mask 的应用（通常是加负无穷或零）与 Softmax 函数融合在一个内核中，避免了独立的内存写入和读取，进一步提升效率。

4. 高效内存管理与数据流优化策略

Transformer 模型的内存占用巨大，ops-transformer 通过精细的内存管理和数据流优化，显著提升了内存效率。

4.1 片上存储 (Unified Buffer) 的精细管理

AI 处理器通常拥有高速但容量有限的片上存储（如 Unified Buffer）。ops-transformer 最大化地利用这一资源。

Tiling 与分块：将大型张量（如 Q, K, V 矩阵）按照合适的粒度进行 Tiling，确保每次计算所需的数据块能够完全载入 Unified Buffer。
数据复用：ops-transformer 智能地调度数据，使得载入 Unified Buffer 的数据块能够被 Cube Unit 和 Vector Unit 多次复用，例如在 Q * K^T 和 Attention * V 两个阶段中尽可能复用 K 和 V。

4.2 零拷贝与数据复用

减少不必要的数据拷贝是提升性能的关键，尤其是在融合算子中。

中间结果零拷贝：在算子融合中，如 QKV 投影融合后，其结果可以直接保留在片上内存，作为下一个注意力计算的输入，无需回写到全局内存。这种“零拷贝”机制显著减少了内存带宽压力。
MTE (内存传输引擎) 协同：ops-transformer 算子会与 AI 处理器内部的 MTE 紧密协同，实现计算与数据搬运的异步重叠。当一个数据块在计算时，MTE 已经开始预取下一个数据块，从而隐藏内存传输延迟。

4.3 分布式场景下的通信优化

对于超大规模 Transformer 模型，分布式训练和推理是常态。ops-transformer 协同 HComm 等通信库进行优化。

通信与计算重叠：在模型并行或数据并行场景下，ops-transformer 算子能够与 HComm 提供的低延迟通信接口深度融合，实现计算与通信的异步重叠。例如，当一个设备正在计算当前层的输出时，可以同时异步传输下一层输入或梯度。
梯度聚合优化：在数据并行训练中，梯度的 AllReduce 聚合操作是通信瓶颈。ops-transformer 配合 HComm，可以实现细粒度的梯度聚合，或利用分块传输、Overlap 技术来优化通信效率。

5. 端到端融合与计算图优化

ops-transformer 的优化不仅限于单个算子，更延伸到整个 Transformer 模块乃至整个计算图的端到端融合。

5.1 模块级算子融合 (LayerNorm, Dropout)

Transformer 中的 Layer Normalization 和 Dropout 经常与前后层的线性变换和激活函数紧密相连。

LayerNorm-Add 融合：通常 Layer Normalization 后面会跟着一个残差连接 (Add)。ops-transformer 可以将 LayerNorm 和 Add 融合在一个内核中，减少内存访问。
Dropout 融合：Dropout 算子在训练时随机置零，在推理时等价于乘法缩放。ops-transformer 能够将 Dropout 与前后的线性变换或激活函数融合，避免中间结果的存储和加载。

5.2 Transformer Block 级别的宏融合

ops-transformer 进一步将整个 Transformer Block（包含多头注意力、前馈网络、残差连接和 Layer Normalization）视为一个可融合的宏单元。

一体化优化：通过宏融合，GE (Graph Engine) 可以在编译时对整个 Block 进行一体化优化，实现更彻底的片上内存复用和调度。这意味着整个 Block 可以在计算单元内部，仅通过片上内存就完成大部分计算，而无需频繁地与全局内存交互。
减少调度开销：将多个原子算子融合为一个宏算子，可以显著减少 Runtime 的调度开销，提升整体执行效率。

5.3 编译时图优化与离线模型生成

ops-transformer 的深度优化在 GE (Graph Engine) 编译阶段发挥作用。

GE 识别与替换：GE 能够识别计算图中符合 ops-transformer 模式的子图，并将其替换为高度优化的 ops-transformer 算子实现。
离线模型固化：最终，优化后的 Transformer 模型被编译为 OM（Offline Model）文件，其中包含了所有经过 ops-transformer 优化的指令序列、静态内存规划和调度信息，可以直接在 AI 处理器上高效执行。

6. 与 CANN 生态的深度融合与开发实践

ops-transformer 并非孤立存在，它深度融入 CANN 开放生态，为开发者提供了强大的工具和灵活的扩展能力。

6.1 框架透明的接入方式

ops-transformer 的优化通常对上层深度学习框架（如 PyTorch, TensorFlow, MindSpore）的用户是透明的。

自动替换：当用户在这些框架中构建 Transformer 模型时，CANN 的框架适配层会在模型编译到 GE 阶段，自动检测并替换为 ops-transformer 提供的优化算子。
标准 API 调用：开发者依然使用框架提供的标准 Transformer API 来构建模型，而无需显式调用 ops-transformer 的底层接口，极大地降低了使用门槛。

6.2 自定义算子的扩展能力

尽管 ops-transformer 提供了丰富的优化算子，但针对特定研究或业务场景，开发者可能需要实现自定义的 Transformer 变体或新型注意力机制。

Ascend C 支持：开发者可以使用 Ascend C 语言（CANN 提供的面向 AI 处理器的编程语言）编写自定义算子。通过 Ascend C，可以精细控制数据如何在片上内存中流动、如何利用 Cube Unit 和 Vector Unit。
与现有算子集成：自定义算子可以注册到 CANN 算子库中，并与 ops-transformer 提供的算子无缝集成，参与到 GE 的图编译和优化流程中。

6.3 性能分析与调优工具

CANN 提供了一套完整的性能分析和调优工具，帮助开发者深入理解 ops-transformer 算子的执行情况并进行优化。

Profiling 工具：通过 Profiling 工具，开发者可以获取 ops-transformer 算子的详细执行时间、内存占用、硬件单元利用率（Cube Unit、Vector Unit）等数据。
瓶颈定位：这些数据可以帮助开发者定位性能瓶颈，例如是计算受限、内存带宽受限还是同步开销过大，从而针对性地调整模型结构或编译参数。
可视化分析：配套的可视化工具可以将 Profiling 数据以时间线、热力图等形式呈现，直观地展示 ops-transformer 算子在硬件上的执行过程。

附录：CANN ops-transformer 概念性 Python 使用示例

以下是一个概念性的 Python 代码示例，它展示了如何在高级框架中利用 CANN ops-transformer 提供的优化组件来构建一个 Transformer 编码器层。请注意，这里的 CannMultiHeadAttention, CannFeedForward, CannLayerNorm 是对 CANN 内部优化算子的概念性封装，并非直接可执行的“实战代码”，但它体现了 ops-transformer 如何在框架层面提供高效的构建块。

import torch
import torch.nn as nn
import math

# 假设 cann_ops_transformer 库提供了如下高度优化的组件
# 在实际使用中，这些组件会通过 CANN 的后端集成到 PyTorch/MindSpore 等框架中
# 开发者通常无需直接导入，而是通过框架的配置或 JIT 编译自动启用
class CannMultiHeadAttention(nn.Module):
    """
    概念性封装了 CANN ops-transformer 优化过的 Multi-Head Attention 算子。
    内部实现会利用 Cube Unit 进行 MatMul，Vector Unit 进行 Softmax/Dropout，
    并进行 QKV 投影、注意力计算、输出投影的融合。
    """
    def __init__(self, embed_dim: int, num_heads: int, dropout_rate: float = 0.0):
        super().__init__()
        if embed_dim % num_heads != 0:
            raise ValueError(f"Embedding dimension ({embed_dim}) must be divisible by number of heads ({num_heads}).")
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads

        print(f"[CANN-ops-transformer] 初始化优化 MultiHeadAttention (embed_dim={embed_dim}, heads={num_heads})...")

        # 这些线性层会触发底层 ops-transformer 的 QKV 投影融合算子
        self.qkv_proj = nn.Linear(embed_dim, 3 * embed_dim, bias=False)
        self.out_proj = nn.Linear(embed_dim, embed_dim, bias=False)
        self.dropout = nn.Dropout(dropout_rate) # Dropout 可能会与 Softmax 融合

    def forward(self, x: torch.Tensor, attn_mask: torch.Tensor = None, key_padding_mask: torch.Tensor = None) -> torch.Tensor:
        """
        前向传播：执行优化的多头自注意力计算。
        x: 输入张量，形状 (batch_size, seq_len, embed_dim)
        attn_mask: 注意力掩码，用于防止注意力关注未来序列或特定token (batch_size, 1, seq_len, seq_len)
        key_padding_mask: 键填充掩码，用于忽略填充 token (batch_size, 1, 1, seq_len)
        """
        batch_size, seq_len, embed_dim = x.size()

        # 概念性：这里会调用 CANN ops-transformer 内部的 QKV 投影融合算子
        # 它会在底层一次性计算 Q, K, V，并可能在片上内存中直接进行后续 MatMul 准备
        # (batch_size, seq_len, 3 * embed_dim) -> (3, batch_size, num_heads, seq_len, head_dim)
        qkv = self.qkv_proj(x).reshape(batch_size, seq_len, 3, self.num_heads, self.head_dim)
        q, k, v = qkv.unbind(2) # 拆分成 Q, K, V

        # 概念性：这里会调用 CANN ops-transformer 内部的注意力权重计算融合算子
        # 包括 Q @ K^T, 缩放，应用 attn_mask 和 key_padding_mask，以及 Softmax
        # 所有这些操作都会被高度融合，充分利用 Cube Unit 和 Vector Unit
        attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        if attn_mask is not None:
            attn_scores = attn_scores + attn_mask # 广播加法
        if key_padding_mask is not None:
            attn_scores = attn_scores.masked_fill(key_padding_mask, float('-inf')) # 应用填充掩码

        attn_weights = self.dropout(torch.softmax(attn_scores, dim=-1))

        # 概念性：这里会调用 CANN ops-transformer 内部的注意力结果加权融合算子
        # 包括 Attention @ V 和随后的头拼接
        attn_output = torch.matmul(attn_weights, v)
        attn_output = attn_output.transpose(1, 2).reshape(batch_size, seq_len, embed_dim) # 拼接多头结果

        # 概念性：最终输出投影，可能与上一步融合
        output = self.out_proj(attn_output)
        print(f"[CANN-ops-transformer] MHA 执行完成，输出形状: {output.shape}")
        return output

class CannFeedForward(nn.Module):
    """
    概念性封装了 CANN ops-transformer 优化过的 Feed-Forward Network 算子。
    内部实现会利用 Cube Unit 进行 MatMul，Vector Unit 进行 GELU/Dropout 等激活函数。
    线性层、激活函数、Dropout 之间可能进行融合。
    """
    def __init__(self, embed_dim: int, ff_dim: int, dropout_rate: float = 0.0):
        super().__init__()
        print(f"[CANN-ops-transformer] 初始化优化 FeedForward (embed_dim={embed_dim}, ff_dim={ff_dim})...")
        self.linear1 = nn.Linear(embed_dim, ff_dim)
        self.activation = nn.GELU() # 或 nn.ReLU, nn.SiLU 等
        self.dropout = nn.Dropout(dropout_rate)
        self.linear2 = nn.Linear(ff_dim, embed_dim)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        前向传播：执行优化的前馈网络计算。
        x: 输入张量，形状 (batch_size, seq_len, embed_dim)
        """
        # 概念性：底层会调用 CANN ops-transformer 融合算子，将 Linear1 -> Activation -> Dropout -> Linear2 融合
        # 大部分计算会在片上内存中完成，减少 HBM 访问
        print(f"[CANN-ops-transformer] FFN 执行完成，输入形状: {x.shape}")
        return self.dropout(self.linear2(self.dropout(self.activation(self.linear1(x)))))

class CannLayerNorm(nn.Module):
    """
    概念性封装了 CANN ops-transformer 优化过的 Layer Normalization 算子。
    内部实现会利用 Vector Unit 高效计算均值和方差，并进行归一化。
    """
    def __init__(self, normalized_shape: int, eps: float = 1e-5):
        super().__init__()
        print(f"[CANN-ops-transformer] 初始化优化 LayerNorm (normalized_shape={normalized_shape})...")
        self.norm = nn.LayerNorm(normalized_shape, eps=eps) # 实际会替换为底层优化核

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        前向传播：执行优化的 Layer Normalization。
        x: 输入张量，形状 (..., normalized_shape)
        """
        print(f"[CANN-ops-transformer] LayerNorm 执行完成，输入形状: {x.shape}")
        return self.norm(x)

class CannTransformerEncoderLayer(nn.Module):
    """
    概念性封装了 CANN ops-transformer 优化过的 Transformer Encoder 层。
    内部会利用 ops-transformer 的宏融合能力，将整个 Block 优化。
    """
    def __init__(self, embed_dim: int, num_heads: int, ff_dim: int, dropout_rate: float = 0.1):
        super().__init__()
        print(f"\n[CANN-ops-transformer] 初始化优化 Transformer Encoder Layer...")
        self.norm1 = CannLayerNorm(embed_dim)
        self.mha = CannMultiHeadAttention(embed_dim, num_heads, dropout_rate)
        self.dropout1 = nn.Dropout(dropout_rate)

        self.norm2 = CannLayerNorm(embed_dim)
        self.ffn = CannFeedForward(embed_dim, ff_dim, dropout_rate)
        self.dropout2 = nn.Dropout(dropout_rate)

    def forward(self, x: torch.Tensor, attn_mask: torch.Tensor = None, key_padding_mask: torch.Tensor = None) -> torch.Tensor:
        """
        前向传播：执行优化的 Transformer 编码器层。
        """
        # --- 子层 1: Multi-Head Attention ---
        residual = x
        x_norm1 = self.norm1(x) # 概念性：可能与 MHA 输入融合
        attn_output = self.mha(x_norm1, x_norm1, x_norm1, attn_mask=attn_mask, key_padding_mask=key_padding_mask)
        x = residual + self.dropout1(attn_output) # 概念性：可能与 LayerNorm 输出融合

        # --- 子层 2: Feed-Forward Network ---
        residual = x
        x_norm2 = self.norm2(x) # 概念性：可能与 FFN 输入融合
        ffn_output = self.ffn(x_norm2)
        x = residual + self.dropout2(ffn_output) # 概念性：可能与 LayerNorm 输出融合
        return x

# --- 实际使用示例 ---
if __name__ == '__main__':
    print("--- 概念性 CANN ops-transformer 使用示例 ---")
    embed_dim = 768       # 嵌入维度
    num_heads = 12        # 注意力头数
    ff_dim = 3072         # 前馈网络内部维度 (通常是 embed_dim * 4)
    seq_len = 512         # 序列长度
    batch_size = 4        # 批处理大小

    # 模拟输入数据 (随机生成)
    input_data = torch.randn(batch_size, seq_len, embed_dim)
    print(f"\n模拟输入数据形状: {input_data.shape}")

    # 模拟注意力掩码 (例如，用于自回归任务)
    # Causal mask: prevents attention to future tokens
    attn_mask = (torch.triu(torch.ones(seq_len, seq_len), diagonal=1) * float('-inf')).unsqueeze(0).unsqueeze(0)
    print(f"模拟注意力掩码形状: {attn_mask.shape}")

    # 实例化一个优化过的 Transformer 编码器层
    # 这一步会触发 ops-transformer 内部组件的初始化和注册
    optimized_encoder_layer = CannTransformerEncoderLayer(
        embed_dim=embed_dim,
        num_heads=num_heads,
        ff_dim=ff_dim,
        dropout_rate=0.1
    )

    # 将模型切换到推理模式 (如果需要，会影响 dropout 行为)
    optimized_encoder_layer.eval()

    # 执行前向传播
    print("\n--- 执行 Transformer 编码器层前向传播 ---")
    output_data = optimized_encoder_layer(input_data, attn_mask=attn_mask)

    print(f"\n优化 Transformer 编码器层后的输出数据形状: {output_data.shape}")
    print("\n此示例概念性地展示了 CANN ops-transformer 的优化组件如何被实例化")
    print("并在更高层级的模型定义中使用，打印信息模拟了底层优化核的执行。")
    print("在实际部署时，这些操作会在 CANN GE 的编译下，融合为高效的 OM 模型。")

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构