CANN ops-nn 算子解读：AIGC 文本编码中的 CLIP Text Encoder 相关算子

本文基于 CANN ops-nn 仓库中的 Transformer 相关算子，解析其在 AIGC 文本编码（CLIP）中的应用。

Dimpels

400人浏览 · 2026-02-07 00:12:55

Dimpels · 2026-02-07 00:12:55 发布

本文基于 CANN ops-nn 仓库中的 Transformer 相关算子，解析其在 AIGC 文本编码（CLIP）中的应用。

一、CLIP 文本编码器

1.1 AIGC 的"翻译官"：CLIP 如何理解文字

当你输入"一只可爱的橘猫躺在沙发上晒太阳"，Stable Diffusion 是如何理解这段文字并生成对应图像的？答案是 CLIP（Contrastive Language-Image Pre-training） 文本编码器。

CLIP 是 OpenAI 开发的多模态模型，它学会了将文字和图像映射到同一个向量空间。在 AIGC 文生图系统中，CLIP 扮演着"翻译官"的角色：

理解语义：将自然语言转换为机器可理解的向量
捕捉细节：区分"红色的苹果"和"绿色的苹果"
支持组合：理解"戴帽子的猫骑自行车"这样的复杂描述

CLIP 的文本编码器基于 Transformer 架构，包含 12 层 Transformer Block，每层都使用 Embedding、LayerNorm、Linear、Softmax 等算子。

 渲染错误: Mermaid 渲染失败: Parse error on line 2: ... LR A[文本提示 
 
 "一只猫"] --> B[Tokenize ----------------------^ Expecting 'SQE', 'DOUBLECIRCLEEND', 'PE', '-)', 'STADIUMEND', 'SUBROUTINEEND', 'PIPE', 'CYLINDEREND', 'DIAMOND_STOP', 'TAGEND', 'TRAPEND', 'INVTRAPEND', 'UNICODE_TEXT', 'TEXT', 'TAGSTART', got 'STR'

CANN ops-nn 仓库提供了构建 CLIP 文本编码器所需的全部算子，支持高效的文本理解能力。

1.2 Text Encoder 相关算子

算子	功能	编码器场景
Embedding	词嵌入	Token → 向量
LayerNorm	层归一化	稳定训练
Linear	线性投影	QKV 计算
Softmax	注意力权重	Self Attention

二、Text Encoder 结构

2.1 整体架构

2.2 单层 Transformer

三、关键算子实现

3.1 Causal Attention Mask

CLIP 使用因果掩码：

掩码确保每个位置只能看到之前的 Token。

3.2 QuickGELU 激活

CLIP 使用 QuickGELU：

QuickGELU(x) = x × sigmoid(1.702 × x)

使用 ops-nn: aclnnMul + aclnnSigmoid

四、性能数据

组件	Shape	耗时
Token Embedding	[1, 77] → [1, 77, 768]	0.05ms
Single Transformer Layer	[1, 77, 768]	0.8ms
Full Text Encoder (12 层)	[1, 77, 768]	10ms

五、开发者实践

// CLIP Text Encoder 核心算子
aclnnEmbedding(...);    // Token 嵌入
aclnnLayerNorm(...);    // 层归一化
aclnnMatmul(...);       // QKV 投影
aclnnSoftmax(...);      // 注意力权重
aclnnSigmoid(...);      // QuickGELU

六、CLIP 技术演进

6.1 从单模态到多模态

多模态模型技术经历了重要演进：

时代	模型	特点	文本编码
2018	BERT	纯文本	Transformer
2020	ViT	纯图像	Transformer
2021	CLIP	图文对齐	Transformer
2022	BLIP	图文生成	Transformer
2023	LLaVA	多模态对话	LLM

6.2 CLIP 的核心创新

七、Text Encoder 详细架构

7.1 完整架构图

7.2 单层 Transformer 详解

八、ops-nn 算子在 CLIP 中的应用

8.1 Embedding 查表

8.2 因果注意力掩码

CLIP 使用因果掩码，每个位置只能看到之前的 Token：

掩码矩阵 (77×77):
[0, -inf, -inf, ..., -inf]
[0,    0, -inf, ..., -inf]
[0,    0,    0, ..., -inf]
...
[0,    0,    0, ...,    0]

8.3 QuickGELU vs GELU

激活函数	公式	计算量
GELU	x × Φ(x)	高
QuickGELU	x × σ(1.702x)	低

CLIP 使用 QuickGELU，计算更快。

九、AIGC 文本编码应用

9.1 Stable Diffusion 中的 CLIP

9.2 提示词工程

提示词技巧	示例	效果
详细描述	“a cute orange cat sitting on a sofa”	更准确
风格词	“in the style of Van Gogh”	风格控制
质量词	“highly detailed, 8k”	质量提升
负向提示	“blurry, low quality”	避免缺陷

9.3 多语言支持

模型	支持语言	中文效果
CLIP (OpenAI)	英文为主	一般
Chinese-CLIP	中英文	好
AltCLIP	多语言	好

十、性能优化策略

10.1 Text Encoder 优化

优化技术	方法	收益
KV Cache	缓存 K/V 矩阵	减少重复计算
算子融合	QKV 合并投影	减少 Kernel 调用
量化	INT8 权重	内存减半

10.2 不同提示词长度性能

提示词长度	Token 数	编码耗时
短	10	3ms
中	40	8ms
长	77	12ms

十一、开发者实践指南

11.1 完整调用示例

#include "aclnn/acl_nn.h"

// CLIP Text Encoder 完整实现
void clipTextEncode(int* tokenIds, int seqLen, float* output) {
    // 1. Token Embedding
    aclnnEmbedding(workspace, workspaceSize,
                   tokenEmbeddingTable,  // [49408, 768]
                   tokenIds,              // [1, 77]
                   tokenEmbedding,        // [1, 77, 768]
                   stream);
    
    // 2. Position Embedding
    aclnnEmbedding(workspace, workspaceSize,
                   positionEmbeddingTable,  // [77, 768]
                   positionIds,              // [1, 77]
                   positionEmbedding,
                   stream);
    
    // 3. 相加
    aclnnAdd(workspace, workspaceSize,
             tokenEmbedding, positionEmbedding, 1.0,
             hidden, stream);
    
    // 4. Transformer Layers (循环 12 次)
    for (int layer = 0; layer < 12; layer++) {
        // 4.1 Pre-LayerNorm
        aclnnLayerNorm(workspace, workspaceSize,
                       hidden, normalizedShape,
                       ln1Weight, ln1Bias, 1e-5,
                       normed, mean, rstd, stream);
        
        // 4.2 Self Attention
        // Q, K, V 投影
        aclnnLinear(workspace, workspaceSize,
                    normed, qWeight, qBias, Q, stream);
        aclnnLinear(workspace, workspaceSize,
                    normed, kWeight, kBias, K, stream);
        aclnnLinear(workspace, workspaceSize,
                    normed, vWeight, vBias, V, stream);
        
        // Attention Score
        aclnnMatmul(workspace, workspaceSize,
                    Q, K_transposed, attnScore, 0, stream);
        
        // 加因果掩码
        aclnnAdd(workspace, workspaceSize,
                 attnScore, causalMask, 1.0, maskedScore, stream);
        
        // Softmax
        aclnnSoftmax(workspace, workspaceSize,
                     maskedScore, -1, attnProbs, stream);
        
        // Attention Output
        aclnnMatmul(workspace, workspaceSize,
                    attnProbs, V, attnOut, 0, stream);
        
        // Output 投影
        aclnnLinear(workspace, workspaceSize,
                    attnOut, outWeight, outBias, projected, stream);
        
        // 残差连接
        aclnnAdd(workspace, workspaceSize,
                 hidden, projected, 1.0, hidden, stream);
        
        // 4.3 FFN
        aclnnLayerNorm(workspace, workspaceSize,
                       hidden, normalizedShape,
                       ln2Weight, ln2Bias, 1e-5,
                       normed2, mean2, rstd2, stream);
        
        aclnnLinear(workspace, workspaceSize,
                    normed2, fc1Weight, fc1Bias, fc1Out, stream);
        
        // QuickGELU: x * sigmoid(1.702 * x)
        aclnnMul(workspace, workspaceSize,
                 fc1Out, 1.702f, scaled, stream);
        aclnnSigmoid(workspace, workspaceSize,
                     scaled, sigOut, stream);
        aclnnMul(workspace, workspaceSize,
                 fc1Out, sigOut, geluOut, stream);
        
        aclnnLinear(workspace, workspaceSize,
                    geluOut, fc2Weight, fc2Bias, fc2Out, stream);
        
        // 残差连接
        aclnnAdd(workspace, workspaceSize,
                 hidden, fc2Out, 1.0, hidden, stream);
    }
    
    // 5. Final LayerNorm
    aclnnLayerNorm(workspace, workspaceSize,
                   hidden, normalizedShape,
                   finalLnWeight, finalLnBias, 1e-5,
                   output, mean, rstd, stream);
}

11.2 常见问题与解决方案

问题	原因	解决方案
中文效果差	原版 CLIP 英文为主	使用 Chinese-CLIP
长提示词截断	最大 77 Token	分段编码或使用长上下文模型
编码慢	未优化	使用算子融合

十二、总结与展望

12.1 核心要点

CANN ops-nn 仓库中的 CLIP 相关算子具有以下特点：

完整支持：Embedding、LayerNorm、Linear、Softmax 全覆盖
因果掩码：支持 CLIP 的因果注意力
QuickGELU：高效的激活函数实现
AIGC 适配：针对 Stable Diffusion 优化

12.2 AIGC 文本编码建议

场景	推荐配置	理由
英文生成	原版 CLIP	效果最好
中文生成	Chinese-CLIP	中文支持好
长提示词	分段编码	突破 77 Token 限制

相关链接：

🏠 CANN 组织主页：https://atomgit.com/cann
📦 ops-nn 仓库地址：https://atomgit.com/cann/ops-nn

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍