CANN ops-nn 算子解读：AIGC 视频生成中的 GroupNorm 与 Upsample 实现

本文基于 CANN ops-nn 仓库中的 GroupNorm 和 Upsample 算子，解析其在 AIGC 视频生成（如 Sora、Runway）中的关键作用。

Dimpels

360人浏览 · 2026-02-06 23:17:14

Dimpels · 2026-02-06 23:17:14 发布

本文基于 CANN ops-nn 仓库中的 GroupNorm 和 Upsample 算子，解析其在 AIGC 视频生成（如 Sora、Runway）中的关键作用。

一、视频生成与归一化/上采样

1.1 Sora：AIGC 视频生成的新纪元

2024 年 2 月，OpenAI 发布了 Sora，一款能够生成长达 60 秒高质量视频的 AIGC 模型。Sora 的出现标志着 AIGC 从静态图像迈向动态视频的重大突破。

视频生成是 AIGC 的"终极挑战"：

时间一致性：视频帧之间需要连贯，不能"跳帧"
计算量巨大：1 秒视频 = 24-60 帧图像
内存需求高：需要同时处理多帧的时空信息

Sora 等视频生成模型基于 DiT（Diffusion Transformer） 架构，其中 GroupNorm 和 Upsample 是核心算子。

CANN ops-nn 仓库提供了支持 3D 数据的 GroupNorm 和 Upsample 算子，为 AIGC 视频生成应用提供算力支撑。

1.2 ops-nn 算子的 AIGC 价值

算子	视频生成场景	优化重点
GroupNorm	DiT 每层归一化	3D 数据支持
Upsample	VAE 解码上采样	大分辨率效率
Conv3D	时序卷积	时空建模

二、ops-nn GroupNorm 实现

2.1 GroupNorm vs LayerNorm

视频生成选择 GroupNorm 的原因：

2.2 3D GroupNorm

ops-nn 支持视频数据的 3D GroupNorm：

典型配置：

通道数 C = 1280
分组数 G = 32
每组 40 个通道

三、ops-nn Upsample 实现

3.1 上采样方法

ops-nn 支持多种上采样方式：

方法	特点	视频生成应用
Nearest	最快	快速预览
Bilinear	平滑	空间上采样
Trilinear	3D 插值	时空上采样

3.2 VAE Decoder 上采样

视频 VAE 解码器的上采样流程：

四、性能数据

4.1 GroupNorm 性能

Shape	Groups	耗时
[1, 1280, 16, 64, 64]	32	0.8ms
[1, 640, 32, 128, 128]	32	1.2ms

4.2 Upsample 性能

输入 Shape	缩放	方法	耗时
[1, 4, 16, 64, 64]	2×	Trilinear	0.3ms
[1, 256, 32, 128, 128]	2×	Nearest	0.15ms

五、开发者实践

// ops-nn GroupNorm
aclnnGroupNorm(workspace, workspaceSize,
               input, weight, bias,
               numGroups, eps,
               output, mean, rstd, stream);

// ops-nn Upsample
aclnnUpsampleTrilinear3d(workspace, workspaceSize,
                         input, outputSize,
                         alignCorners, scaleFactors,
                         output, stream);

六、视频生成技术演进

6.1 从图像到视频

视频生成技术经历了重大突破：

时代	模型	特点	视频长度
2022	Make-A-Video	图像扩展	几秒
2023	Gen-2	商用级	4秒
2024	Sora	长视频	60秒
2024	Kling	国产	5秒

6.2 视频生成的挑战

七、3D 归一化详解

7.1 GroupNorm 3D 扩展

7.2 为什么视频生成用 GroupNorm

归一化	Batch 依赖	时序处理	适用性
BatchNorm	强	差	不适合
LayerNorm	无	中	可用
GroupNorm	无	好	最适合

八、3D Upsample 详解

8.1 时空上采样

8.2 插值方法

方法	维度	适用场景
Nearest	3D	快速预览
Trilinear	3D	平滑上采样
Bilinear	2D (空间)	仅空间上采样

九、Sora 架构分析

9.1 DiT 架构

9.2 DiT Block 结构

十、性能优化策略

10.1 3D 算子优化

优化技术	方法	收益
时空分离	先空间后时间	减少计算
分块处理	时间维度分块	减少内存
混合精度	FP16 计算	速度翻倍

10.2 内存优化

技术	方法	收益
梯度检查点	重计算换内存	内存减少 60%
分块推理	时间维度分块	支持长视频
量化	INT8 权重	内存减半

十一、开发者实践指南

11.1 完整调用示例

#include "aclnn/acl_nn.h"

// 3D GroupNorm
aclnnStatus gn3dStatus = aclnnGroupNorm(
    workspace, workspaceSize,
    input,              // [B, C, T, H, W]
    weight,             // [C]
    bias,               // [C]
    32,                 // num_groups
    1e-6,               // eps
    output,
    mean,
    rstd,
    stream
);

// 3D Upsample (Trilinear)
int64_t outputSize[] = {32, 128, 128};  // T, H, W
aclnnStatus upsample3dStatus = aclnnUpsampleTrilinear3d(
    workspace, workspaceSize,
    input,              // [B, C, T, H, W]
    outputSize,
    false,              // align_corners
    nullptr,            // scale_factors
    output,
    stream
);

// 3D Upsample (Nearest)
aclnnStatus upsampleNearest3dStatus = aclnnUpsampleNearest3d(
    workspace, workspaceSize,
    input,
    outputSize,
    output,
    stream
);

// 视频 VAE Decoder
void videoVaeDecoder(
    aclTensor* latent,      // [B, 4, T/8, H/8, W/8]
    aclTensor* output       // [B, 3, T, H, W]
) {
    // 1. 初始卷积
    aclnnConv3d(workspace, workspaceSize,
                latent, conv_in_weight, conv_in_bias,
                stride, padding, dilation, 1,
                hidden, stream);
    
    // 2. 上采样块 (循环 3 次)
    for (int i = 0; i < 3; i++) {
        // ResBlock
        aclnnGroupNorm(workspace, workspaceSize,
                       hidden, gn_weight, gn_bias, 32, 1e-6,
                       normed, mean, rstd, stream);
        
        aclnnSilu(workspace, workspaceSize,
                  normed, act, stream);
        
        aclnnConv3d(workspace, workspaceSize,
                    act, conv_weight, conv_bias,
                    stride, padding, dilation, 1,
                    conv_out, stream);
        
        aclnnAdd(workspace, workspaceSize,
                 hidden, conv_out, 1.0, hidden, stream);
        
        // 上采样
        aclnnUpsampleTrilinear3d(workspace, workspaceSize,
                                 hidden, outputSize, false, nullptr,
                                 upsampled, stream);
        hidden = upsampled;
    }
    
    // 3. 输出卷积
    aclnnConv3d(workspace, workspaceSize,
                hidden, conv_out_weight, conv_out_bias,
                stride, padding, dilation, 1,
                output, stream);
}

11.2 常见问题与解决方案

问题	原因	解决方案
内存溢出	视频太长	分块处理
时间不连贯	时序建模不足	增加时序注意力
生成慢	计算量大	使用量化或蒸馏

十二、总结与展望

12.1 核心要点

CANN ops-nn 仓库中的 3D 算子具有以下特点：

3D 支持：GroupNorm、Upsample 支持 5D 张量
时空处理：支持时间和空间维度的独立/联合处理
高效实现：针对视频数据优化
AIGC 适配：支持 Sora 类视频生成模型

12.2 视频生成建议

场景	推荐配置	理由
短视频	完整推理	质量优先
长视频	分块推理	内存限制
实时生成	量化 + 蒸馏	速度优先

相关链接：

🏠 CANN 组织主页：https://atomgit.com/cann
📦 ops-nn 仓库地址：https://atomgit.com/cann/ops-nn

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍