Nunchaku FLUX.1-dev部署实操：国产昇腾910B芯片ACL后端适配方案

本文介绍了如何在星图GPU平台上自动化部署Nunchaku FLUX.1-dev文生图镜像，实现基于昇腾910B芯片的AI图片生成。该方案通过ACL后端适配，降低了硬件门槛，用户可快速搭建环境，应用于创意设计、社交媒体配图等场景，高效生成高质量视觉内容。

刘非鱼

180人浏览 · 2026-02-28 01:08:44

刘非鱼 · 2026-02-28 01:08:44 发布

Nunchaku FLUX.1-dev部署实操：国产昇腾910B芯片ACL后端适配方案

想用最新的FLUX.1-dev模型生成惊艳的图片，但发现官方版本对硬件要求太高？今天我来分享一个实用的解决方案——在ComfyUI中部署Nunchaku FLUX.1-dev模型，特别是针对国产昇腾910B芯片的ACL后端适配方案。

这个方案最大的好处是大幅降低了硬件门槛。原本需要高端NVIDIA显卡才能流畅运行的FLUX.1-dev模型，现在通过Nunchaku的优化和量化技术，在昇腾910B芯片上也能获得不错的效果。无论你是想体验最新的文生图技术，还是需要在特定硬件环境下部署AI应用，这篇文章都能给你清晰的指引。

1. 环境准备与硬件选择

在开始部署之前，我们先要搞清楚需要什么样的环境。Nunchaku FLUX.1-dev模型对硬件和软件都有特定要求，选对了才能事半功倍。

1.1 硬件要求

根据你的硬件情况，选择对应的模型版本：

NVIDIA显卡用户：如果你有支持CUDA的NVIDIA显卡，这是最理想的情况。推荐显存24GB以上，如果显存不足（比如只有8GB或12GB），可以选择FP8量化版模型，效果会打点折扣但能用。
昇腾910B芯片用户：这是本文的重点。国产昇腾910B芯片通过ACL（Ascend Computing Language）后端支持，可以运行专门适配的模型版本。你需要确保系统已经安装了昇腾AI处理器驱动和CANN软件包。
其他硬件：目前Nunchaku FLUX.1-dev主要支持NVIDIA和昇腾平台，其他硬件如AMD显卡可能需要等待后续适配。

1.2 软件环境

无论使用哪种硬件，都需要准备以下基础软件环境：

Python 3.10+：这是必须的，建议使用Python 3.10或3.11版本，兼容性最好。
Git环境：用于克隆代码仓库，确保你的系统已经安装了Git。
PyTorch对应版本：根据你的系统和显卡选择合适版本。对于NVIDIA用户，需要匹配CUDA版本；对于昇腾用户，需要安装支持ACL后端的PyTorch版本。
必备工具：提前安装huggingface_hub，这是下载模型文件的工具：
```
pip install --upgrade huggingface_hub
```

如果你使用的是昇腾910B芯片，还需要额外确认：

昇腾AI处理器驱动已正确安装
CANN软件包版本与PyTorch适配
ACL后端环境变量已配置

2. Nunchaku ComfyUI插件安装部署

环境准备好后，我们开始安装ComfyUI和Nunchaku插件。ComfyUI是一个可视化的AI工作流工具，通过节点连接的方式运行模型，比命令行方式直观很多。

2.1 安装ComfyUI-nunchaku插件

有两种安装方法，你可以根据情况选择：

方法一：使用Comfy-CLI（最简单）

如果你喜欢命令行操作，这个方法最省事：

# 安装ComfyUI CLI工具
pip install comfy-cli

# 安装ComfyUI（如果已经安装过可以跳过）
comfy install

# 安装Nunchaku插件
comfy noderegistry-install ComfyUI-nunchaku

# 移动插件到正确目录
mv ComfyUI-nunchaku ComfyUI/custom_nodes/nunchaku_nodes

这个方法会自动处理依赖关系，适合新手。

方法二：手动安装（自定义性强）

如果你想完全控制安装过程，或者需要特定版本的ComfyUI，可以用这个方法：

# 1. 克隆ComfyUI仓库
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 2. 安装Python依赖
pip install -r requirements.txt

# 3. 克隆Nunchaku插件
cd custom_nodes
git clone https://github.com/mit-han-lab/ComfyUI-nunchaku nunchaku_nodes

手动安装的好处是可以选择特定的提交版本，如果后续版本有兼容性问题，可以回退到稳定版本。

2.2 安装Nunchaku后端

插件安装完成后，还需要安装Nunchaku后端。从v0.3.2版本开始，这个过程变得很简单：

进入ComfyUI的custom_nodes/nunchaku_nodes目录
运行依赖安装脚本（如果有的话）
通过install_wheel.json一键安装后端wheel包

对于昇腾910B芯片用户，这里有个关键点：需要确保安装的是支持ACL后端的Nunchaku版本。如果官方仓库没有提供预编译的昇腾版本，你可能需要从源码编译。

编译命令大致如下：

cd nunchaku_nodes
# 根据昇腾环境配置编译参数
python setup.py build --with-ascend
pip install .

编译过程中可能需要指定昇腾的库路径和头文件位置，具体参考昇腾的官方文档。

3. Nunchaku FLUX.1-dev模型使用准备

插件安装好了，接下来要准备模型文件。FLUX.1-dev模型由多个部分组成，需要分别下载并放到正确的位置。

3.1 配置Nunchaku工作流

为了让ComfyUI能识别Nunchaku的工作流，我们需要把示例工作流复制到指定目录：

# 进入ComfyUI根目录
cd ComfyUI

# 创建工作流目录（如果不存在）
mkdir -p user/default/example_workflows

# 复制Nunchaku示例工作流
cp custom_nodes/nunchaku_nodes/example_workflows/* user/default/example_workflows/

这个步骤很重要，否则在ComfyUI网页端看不到Nunchaku的工作流模板。

3.2 下载模型文件

FLUX.1-dev模型包含几个部分，需要分别下载。不同硬件对应不同的量化版本，选择错了可能无法运行。

3.2.1 下载基础FLUX模型（必须）

这部分是所有FLUX模型共享的组件，包括文本编码器和VAE模型：

# 文本编码器模型：放到models/text_encoders目录
hf download comfyanonymous/flux_text_encoders clip_l.safetensors --local-dir models/text_encoders
hf download comfyanonymous/flux_text_encoders t5xxl_fp16.safetensors --local-dir models/text_encoders

# VAE模型：放到models/vae目录
hf download black-forest-labs/FLUX.1-schnell ae.safetensors --local-dir models/vae

如果你已经通过其他方式下载了这些模型，可以创建软链接指向现有文件：

# 查看文本编码器模型
ls -l models/text_encoders/
# 应该看到类似这样的软链接：
# clip_l.safetensors -> /your/cache/path/text_encoders/clip_l.safetensors
# t5xxl_fp16.safetensors -> /your/cache/path/text_encoders/t5xxl_fp16.safetensors

# 查看VAE模型
ls -l models/vae/
# ae.safetensors -> /your/cache/path/vae/ae.safetensors

3.2.2 下载Nunchaku FLUX.1-dev主模型（核心）

这是最重要的部分，不同硬件要选择不同的量化版本：

Blackwell显卡（如RTX 50系列）：使用FP4模型
其他NVIDIA显卡：使用INT4模型
昇腾910B芯片：使用专门适配的版本（可能需要从特定仓库下载）
显存不足的用户：可以选择FP8量化版

下载INT4版本的命令示例：

hf download nunchaku-tech/nunchaku-flux.1-dev svdq-int4_r32-flux.1-dev.safetensors --local-dir models/unet/

对于昇腾用户，如果官方仓库没有提供预编译版本，你可能需要：

下载原始FP16模型
使用Nunchaku提供的工具进行量化转换
转换为昇腾支持的格式

转换命令可能类似这样：

# 将模型转换为昇腾支持的格式
python convert_to_ascend.py --input flux.1-dev.safetensors --output flux.1-dev_ascend.om

3.2.3 可选LoRA模型

LoRA模型可以微调生成效果，比如让图片风格更接近某种艺术流派。常用的LoRA有：

FLUX.1-Turbo-Alpha：加速生成，减少推理步数
Ghibsky Illustration：吉卜力动画风格
其他风格化LoRA

下载后放到models/loras/目录：

# 查看已下载的LoRA
ls -l models/loras/
# 应该看到类似：
# diffusion_pytorch_model.safetensors -> /your/path/diffusion_pytorch_model.safetensors
# lora_v2.safetensors -> /your/path/lora_v2.safetensors

4. 启动ComfyUI并运行FLUX.1-dev文生图

所有准备工作完成后，终于可以开始生成图片了。

4.1 启动ComfyUI

在ComfyUI根目录执行启动命令：

# 常规启动
python main.py

# 如果需要指定端口
python main.py --port 8188

# 昇腾用户可能需要指定后端
python main.py --ascend-backend

启动成功后，在浏览器打开http://localhost:8188（如果是默认端口）就能看到ComfyUI的网页界面。

4.2 选择Nunchaku FLUX.1-dev工作流

在ComfyUI网页端，点击"Load"按钮，选择我们之前复制的工作流。对于文生图，推荐使用nunchaku-flux.1-dev.json。

这个工作流的特点：

基于Nunchaku FLUX.1-dev模型
支持加载多个LoRA
文生图效果经过优化

Nunchaku FLUX.1-dev工作流界面

如果加载工作流时提示节点缺失，可能是缺少某些自定义节点。可以通过ComfyUI-Manager（如果已安装）搜索安装，或者根据错误信息手动安装对应节点。

4.3 文生图参数设置与运行

现在到了最有趣的部分——生成图片。在工作流界面中，你需要设置几个关键参数：

提示词输入：在对应的文本框中输入英文描述。FLUX模型对英文提示词支持更好，比如：

A beautiful landscape with mountains and lakes, ultra HD, realistic, 8K

或者更具体的描述：

A cute cartoon cat wearing a hat, sitting in a garden, sunny day, detailed illustration, Pixar style

提示词输入区域

参数调整：
- 推理步数：一般20-50步，步数越多细节越好但耗时越长
- 分辨率：默认可能是1024x1024，显存不足可以降低到512x512
- LoRA权重：如果加载了LoRA，可以调整权重控制风格强度
- 采样器：选择适合的采样器，如Euler、DPM++等
运行生成：点击"Queue Prompt"按钮开始生成。第一次运行可能会比较慢，因为要加载模型到显存或内存。

生成过程中，你可以在右下角看到进度信息。生成完成后，图片会显示在预览区域，同时保存到ComfyUI的输出目录。

5. 昇腾910B芯片特别注意事项

如果你使用的是昇腾910B芯片，有几个地方需要特别注意：

5.1 模型格式转换

昇腾芯片使用自家的OM（Offline Model）模型格式，而不是常见的PyTorch或TensorFlow格式。你可能需要：

将下载的模型转换为ONNX格式
使用昇腾的ATC工具将ONNX转换为OM格式
确保转换时的输入输出维度与ComfyUI节点匹配

5.2 内存优化

昇腾910B芯片的显存管理方式与NVIDIA显卡不同，可能需要：

调整模型分片策略
优化内存复用
使用昇腾提供的内存优化工具

5.3 性能调优

为了获得最佳性能，可以尝试：

调整batch size大小
使用昇腾的图编译优化
开启混合精度计算
根据具体模型调整流水线并行策略

6. 常见问题与解决方案

在实际使用中，你可能会遇到一些问题。这里列举几个常见的：

6.1 显存不足错误

问题：运行时报错，提示显存不足。

解决方案：

使用量化版模型（INT4或FP8）
降低生成分辨率
减少batch size
关闭不必要的LoRA
对于昇腾用户，检查内存分配策略

6.2 模型加载失败

问题：ComfyUI无法加载模型文件。

解决方案：

检查模型文件路径是否正确
确认文件权限（是否可读）
验证模型文件完整性（下载是否完整）
对于昇腾OM格式，检查是否与芯片版本匹配

6.3 生成速度慢

问题：图片生成速度比预期慢很多。

解决方案：

使用FLUX.1-Turbo-Alpha LoRA加速
减少推理步数（但不要低于20步）
调整采样器设置
对于昇腾用户，检查是否启用了性能模式

6.4 图片质量不理想

问题：生成的图片模糊、扭曲或不符合预期。

解决方案：

优化提示词（更详细、更具体的描述）
增加推理步数
尝试不同的采样器
调整CFG scale值（提示词相关性）
使用质量相关的LoRA

7. 进阶使用技巧

掌握了基础用法后，可以尝试一些进阶技巧提升使用体验：

7.1 工作流定制

不要局限于官方提供的工作流，你可以：

添加新的处理节点（如上采样、面部修复）
创建自己的工作流模板
将多个工作流串联实现复杂效果

7.2 批量处理

如果需要生成大量图片，可以：

编写脚本自动化运行
使用ComfyUI的API接口
设置队列批量处理

7.3 模型融合

尝试将FLUX.1-dev与其他模型结合：

使用ControlNet添加姿势控制
结合IP-Adapter实现图像风格迁移
集成多个LoRA创造独特风格

8. 总结

通过本文的步骤，你应该已经成功在ComfyUI中部署了Nunchaku FLUX.1-dev模型，无论是使用NVIDIA显卡还是昇腾910B芯片。这个方案的最大价值在于降低了先进AI模型的使用门槛，让更多开发者和研究者能够体验和利用最新的文生图技术。

关键要点回顾：

环境准备是基础：根据硬件选择正确的软件版本和模型量化方式
插件安装要完整：ComfyUI本体、Nunchaku插件、后端支持一个都不能少
模型文件放对位置：不同组件要放到对应的目录，否则无法加载
参数调整有讲究：推理步数、分辨率、LoRA权重都会影响最终效果
昇腾适配需注意：模型格式转换和性能优化是成功的关键

对于昇腾910B芯片用户来说，虽然适配过程可能比NVIDIA平台复杂一些，但成功部署后的意义更大——这证明了国产芯片完全有能力运行先进的AI模型。随着生态的不断完善，未来会有更多模型原生支持昇腾平台。

最后给个小建议：刚开始使用时，不要追求完美效果。先确保能正常运行，生成出图片，然后再慢慢调整参数、优化提示词、尝试不同LoRA。AI生成本身就有一定随机性，多尝试几次，你会逐渐掌握让模型听话的技巧。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍