基于 SGLang Chunked-Prefill 支持 Block-Wise Diffusion LLM 框架

在使用 0.95 阈值解码时，LLaDA2.0-flash-CAP 实现了 500 TPS 的速度，明显优于普通版的 LLaDA2.0-flash（383 TPS），并在小批量处理场景下，比自回归基准模型（分别为 258 TPS 和 237 TPS）快了约 1.9 倍。因此，实现高效的批处理成为我们必须解决的关键问题，核心改动是让 SGLang 能够在单个计算周期内，同时处理来自多个请求的扩散块，

蚂蚁开源

424人浏览 · 2026-02-12 16:36:58

蚂蚁开源 · 2026-02-12 16:36:58 发布

在蚂蚁集团，我们始终致力于提升大规模人工智能的效率与能力。我们很高兴地宣布在与 SGLang 社区合作中引入了对扩散大语言模型（dLLM）的支持。通过利用现有的分块预填充（Chunked-Prefill）机制，该方案实现了：

无缝集成：
内置 SGLang 框架，不改动核心架构

性能继承：
该框架受益于 SGLang 现有的推理优化技术

极高灵活性：
为用户定义扩散解码算法提供了充分的灵活性

英文 Blog

Power Up Diffusion LLMs: Day‑0 Support for LLaDA 2.0
https://lmsys.org/blog/2025-12-19-diffusion-llm/

RFC: Block Diffusion Large Language Model (dLLM) Framework In SGLang
https://github.com/sgl-project/sglang/issues/12766

背景：新挑战的出现

近期，LLaDA 的发布在学界和业界引起广泛关注。蚂蚁集团与中国人民大学合作研究发现，dLLM 凭借其独特的执行方式，在模型效果上已能够媲美传统的自回归（AR）模型。更重要的是，dLLM 采用并行解码策略，推理速度显著提升。dLLM 用更多的算力换取了更低的延迟体验，在低延迟的应用场景中表现突出。

同时，随着 dLLM 参数规模的不断增长，我们也观察到了其与 AR 大模型类似的 Scaling Law。为了追求更强大的 dLLM，蚂蚁团队训练了拥有 100B 参数的 LLaDA2.0-flash 模型（https://huggingface.co/papers/2512.15745）。在训练 LLaDA2.0-flash 的过程中，我们面临了诸多 AI 基础设施方面的工程挑战，尤其是模型评测和强化学习（RL）后训练阶段的效率与稳定性的问题。

此前，尽管已有一些 dLLM 推理引擎，例如 Fast-dLLM 等在算法调试和扩散解码方法验证方面表现非常优秀，但在支撑大规模 dLLM 的评测与后训练方面仍缺乏生产级的服务能力，例如在批处理、请求调度、RL 生态整合及并行能力等方面尚有欠缺。

而 SGLang 作为当前主流的 LLM 推理引擎，在工程水位、技术先进性和生态完整性上优势明显：

生产稳定：已在数千家企业中部署，具备稳定可靠的工程基础；
技术领先：内置大量先进推理优化技术，社区持续贡献新的优化方案；
生态完善：与 RL 后训练环节高度集成。

此前，SGLang 仅支持传统的自回归计算模式，尚未适配扩散语言模型的计算方式。因此，蚂蚁集团 DeepXPU 团队与 SGLang dLLM 小组进行合作，来解决核心挑战：如何在保持 SGLang 原有架构完整的前提下，引入对扩散大语言模型的支持，来充分利用 SGLang 已有的优化能力，站在巨人的肩膀上。

方案设计：发现并利用现有路径

关于当前 dLLM 的发展趋势，我们观察到两个关键变化：由于全向注意力扩散计算开销大、KV Cache 利用率低，主流 dLLM 正逐渐转向块扩散解码架构（Block Diffusion）。有意思的是，块扩散的计算模式与 SGLang 现有的“分块预填充（Chunked Prefill）”机制非常相似。

系统架构

我们目前的方案，正是近似 SGLang 的 Chunked Prefill 执行流，为块扩散语言模型提供计算支持，从而使 dLLM 能够无缝融入 SGLang 现有生态。

如图所示，这一方案对 SGLang 框架本身的改动非常小，核心抽象和执行流程基本保持不变。近似现有的 Chunked-Prefill 机制，重点对资源管理器（Prefill Adder）和调度实现进行了改造适配。

在 SGLang 中，Chunked Prefill 原本是为了最大化 GPU 利用率而设计，因此 Prefill 对于请求单个块的大小通常设置得较大（根据 GPU 型号，长度设置在 2K 到 16K 之间）。当序列足够长时，一次只处理一个请求。

但dLLM 的解码过程有所不同：它是在“块”级别上对请求序列进行分割。以 LLaDA2.0 为例，每个块的大小仅为 32 个 token。如果继续沿用 SGLang 一次处理一个大请求的做法，GPU 性能将无法得到有效利用。因此，实现高效的批处理成为我们必须解决的关键问题，核心改动是让 SGLang 能够在单个计算周期内，同时处理来自多个请求的扩散块，从而显著提升计算效率。

此外，在实际的解码执行环节，我们在 TP Worker 和 Model Runner 之间新增了一个扩散算法抽象层。当系统识别出当前模型为扩散模型时，执行流程便会自动转入这一专用分支，调用对应的扩散算法来完成整个块（Block）的解码。引入这一算法抽象层，使得底层工程优化对上层变得透明。算法工程师无需再关注具体的底层实现细节，只需在此抽象层内专注于编写他们期望的解码算法逻辑即可。

注意力掩码 (Attention Mask)

在单次模型前向传递中，块扩散与分块预填充最大的区别体现在注意力掩码的处理上。块扩散采用的是块级因果掩码，而 AR 模型的分块预填充则使用的是传统的逐 token 因果掩码。

我们可以将块扩散理解为对分块预填充机制的一种扩展。在注意力计算环节，一次前向传递主要分为两部分，最终将两者的输出拼接起来：

上下文查询：使用当前块的查询向量 Q_curr 对已有的 KV Cache 进行双向注意力计算。这一步的目标是让当前块能够充分感知历史上下文信息，对块扩散和分块预填充来说，这部分计算逻辑是相同的。
块内查询：使用 Q_curr 与当前块自身的键值（KV）进行计算。
1. 块扩散在此环节使用双向注意力，允许块内 token 之间相互关注；
2. 而分块预填充则必须使用因果掩码，保持自回归的先后顺序约束。

我们可以借助一个几何图形来直观理解：如果将 Q_curr 对应的注意力掩码可视化，那么分块预填充（因果掩码）呈现为梯形或三角形，而块扩散（双向注意力）则对应一个完整的矩形。

效果展示

来看一段 LLaDA2.0-flash-CAP（100B / BF16）与 gpt-oss-120B（117B / MXFP4）在流式输出时的对比演示。测试任务是用 10 种编程语言分别实现快速排序，这类任务比较适合 dLLM 发挥优势。实验在 8×H20 硬件上进行，LLaDA2.0-flash-CAP 使用我们适配的 SGLang dLLM（TP8）运行，gpt-oss-120B 则在相同硬件上采用 SGLang 标准自回归流程。从结果可见，在此场景下 LLaDA2.0-flash-CAP 实现了935 tokens/s 的吞吐量，显著高于对照模型的 263 tokens/s。

需要说明的是，SGLang dLLM 支持与自回归模型相同的流式输出方式，区别在于它每次输出的是一个完整块（例如 32 个token），而非单个 token。

如何使用

启动命令示

python3 -m sglang.launch_server \
  --model-path inclusionAI/LLaDA2.0-mini \ # 示例 HF/本地路径
  --dllm-algorithm LowConfidence \
  --dllm-algorithm-config ./config.yaml \ # 可选。若未设置则使用算法默认值。
  --host 0.0.0.0 \  --port 30000

注意：使用 --dllm-algorithm-config 对所选的 --dllm-algorithm 算法进行高级配置。此功能实现了解耦了算法配置和启动参与，允许用户自定义灵活的算法参数。

客户端代码片段示例

与其他支持的模型一样，dLLM 可以通过 REST API 或离线引擎 API 使用。

SGLang 服务器模式：使用 Curl 命令发送生成请求

curl -X POST "[http://127.0.0.1:30000/generate](http://127.0.0.1:30000/generate)" \
     -H "Content-Type: application/json" \
     -d '{
        "text": [
            "<role>SYSTEM</role>detailed thinking off<|role_end|><role>HUMAN</role>写出从1到128的数字<|role_end|><role>ASSISTANT</role>",
            "<role>SYSTEM</role>detailed thinking off<|role_end|><role>HUMAN</role>简要介绍长城<|role_end|><role>ASSISTANT</role>"
        ],
        "stream": true,
        "sampling_params": {
            "temperature": 0,
            "max_new_tokens": 1024
        }
    }'

SGLang 引擎模式：

import sglang as sgl

def main():
    llm = sgl.Engine(model_path="inclusionAI/LLaDA2.0-mini",
                     dllm_algorithm="LowConfidence",
                     max_running_requests=1,
                     trust_remote_code=True)

    prompts = [
        "<role>SYSTEM</role>detailed thinking off<|role_end|><role>HUMAN</role>简要介绍长城<|role_end|><role>ASSISTANT</role>"
    ]

    sampling_params = {
        "temperature": 0,
        "max_new_tokens": 1024,
    }

    outputs = llm.generate(prompts, sampling_params)
    print(outputs)

if __name__ == '__main__':
    main()

性能表现

我们在一系列标准任务上，将 LLaDA2.0-flash 与同等规模的先进自回归模型（AR）进行了性能对比测试。整体来看，LLaDA2.0 在推理任务上的表现能够达到与同类规模模型相当的水平，同时在吞吐速度上具备明显优势。

以下是 LLaDA2.0‑flash 两项辅助性能指标的具体情况：

在 12 项标准测试中，我们比较了是否采用“置信度感知并行”（CAP）训练的模型平均得分，以及单次前向推理能生成的 token 数量（TPF）。
LLaDA2.0‑flash 在 HumanEval、MBPP、GSM8K 和 CRUXEval 四个测试集上，与规模相当的自回归模型进行了推理速度（tokens/秒）的对比。

所有测试均在统一环境中进行（SGLang + TP8 + H20），保证了扩散型大语言模型与自回归基准模型之间的公平比较。在使用 0.95 阈值解码时，LLaDA2.0-flash-CAP 实现了 500 TPS 的速度，明显优于普通版的 LLaDA2.0-flash（383 TPS），并在小批量处理场景下，比自回归基准模型（分别为 258 TPS 和 237 TPS）快了约 1.9 倍。

发展路线图 (Roadmap)

当前实现已完全支持以下功能：

块扩散 LLM 框架主逻辑
KV Cache 支持
LLaDA-2.0-mini/flash 模型集成
自定义解码算法
流式 I/O 能力
Batching 批处理支持
张量并行 / 专家并行
CUDA Graph

中长期路线图

近期 Roadmap：https://github.com/sgl-project/sglang/issues/14199

支持更多 SGLang 现有的系统优化技术
集成更多通用的扩散解码算法（如 Fast-dLLM v2）
兼容非块扩散的 dLLM 模型（如 LLaDA & RND1）

参考文献

LLaDA1 技术报告：
https://arxiv.org/pdf/2502.09992
LLaDA2 技术报告：
https://huggingface.co/papers/2512.15745
Fast-dLLM v2 技术报告：
https://arxiv.org/pdf/2509.26328

致谢

此项工作离不开以下多方团队的紧密协作：

蚂蚁集团 DeepXPU 团队: 李泽寰, 别体伟, 江忠辉, 姚菁华, 高玉嵩, 龚明亮, 谈鉴锋
蚂蚁集团 inclusionAI 团队: 陈琨, 黄泽楠, 刘琳, 陈福元, 杜仑, 郑达
SGLang dLLM 团队: 姚锦炜, Mick Qian, 尹良升, BBuf, 朱邦华, 赵晨阳
NVIDIA Fast-dLLM 团队: 吴成岳, 张浩, 谢恩泽, 韩松

关于我们

蚂蚁集团 DeepXPU 团队致力于：

Software & Hardware Co-Design：深入分析 GPU 等AI芯片硬件架构，打磨极致的算子与显存优化技术，优化大模型引擎，构建异构虚拟化能力。通过系统建设优化，计算效率逼近硬件性能极限，构建面向大模型的 AI 系统生态和提升智算集群效率。
Algorithm & System Co-Design：从系统的角度，和算法团队紧密配合，共同探索大模型结构和范式创新，面向大规模 AI 应用场景进行系统级优化与创新。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

解决LLM推理“脑裂”难题：Kubernetes LeaderWorkerSet（LWS）组件在大模型推理部署中的应用

昇腾开源生态专区

【大模型学习推理】 profile 学习

SGLang 服务器接收到一个请求，并将其与其他请求批处理后，在一个采用张量并行的多 GPU 环境中，执行 Qwen3-MoE 模型的一个 Transformer 层的计算。关键步骤是：调度与分发：SGLang 调度器将请求交给一个 Tensor Parallelism Worker。进入模型层：代码执行进入 Qwen3-MoE 模型的一个 Decoder Layer。MoE 路由与通信。