【无标题】

在vllm中注册自定义cuda算子和attention kernel源码解析

TTlovelearing

495人浏览 · 2026-01-30 23:41:23

TTlovelearing · 2026-01-30 23:41:23 发布

vllm 注册自定义算子与Attention kernel源码分析

综述

本文章会介绍vllm两个关于CUDA的部分：

了解的基础知识。
自定义的CUDA算子注册到vllm中供框架中调用的实现步骤。
解析vllm调用cuda的attention代码。

必备技术和知识

了解和学习cuda，c++(>=c++17)和python的基本语法（模板类）。
掌握最简单Element Wise的kernel和launch的写法。
掌握self-attention，paged-attention模块内部计算流程。
了解pybind基本写法。

注册算子到vllm的实现步骤

要将算子注册到python中有如下操作：

所有的算子文件存入(vllm/csrc)中,这里我们假设要实现融合算子paged_attention_v1.cu,将此文件存入到(vllm/csrc/attention/paged_attention_v1.cu)。
因为是写入新文件，就需要在CMakeList.txt,查找如下位置填入新文件的路径。

set(VLLM_EXT_SRC
  "csrc/mamba/mamba_ssm/selective_scan_fwd.cu"
  "csrc/cache_kernels.cu"
  "csrc/attention/paged_attention_v1.cu" // 添加文件路径
  "csrc/attention/paged_attention_v2.cu"
  ...)

要对文件中的kernel进行binding。首先在(vllm/csrc/ops.h)中增加函数定义。

// 添加这个kernel的定义
void paged_attention_v1(
    torch::Tensor& out, torch::Tensor& query, torch::Tensor& key_cache,
    torch::Tensor& value_cache, int64_t num_kv_heads, double scale,
    torch::Tensor& block_tables, torch::Tensor& seq_lens, int64_t block_size,
    int64_t max_seq_len, const std::optional<torch::Tensor>& alibi_slopes,
    const std::string& kv_cache_dtype, torch::Tensor& k_scale,
    torch::Tensor& v_scale, const int64_t tp_rank,
    const int64_t blocksparse_local_blocks,
    const int64_t blocksparse_vert_stride, const int64_t blocksparse_block_size,
    const int64_t blocksparse_head_sliding_step);

其次(vllm/csrc/torch_bindings.cpp)中增加其pybind，详细的写法需了解pybind。

  ops.def(
      "paged_attention_v1("
      "    Tensor! out, Tensor query, Tensor key_cache,"
      "    Tensor value_cache, int num_kv_heads, float scale,"
      "    Tensor block_tables, Tensor seq_lens, int block_size,"
      "    int max_seq_len, Tensor? alibi_slopes,"
      "    str kv_cache_dtype, Tensor k_scale, Tensor v_scale,"
      "    int tp_rank, int blocksparse_local_blocks,"
      "    int blocksparse_vert_stride, int blocksparse_block_size,"
      "    int blocksparse_head_sliding_step) -> ()");
  ops.impl("paged_attention_v1", torch::kCUDA, &paged_attention_v1);

完成以上步骤，我们需要将kernel封装成统一的python的api,在(vllm/vllm/_custom_ops.py)中填入

def paged_attention_v1(
    out: torch.Tensor,
    query: torch.Tensor,
    key_cache: torch.Tensor,
    value_cache: torch.Tensor,
    num_kv_heads: int,
    scale: float,
    block_tables: torch.Tensor,
    seq_lens: torch.Tensor,
    block_size: int,
    max_seq_len: int,
    alibi_slopes: torch.Tensor | None,
    kv_cache_dtype: str,
    k_scale: torch.Tensor,
    v_scale: torch.Tensor,
    tp_rank: int = 0,
    blocksparse_local_blocks: int = 0,
    blocksparse_vert_stride: int = 0,
    blocksparse_block_size: int = 64,
    blocksparse_head_sliding_step: int = 0,
) -> None:
    torch.ops._C.paged_attention_v1(
        out,
        query,
        key_cache,
        value_cache,
        num_kv_heads,
        scale,
        block_tables,
        seq_lens,
        block_size,
        max_seq_len,
        alibi_slopes,
        kv_cache_dtype,
        k_scale,
        v_scale,
        tp_rank,
        blocksparse_local_blocks,
        blocksparse_vert_stride,
        blocksparse_block_size,
        blocksparse_head_sliding_step,
    )

完成以上操作，就可以在vllm中调用此算子了。

vllm/csrc/attention/attention_kernel.cuh代码解析

在这个头文件中，核心算子是paged_attention_kernel，其他函数都是在此基础上调用其算子的。我会尽量介绍围绕paged-attention的算法的代码（有很小部分是在此基础上做了调优，但不影响整个算子），从高到低的视角来解析代码。

首先此算子实现的paged-attention，其中包含工程细节有：
1. 分别对应Q，K和V的global memory->shared memory->registers
2. 分别对应Q，K和V的threadIdx分配合适内存和物理内存。
3. 实现self-attention计算过程

将Q加载到共享内存中,但QK的计算是在寄存器中进行

将K加载到共享内存中，并且做 S=Q*K^T

实现safe softmax(softmax的工程实现版)

计算O=S*V

归约存储结果并从寄存器存储到全局内存

最后将结果存储到全局内存的out_ptr中。

总结

第一部份实现将算子注册到vllm，我们可以应用到自己写的推理框架中。
第二部分介绍的代码，没有实际的介绍到vllm核心的paged attention部分，并且也有一定的改进空间，但我们也可以作为学习源码flash attention的入门（当然它的源码主要还是用cute来实现，这里是cuda实现）。
如果存在纰漏，欢迎指正。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐