文档 | CuFlash-Attn

⚡

线性内存

通过 FlashAttention 分块处理 16K+ token 序列，内存复杂度 O(N) —— 比标准注意力节省 99.9%。

🎯

参考级质量

清晰、教育性的 CUDA C++ 实现。无框架依赖。易于理解、修改和集成。

🔢

完整精度支持

FP32 和 FP16，数值感知累加。前向和反向传播完整支持训练流程。

🎭

因果掩码

内置自回归模型支持。API 中一个布尔参数即可启用。

🚀

多 GPU 架构

优化的 kernel 覆盖 V100 到 H100（sm_70 → sm_90）。生产级 CUDA 性能。

📦

Python 就绪

C ABI 绑定支持 ctypes 集成。可与 PyTorch、NumPy 或原生 GPU 内存指针配合使用。

为什么选择 CuFlash-Attn？

适用场景

你想理解 FlashAttention 内部原理，实验注意力机制，或在没有重型框架依赖的情况下集成到项目中。

快速对比

特性	CuFlash-Attn	PyTorch SDPA	FlashAttention-2
教育性代码	✅	❌	⚠️
无依赖	✅	❌ PyTorch	❌
Python 绑定	✅ ctypes	✅ 原生	✅
训练支持	✅	✅	✅
可定制	✅ 简单	⚠️ 困难	⚠️

特性

CuFlash-Attn

PyTorch SDPA

FlashAttention-2

教育性代码

✅

❌

⚠️

无依赖

✅

❌ PyTorch

❌

Python 绑定

✅ ctypes

✅ 原生

✅

训练支持

✅

可定制

✅ 简单

⚠️ 困难

⚠️

快速开始

5 分钟内运行：

克隆 & 构建C++ 用法Python 绑定

bash

git clone https://github.com/LessUp/cuflash-attn.git
cd cuflash-attn

cmake --preset release
cmake --build --preset release

ctest --preset release --output-on-failure

cpp

#include "cuflash/flash_attention.h"

auto err = cuflash::flash_attention_forward(
    d_Q, d_K, d_V, d_O, d_L,
    batch_size, num_heads, seq_len, head_dim,
    scale, true, stream
);

python

import ctypes
lib = ctypes.CDLL("./build/release/libcuflash_attn.so")

# 通过 C ABI 调用
lib.cuflash_attention_forward_f32(
    q_ptr, k_ptr, v_ptr, o_ptr, l_ptr,
    B, H, N, D, scale, True, None
)

序列长度	标准注意力	FlashAttention	节省
1,024	4 MB	8 KB	99.8%
4,096	64 MB	32 KB	99.95%
16,384	1 GB	128 KB	99.99%

序列长度

标准注意力

FlashAttention

节省

1,024

4 MB

8 KB

99.8%

4,096

64 MB

32 KB

99.95%

16,384

1 GB

128 KB

99.99%

资源	描述
快速开始指南	Preset 构建路径
从源码构建	平台、presets、覆盖参数
API 参考	完整 C++ 和 C ABI 文档
算法详解	分块、online softmax、重计算
故障排除	常见问题与解决方案

资源

描述

Preset 构建路径

平台、presets、覆盖参数

完整 C++ 和 C ABI 文档

分块、online softmax、重计算

故障排除

常见问题与解决方案

CuFlash-AttnCUDA FlashAttention 参考实现

线性内存

参考级质量

完整精度支持

因果掩码

多 GPU 架构

Python 就绪

为什么选择 CuFlash-Attn？

快速对比

快速开始

内存效率

文档导航

项目状态

OpenSpec 规范

Contributors

CuFlash-AttnCUDA FlashAttention 参考实现

线性内存

参考级质量

完整精度支持

因果掩码

多 GPU 架构

Python 就绪

为什么选择 CuFlash-Attn？ ​

快速对比 ​

快速开始 ​

内存效率 ​

文档导航 ​

项目状态 ​

OpenSpec 规范 ​

Contributors

为什么选择 CuFlash-Attn？

快速对比

快速开始

内存效率

文档导航

项目状态

OpenSpec 规范