访存优化
帮助你建立对全局内存访问模式、共享内存复用、向量化加载和 cache 行为的基本直觉。 对很多 CUDA kernel 来说,访存模式往往比算术本身更早成为瓶颈。
- 理解为什么合并访问是多数 kernel 的第一优先级
- 掌握 float4 等向量化加载在吞吐上的价值与边界
- 知道何时引入 shared memory 做数据复用、何时会带来 bank conflict
按主题和学习阶段重新组织项目里的核心优化内容,不再直接面对零散的 Markdown 文件列表。 每个专题卡片说明覆盖范围与推荐阅读顺序,点击进入 GitHub 查看完整笔记。
从基础访存到前沿 CUDA 特性,覆盖完整的 GPU 优化学习路径。
帮助你建立对全局内存访问模式、共享内存复用、向量化加载和 cache 行为的基本直觉。 对很多 CUDA kernel 来说,访存模式往往比算术本身更早成为瓶颈。
归约是理解 CUDA 并行协作的最佳练习之一,集中暴露线程分工、同步成本、 分支发散与共享内存布局等关键问题。
GEMM 不只是矩阵乘法,它还是理解卷积、attention、Tensor Core、寄存器阻塞与 tile 设计的中枢问题。适合在具备访存与归约基础后深入阅读。
聚焦 attention 的 IO-aware 设计与在线 softmax 思路。当前仓库实现支持 float / head_dim=64。
Week 1 访存优化 → 归约优化 Week 2-3 GEMM Step 1-4 → Step 5-7 Week 3-4 FlashAttention 持续 CUDA 13 新特性 + CUTLASS 源码
CUDA C++ Programming Guide docs.nvidia.com/cuda FlashAttention 论文 arxiv.org/abs/2205.14135 How to Optimize a CUDA Matmul Kernel siboehm.com/articles/22/CUDA-MMM CUTLASS github.com/NVIDIA/cutlass