中文文档

欢迎使用 CUDA GEMM 优化教程。本教程通过实践矩阵乘法优化来讲解 GPU 编程。


教程章节

  1. 快速入门 — 环境配置和首次构建
  2. 架构设计 — 系统设计和核心组件
  3. GEMM 优化详解 — 7 级优化路径
  4. 性能调优 — 性能分析和优化技巧
  5. API 参考 — 完整 API 文档
  6. 贡献指南 — 如何参与贡献

学习路径

初学者

如果你是 CUDA 新手,从这里开始:

  1. 快速入门 - 配置环境
  2. 朴素实现 - 学习 CUDA 基础概念
  3. 分块 GEMM - 理解共享内存

中级开发者

已经了解 CUDA 基础?直接跳到优化:

  1. 合并访存 - 优化内存访问模式
  2. 双缓冲 - 隐藏延迟
  3. 寄存器分块 - 最大化吞吐量

高级用户

寻找生产环境技术?

  1. 融合内核 - 算子融合
  2. 向量化 - SIMD 优化
  3. 性能调优 - 针对特定架构调优


Back to top

MIT License | A learning project for the CUDA community