中文文档
欢迎使用 CUDA GEMM 优化教程。本教程通过实践矩阵乘法优化来讲解 GPU 编程。
教程章节
- 快速入门 — 环境配置和首次构建
- 架构设计 — 系统设计和核心组件
- GEMM 优化详解 — 7 级优化路径
- 性能调优 — 性能分析和优化技巧
- API 参考 — 完整 API 文档
- 贡献指南 — 如何参与贡献
学习路径
初学者
如果你是 CUDA 新手,从这里开始:
- 快速入门 - 配置环境
- 朴素实现 - 学习 CUDA 基础概念
- 分块 GEMM - 理解共享内存
中级开发者
已经了解 CUDA 基础?直接跳到优化:
- 合并访存 - 优化内存访问模式
- 双缓冲 - 隐藏延迟
- 寄存器分块 - 最大化吞吐量
高级用户
寻找生产环境技术?
- 融合内核 - 算子融合
- 向量化 - SIMD 优化
- 性能调优 - 针对特定架构调优