参考文献地图
本页是支撑本白皮书论点的外部资料结构化索引。每个条目按类型分类,并链接到其最直接支持的章节。
主要技术参考
CUDA 与 GPU 架构
| 资料 | 建立了什么 | 相关章节 |
|---|---|---|
| CUDA C++ 编程指南 | 内存层次结构、warp 执行模型、共享内存布局 | 架构、学院 |
| CUDA 最佳实践指南 | 内存合并、占用率、bank 冲突消除 | 学院(kernel 页面) |
| PTX ISA 参考 | WMMA 指令语义、矩阵 fragment 布局 | Tensor Core 路径 |
cuBLAS
| 资料 | 建立了什么 | 相关章节 |
|---|---|---|
| cuBLAS 开发者指南 | GEMM API、精度模式、leading-dimension 约定 | 验证(oracle 定义) |
Tensor Core / WMMA
| 资料 | 建立了什么 | 相关章节 |
|---|---|---|
| WMMA API 文档 | Fragment 类型、load/store/compute API | 学院(kernel-tensor-core)、架构(tensor-core-path) |
| Volta 架构白皮书 | 第一代 Tensor Core 吞吐模型 | 研究(演进)、性能模型 |
基础论文
| 论文 | 贡献 | 主要支持 |
|---|---|---|
| Goto & van de Geijn (2008) — 矩阵乘法高性能剖析 | CPU GEMM 分层分块理论 | Tiled kernel 设计、共享内存 staging 原理 |
| Lai & Seznec (2013) — Fermi 和 Kepler GPU 上 SGEMM 的性能上限分析与优化 | GPU SGEMM 分块与占用率分析 | Tiled kernel、双缓冲动机 |
| Whaley & Dongarra (1998) — ATLAS | 块大小的自动调优 | 块大小敏感性的历史背景 |
| Markidis et al. (2018) — NVIDIA Tensor Core 可编程性、性能与精度 | WMMA 编程模型与混合精度行为 | Tensor Core 路径设计 |
相关开源实现
| 仓库 | 关系 | 说明 |
|---|---|---|
| CUTLASS | 权威生产级 GEMM kernel 库 | 本项目不声称与之竞争的天花板 |
| tinygrad / BEAM SGEMM | 社区 SGEMM 探索 | 不同的教育框架;适合用来对照 |
| siboehm/CUDA-GEMM-Optimization | 逐步讲解 SGEMM 的教程 | 教育结构上最直接可比的项目 |
| wangzyon/NVIDIA_SGEMM_PRACTICE | 中文 SGEMM 练习仓库 | 双语对照;不同的 kernel 演进顺序 |
如何使用本地图
参考文献地图不是论文末尾的参考书目,而是一个活跃索引,将白皮书中的每个论断与其支撑资料相连接。
如果你想质疑某个论断:
- 找到白皮书中提出该论断的章节。
- 在上表中找到对应的支撑资料。
- 打开资料,检查该论断是否有适当的范围界定。
如果某个论断不在表中,它要么直接来源于实现本身(通过阅读代码可验证),要么是文本中明确标注为待决问题的开放性问题。