Skip to content

参考文献地图

本页是支撑本白皮书论点的外部资料结构化索引。每个条目按类型分类,并链接到其最直接支持的章节。

主要技术参考

CUDA 与 GPU 架构

资料建立了什么相关章节
CUDA C++ 编程指南内存层次结构、warp 执行模型、共享内存布局架构、学院
CUDA 最佳实践指南内存合并、占用率、bank 冲突消除学院(kernel 页面)
PTX ISA 参考WMMA 指令语义、矩阵 fragment 布局Tensor Core 路径

cuBLAS

资料建立了什么相关章节
cuBLAS 开发者指南GEMM API、精度模式、leading-dimension 约定验证(oracle 定义)

Tensor Core / WMMA

资料建立了什么相关章节
WMMA API 文档Fragment 类型、load/store/compute API学院(kernel-tensor-core)、架构(tensor-core-path)
Volta 架构白皮书第一代 Tensor Core 吞吐模型研究(演进)、性能模型

基础论文

论文贡献主要支持
Goto & van de Geijn (2008) — 矩阵乘法高性能剖析CPU GEMM 分层分块理论Tiled kernel 设计、共享内存 staging 原理
Lai & Seznec (2013) — Fermi 和 Kepler GPU 上 SGEMM 的性能上限分析与优化GPU SGEMM 分块与占用率分析Tiled kernel、双缓冲动机
Whaley & Dongarra (1998) — ATLAS块大小的自动调优块大小敏感性的历史背景
Markidis et al. (2018) — NVIDIA Tensor Core 可编程性、性能与精度WMMA 编程模型与混合精度行为Tensor Core 路径设计

相关开源实现

仓库关系说明
CUTLASS权威生产级 GEMM kernel 库本项目不声称与之竞争的天花板
tinygrad / BEAM SGEMM社区 SGEMM 探索不同的教育框架;适合用来对照
siboehm/CUDA-GEMM-Optimization逐步讲解 SGEMM 的教程教育结构上最直接可比的项目
wangzyon/NVIDIA_SGEMM_PRACTICE中文 SGEMM 练习仓库双语对照;不同的 kernel 演进顺序

如何使用本地图

参考文献地图不是论文末尾的参考书目,而是一个活跃索引,将白皮书中的每个论断与其支撑资料相连接。

如果你想质疑某个论断:

  1. 找到白皮书中提出该论断的章节。
  2. 在上表中找到对应的支撑资料。
  3. 打开资料,检查该论断是否有适当的范围界定。

如果某个论断不在表中,它要么直接来源于实现本身(通过阅读代码可验证),要么是文本中明确标注为待决问题的开放性问题。

相关页面

MIT Licensed