Skip to content

参考资料清单

这是 资源中心 背后的详细目录。目标不是堆链接,而是说明:面对不同的 SGEMM 问题,应该先打开哪类资料。

这页怎么用

  • 如果你还不知道该走哪条路线,先去 资源中心
  • 如果你已经知道自己要找“官方文档 / 论文 / profiler / 示例仓库”中的哪一类资料,就直接用本页。
  • 如果你更关心“下一步先学什么”,而不是“该引用哪份文档”,就继续看 延伸阅读路线

CUDA 与 NVIDIA 官方文档

当你需要精确定义、约束边界或 API 行为时,先打开这一组。

为什么这组重要:

  • 它让白皮书中的关键说法建立在厂商定义之上,而不是经验传说。
  • 它帮助你解释:shape 限制、对齐要求、fallback 规则并不是“项目随手定的”,而是由底层约束推出来的。

论文与性能心智模型

当你想理解 SGEMM 优化背后的设计逻辑,而不是只查 API 时,打开这一组。

为什么这组重要:

  • 它解释了为什么 kernel 阶梯是按现在这个顺序组织的。
  • 它帮助你在讨论性能上限时,不会把所有东西都压缩成一个 benchmark 数字。

示范仓库与生产级样例

当你想对照成熟实现,看看本仓库在哪些地方是教学化简版时,打开这一组。

为什么这组重要:

  • 它让你看清本仓库哪些地方是为了讲清楚概念而有意简化。
  • 它能支撑“如果要继续工程化,下一步会长什么样”的回答。

Profiler、工具与诊断资料

当 benchmark 数字本身已经不够说明问题,而你需要证据时,打开这一组。

为什么这组重要:

工程流程与验证纪律

当问题转向“如何证明正确”“如何组织构建与复现”时,打开这一组。

为什么这组重要:

  • 它强化了“本地 GPU 验证”和“托管 CI 验证”是两种不同证据面的事实。
  • 它解释了为什么“性能证明”和“仓库完整性”不会被混写在同一套结论里。

下一步学习路线

当你已经确定想继续学,但还不确定先学哪个主题时,从这里继续。

  • 延伸阅读路线:按主题整理好的学习路线,覆盖 tiling、occupancy、roofline、Tensor Core 约束与 profiling。
  • CUDA 内存速查表:在重新打开 kernel 代码前,快速回忆关键内存问题。
  • 资源中心:按场景重新进入站内其他页面。

MIT Licensed