参考资料清单

这是资源中心背后的详细目录。目标不是堆链接，而是说明：面对不同的 SGEMM 问题，应该先打开哪类资料。

这页怎么用

当你需要精确定义、约束边界或 API 行为时，先打开这一组。

CUDA C++ Programming Guide
最适合核对执行模型、同步语义、内存层级与 launch 规则。
CUDA C++ Best Practices Guide
最适合理解优化启发、内存访问建议与 profiler 前的常识性检查。
CUDA Runtime API
当实现问题落到 stream、event、launch 或 runtime 细节时最有用。
CUDA Programming Guide: WMMA section
最适合核对 fragment 类型、shape 约束与 Tensor Core 的调用机制。
NVIDIA Developer Blog: Programming Tensor Cores in CUDA 9
最适合快速理解 WMMA 编程为什么与普通 CUDA kernel 不同。
NVIDIA Mixed-Precision Training Guide
最适合理解混合精度收益从哪里来，以及它会带来哪些额外前提和转换成本。

为什么这组重要：

当你想理解 SGEMM 优化背后的设计逻辑，而不是只查 API 时，打开这一组。

Anatomy of High-Performance Matrix Multiplication (GotoBLAS paper)
最值得优先读，用来理解为什么 blocking 与层级化数据复用是矩阵乘法性能的核心。
BLIS papers and project entry point
当你想比较教学型 kernel 与生产级 CPU GEMM 框架时非常有价值。
Nsight Compute roofline charts guide
当你需要更严谨地讨论算术强度，以及“内存受限 / 计算受限”的边界时很有帮助。

为什么这组重要：

当你想对照成熟实现，看看本仓库在哪些地方是教学化简版时，打开这一组。

CUTLASS: Fast Linear Algebra in CUDA C++
最适合观察生产级 CUDA GEMM 库如何组织 tiling、pipeline 和架构特化。
BLIS Framework
最适合理解 GEMM 分解、packing 与控制树思想如何跨平台迁移。
CUDA Samples: matrixMul example
官方、小而直观，适合与本项目早期 kernel 阶段对照阅读。

为什么这组重要：

当 benchmark 数字本身已经不够说明问题，而你需要证据时，打开这一组。

Nsight Compute Documentation
最适合看 kernel 级计数器、内存行为、roofline 视图与 occupancy 分析。
Nsight Systems Documentation
最适合看时间线、launch 间隙、重叠关系与 host/device 交互。
CUDA Occupancy Calculator (archived official workbook)
最适合把 block size、shared memory、寄存器使用量转换成显式的 occupancy 权衡讨论。
Compute Sanitizer Documentation
最适合在讨论性能前，先把正确性与内存错误排干净。

为什么这组重要：

当问题转向“如何证明正确”“如何组织构建与复现”时，打开这一组。

为什么这组重要：

当你已经确定想继续学，但还不确定先学哪个主题时，从这里继续。