相关开源项目

本页把白皮书站点和代码库放到几个高信号参考对象旁边对照。目标不是排名，而是说明这个仓库究竟想教会读者什么。

对照矩阵

项目	最强的地方	本仓库借鉴了什么	本仓库刻意做得不一样的地方
CUTLASS	生产级 GEMM 构件、深模板体系、架构特化	对 tile 层级和 Tensor Core 约束的严格表达	保持阶梯可读、规模更小、更适合面试讲解，而不是走向工业级抽象深度
NVIDIA CUDA Samples	最小化官方样例，便于理解 API 和执行模型	规范的 API 用法和基线正确性预期	增加分阶段叙事、验证边界和对结果的解释框架
Si Bohm 的 SGEMM worklog	面向公众的优化日记，教学价值很高	“每次提速都要对应一次瓶颈转移”的思路	增加双语文档、显式验证边界和更完整的研究资料台
BLIS 与 CPU GEMM 文献	关于 blocking、packing、层级化的成熟思考	通过数据移动和复用解释性能	保持 GPU 视角，把 WMMA 保护逻辑和 CUDA 运行时约束放到前台

它真正的价值在于组合方式：可读的阶梯、明确的信任边界，以及一套能经得起技术追问的公共叙事。