Are you an LLM? You can read better optimized documentation at /sgemm-optimization/zh/research/related-projects.md for this page in Markdown format
相关开源项目
本页把白皮书站点和代码库放到几个高信号参考对象旁边对照。目标不是排名,而是说明这个仓库究竟想教会读者什么。
对照矩阵
| 项目 | 最强的地方 | 本仓库借鉴了什么 | 本仓库刻意做得不一样的地方 |
|---|---|---|---|
| CUTLASS | 生产级 GEMM 构件、深模板体系、架构特化 | 对 tile 层级和 Tensor Core 约束的严格表达 | 保持阶梯可读、规模更小、更适合面试讲解,而不是走向工业级抽象深度 |
| NVIDIA CUDA Samples | 最小化官方样例,便于理解 API 和执行模型 | 规范的 API 用法和基线正确性预期 | 增加分阶段叙事、验证边界和对结果的解释框架 |
| Si Bohm 的 SGEMM worklog | 面向公众的优化日记,教学价值很高 | “每次提速都要对应一次瓶颈转移”的思路 | 增加双语文档、显式验证边界和更完整的研究资料台 |
| BLIS 与 CPU GEMM 文献 | 关于 blocking、packing、层级化的成熟思考 | 通过数据移动和复用解释性能 | 保持 GPU 视角,把 WMMA 保护逻辑和 CUDA 运行时约束放到前台 |
应该如何使用这些参考
- 想看可维护的高性能 CUDA GEMM 最终会变得多抽象,就去看 CUTLASS。
- 想确认某个 API 或 Tensor Core 功能最小该怎么写,就看 NVIDIA 样例。
- 想比较解释顺序和权衡表达方式,就去看公开的 SGEMM 优化日记。
不要混淆的事情
- 这个仓库不是为了取代 cuBLAS 或 CUTLASS。
- 它不是最小 CUDA 样例。
- 它也不是纯 benchmark 笔记本。
它真正的价值在于组合方式:可读的阶梯、明确的信任边界,以及一套能经得起技术追问的公共叙事。