Skip to content

CUDA SGEMM ENGINEERING NOTEBOOK

SGEMM 优化实验室

这是一个面向学习与面试展示的双语 CUDA SGEMM 项目:不仅讲优化,还讲证据与边界。 每一步提速都绑定正确性约束、基准解释和可复现的验证路径。

cuBLAS 对照OpenSpec 治理中英镜像页面
内核阶梯
5
naive -> tiled -> bank-free -> double-buffer -> WMMA
正确性基准
cuBLAS
FP32 与 Tensor Core 使用不同容差预算
验证边界
CI + GPU
CI 保证构建健康,本地 GPU 验证运行时与性能
公开内容
EN / 中文
教程、面试、参考资料均中英对照
Benchmark 范围
WMMA 端到端与仅计算路径分开汇报,避免混淆。
数值策略
FP32 与 Tensor Core 按路径设定不同精度容差。
工程契约
统一 launcher 形态保证 kernel 可替换、可对比、可验证。
治理一致性
OpenSpec 持续对齐文档、流程与实现意图。

为什么这个项目值得关注

学习深度
渐进式
每个内核阶段只解决一个核心性能问题。
证据模型
可追踪
性能结论绑定正确性验证与范围标注。
面试价值
可讲清
可以按工程决策链条讲出“为什么这样做”。
社区价值
可复用
包含调优手册、架构案例与参考文献索引。

一张图看项目全貌

按目标选择入口

快速编译与运行

从 clone 到 benchmark,明确本地验证与 CI 验证分工。

系统学习优化阶梯

按顺序理解每一步如何改变内存行为与性能画像。

准备面试表达

用一条清晰叙事线讲清架构决策、验证策略和结果可信度。

追溯技术来源

从实现选择反查到官方文档、论文和高质量开源仓库。

知识补给站

命令驾驶舱

bash
# 编译
cmake -S . -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j$(nproc)

# 验证
ctest --test-dir build
openspec validate --all

# 基准测试
./build/bin/sgemm_benchmark -a
./build/bin/sgemm_benchmark --dims 256 384 640

语言与入口

MIT Licensed