CUDA SGEMM ENGINEERING NOTEBOOK
这是一个面向学习与面试展示的双语 CUDA SGEMM 项目:不仅讲优化,还讲证据与边界。 每一步提速都绑定正确性约束、基准解释和可复现的验证路径。
从差异化、工程规范、可验证性三个维度解释项目竞争力。
覆盖“如何讲”“常见追问”“如何回应权衡”的实战模板。
按用途整理论文、官方文档和仓库,并映射到具体设计决策。
给出瓶颈归类、假设验证、实验记录的闭环方法。
按 Volta、Turing、Ampere、Ada、Hopper 总结调优优先级。
内存合并访问、bank 行为、占用率与 profiler 指标快速对照。
# 编译
cmake -S . -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j$(nproc)
# 验证
ctest --test-dir build
openspec validate --all
# 基准测试
./build/bin/sgemm_benchmark -a
./build/bin/sgemm_benchmark --dims 256 384 640