诊断闭环

一个实用的 SGEMM 调优闭环，必须把观察、假设与验证分开。

端到端优化闭环

一次闭环只服务一个假设。闭环之所以刻意做小，是为了获得学习，而不是制造动作感。

信号	常见瓶颈	第一检查点
从 Naive 到 Tiled 提升很大，后续增益变平	数据移动仍然主导	共享内存复用与全局访存模式
Tiled 有提升，Bank-Free 继续提升	共享内存 bank 冲突确实存在	共享内存布局与 bank 映射
Double Buffer 提升不如预期	重叠不充分或占用率下降	寄存器压力、stage 数量、launch 几何
WMMA compute-only 很好，端到端不好	转换、staging 或 fallback 开销主导	FP32→FP16 staging 与快路径 guard
不规则 shape 回退明显	对齐假设过强	fallback 路径与 shape-sensitive guard

信号
WMMA 端到端 接近甚至低于 FP32 kernel。

常见原因

建议动作

信号
Tiled 提升明显，但 Double Buffer 与 Tensor Core 增益偏弱。

常见原因

建议动作

信号
WMMA compute-only 明显变强，但完整流程几乎不动。

常见原因

建议动作

满足以下条件后，就应该把结论交给验证：

任何一项不成立时，最合理的动作通常是回滚，而不是补解释。