Benchmark 结果

这是代表性的性能快照，不是通用承诺。

本页现在只保留结果快照职责。关于信任边界与解释规则，请阅读验证。关于实验设计，请阅读方法论。

参考快照

端到端快照

RTX 3060 Laptop 在 1024 x 1024 x 1024 的示例数据：

Kernel	GFLOPS	vs cuBLAS
cuBLAS	5727	100.0%
Tiled	753	13.1%
Double Buffer	701	12.2%
Bank-Free	673	11.8%
Naive	604	10.6%

WMMA compute-only 快照

仓库也会对 Tensor Core 友好 shape 额外报告一个更窄的快路径测量值：

Kernel	GFLOPS	vs cuBLAS
Tensor Core (WMMA compute-only)	2300	40.2%

benchmark harness 也会输出 WMMA 端到端 结果，但这张压缩快照页不发布单一 headline 数字，因为 FP32→FP16 转换与 fallback 行为会强烈依赖具体本地执行路径。请把 compute-only 这一行当作上界参考，再结合 Benchmark 范围与本地运行结果去理解完整端到端差距。

如何阅读本页

这些数字是本地代表性快照，不是所有 GPU 上的承诺。
在比较它们之前，先阅读 Benchmark 范围。
先阅读端到端表，再把 WMMA compute-only 看成窄范围快路径标签，而不是端到端行为的替代品。
默认这些数字不是托管 CI 证明出来的；只有本地 GPU 运行才能证明它们。

Tensor Core 说明

Benchmark 套件会报告：

WMMA 端到端：安全 FP32 wrapper，包含转换和 fallback 处理
WMMA compute-only：预转换 FP16 的纯 WMMA 计算路径，仅在 M、K、N 为 16 的倍数时显示

当维度不适合 Tensor Core 时，实现会回退到更安全的 FP32 路径，而不是强行启用 WMMA。

Benchmark 结果 ​

参考快照 ​

端到端快照 ​

WMMA compute-only 快照 ​

如何阅读本页 ​

Tensor Core 说明 ​

建议配套阅读 ​