Benchmark 结果
这是代表性的性能快照,不是通用承诺。
本页现在只保留结果快照职责。关于信任边界与解释规则,请阅读 验证。关于实验设计,请阅读 方法论。
参考快照
端到端快照
RTX 3060 Laptop 在 1024 x 1024 x 1024 的示例数据:
| Kernel | GFLOPS | vs cuBLAS |
|---|---|---|
| cuBLAS | 5727 | 100.0% |
| Tiled | 753 | 13.1% |
| Double Buffer | 701 | 12.2% |
| Bank-Free | 673 | 11.8% |
| Naive | 604 | 10.6% |
WMMA compute-only 快照
仓库也会对 Tensor Core 友好 shape 额外报告一个更窄的快路径测量值:
| Kernel | GFLOPS | vs cuBLAS |
|---|---|---|
| Tensor Core (WMMA compute-only) | 2300 | 40.2% |
benchmark harness 也会输出 WMMA 端到端 结果,但这张压缩快照页不发布单一 headline 数字,因为 FP32→FP16 转换与 fallback 行为会强烈依赖具体本地执行路径。请把 compute-only 这一行当作上界参考,再结合 Benchmark 范围 与本地运行结果去理解完整端到端差距。
如何阅读本页
- 这些数字是本地代表性快照,不是所有 GPU 上的承诺。
- 在比较它们之前,先阅读 Benchmark 范围。
- 先阅读端到端表,再把
WMMA compute-only看成窄范围快路径标签,而不是端到端行为的替代品。 - 默认这些数字不是托管 CI 证明出来的;只有本地 GPU 运行才能证明它们。
Tensor Core 说明
Benchmark 套件会报告:
- WMMA 端到端:安全 FP32 wrapper,包含转换和 fallback 处理
- WMMA compute-only:预转换 FP16 的纯 WMMA 计算路径,仅在
M、K、N为 16 的倍数时显示
当维度不适合 Tensor Core 时,实现会回退到更安全的 FP32 路径,而不是强行启用 WMMA。