Skip to content

Benchmark 结果

这是代表性的性能快照,不是通用承诺。

本页现在只保留结果快照职责。关于信任边界与解释规则,请阅读 验证。关于实验设计,请阅读 方法论

参考快照

端到端快照

RTX 3060 Laptop 在 1024 x 1024 x 1024 的示例数据:

KernelGFLOPSvs cuBLAS
cuBLAS5727100.0%
Tiled75313.1%
Double Buffer70112.2%
Bank-Free67311.8%
Naive60410.6%

WMMA compute-only 快照

仓库也会对 Tensor Core 友好 shape 额外报告一个更窄的快路径测量值:

KernelGFLOPSvs cuBLAS
Tensor Core (WMMA compute-only)230040.2%

benchmark harness 也会输出 WMMA 端到端 结果,但这张压缩快照页不发布单一 headline 数字,因为 FP32→FP16 转换与 fallback 行为会强烈依赖具体本地执行路径。请把 compute-only 这一行当作上界参考,再结合 Benchmark 范围 与本地运行结果去理解完整端到端差距。

如何阅读本页

  • 这些数字是本地代表性快照,不是所有 GPU 上的承诺。
  • 在比较它们之前,先阅读 Benchmark 范围
  • 先阅读端到端表,再把 WMMA compute-only 看成窄范围快路径标签,而不是端到端行为的替代品。
  • 默认这些数字不是托管 CI 证明出来的;只有本地 GPU 运行才能证明它们。

Tensor Core 说明

Benchmark 套件会报告:

  • WMMA 端到端:安全 FP32 wrapper,包含转换和 fallback 处理
  • WMMA compute-only:预转换 FP16 的纯 WMMA 计算路径,仅在 MKN 为 16 的倍数时显示

当维度不适合 Tensor Core 时,实现会回退到更安全的 FP32 路径,而不是强行启用 WMMA。

建议配套阅读

MIT Licensed