Skip to content

Benchmark 结果

代表性性能说明,非通用承诺

参考快照

RTX 3060 Laptop 在 1024 x 1024 x 1024 的示例数据:

KernelGFLOPSvs cuBLAS
cuBLAS5727100.0%
Tensor Core (WMMA compute-only)230040.2%
Tiled75313.1%
Double Buffer70112.2%
Bank-Free67311.8%
Naive60410.6%

Tensor Core 说明

Benchmark 报告:

  • WMMA 端到端:安全 FP32 wrapper,包含转换和回退处理
  • WMMA 仅计算:预转换 FP16 的纯计算路径,仅在 MKN 均为 16 的倍数时显示

当维度不适合 Tensor Core 时,实现回退到更安全的 FP32 路径,而非强制 WMMA。

相关参考

MIT Licensed