Skip to content

参考文献

本页将项目中的关键设计选择映射到权威技术资料,便于追溯和延展学习。

CUDA 与 GPU 基础

为什么重要:

  • 为所有 kernel 阶段的执行模型假设提供官方定义。
  • 让内存访问与同步讨论使用统一术语和边界。

Tensor Core 与 WMMA

为什么重要:

  • 对应 WMMA 片段、对齐约束、混合精度行为等核心问题。
  • 解释为什么非友好 shape 需要显式 fallback 策略。

GEMM 优化研究与方法论

为什么重要:

  • 将本项目的分阶段优化思路放到更广义 GEMM 方法论中理解。
  • 为“如果做生产化下一步怎么做”提供高质量延展依据。

Profiling 与性能分析

为什么重要:

  • 支持从单点 GFLOPS 走向指标驱动诊断。
  • 帮助解释瓶颈归因、调优权衡与收益来源。

工程流程与验证纪律

为什么重要:

  • 让仓库中的“正确性验证”和“流程治理”有权威工具链支撑。
  • 强化本地 GPU 与托管 CI 验证边界的合理性。

相关页面

MIT Licensed