参考文献

本页将项目中的关键设计选择映射到权威技术资料，便于追溯和延展学习。

CUDA 与 GPU 基础

为什么重要：

为所有 kernel 阶段的执行模型假设提供官方定义。
让内存访问与同步讨论使用统一术语和边界。

Tensor Core 与 WMMA

为什么重要：

对应 WMMA 片段、对齐约束、混合精度行为等核心问题。
解释为什么非友好 shape 需要显式 fallback 策略。

GEMM 优化研究与方法论

为什么重要：

将本项目的分阶段优化思路放到更广义 GEMM 方法论中理解。
为“如果做生产化下一步怎么做”提供高质量延展依据。

Profiling 与性能分析

为什么重要：

支持从单点 GFLOPS 走向指标驱动诊断。
帮助解释瓶颈归因、调优权衡与收益来源。

工程流程与验证纪律

为什么重要：

让仓库中的“正确性验证”和“流程治理”有权威工具链支撑。
强化本地 GPU 与托管 CI 验证边界的合理性。

相关页面