CUDA SGEMM 白皮书 · 架构展示站 · KERNEL 学院

把一个 CUDA SGEMM 项目写成一份经得起追问的技术论证

这套站点面向严苛的面试官和高级开发者，不满足于“有一个更快的 kernel”。它把仓库重新组织成一条可辩护的技术链路：从项目导读开始，进入架构，进入学院，再进入验证与研究资料台。

打开项目导读查看架构全景进入学院打开研究资料台

5 级 kernel 阶梯cuBLAS 锚定验证中英镜像路由

公共叙事被刻意组织成技术论证链：先给论点，再给架构、课程、证据，最后给技术谱系。

项目论点

优化必须可解释

每个 kernel 都是为了暴露并改变某一类瓶颈，而不是为了多放一张跑分图。

读者契约

面试压力下也能讲清楚

这套站点既能让评审快速审查设计，也能帮助候选人把项目讲成一条完整的工程链路。

信任模型

CI 负责结构，GPU 负责证据

自动化负责仓库健康、文档检查与 Pages 构建，运行时正确性和性能仍然属于真实 GPU。

按你的目标进入

我只想先看 90 秒项目摘要

先看导读，再跳到架构页补上系统视角。

项目导读架构概述

我想知道每一级 kernel 为什么存在

先看阶梯和内存主线，再进入学院逐个打开深度页面。

Kernel 阶梯学院导览

我更关心证据，不关心口号

先看验证，确认正确性策略、benchmark 范围和可复现性边界，再决定这些数字是否值得相信。

验证概览 Benchmark 结果

我想看技术谱系和对照材料

研究资料台负责论文、相关仓库，以及这个项目为什么长成现在这个样子的演进思考。

研究总览相关项目

白皮书主干

表面	它回答什么	为什么存在
导读	这是什么项目，为什么值得看，应该怎么读？	给新读者和评审一个坚决的入口。
架构	SGEMM 系统怎么组织，它的核心约束是什么？	把实现细节提升为可辩护的系统地图。
学院	应该按什么顺序学习优化阶梯？	把仓库包装成课程，而不是散页笔记。
验证	这些证据到底能证明什么，不能证明什么？	让项目保持技术诚实。
研究	这些想法来自哪里，又该和谁做对照？	增强学术和对比维度。

用受控图示表达架构主线

从 naive FP32 到 tiled、bank-free、double-buffer、Tensor Core WMMA 的 kernel 阶梯，并联接架构、验证和研究三条辅助轨。

这条阶梯不是奖杯陈列架，而是一张瓶颈转移、接口约束与证据要求的地图。

为什么这套呈现方式更强

它把 SGEMM 当作技术论证，而不是项目秀场。
它把架构、学院、验证、研究拆成清晰分工，每页只做一件事。
它把中英镜像和公共深度视为项目的一部分，而不是临时补丁。

如果你想从仓库入口开始

英文仓库摘要： README
中文仓库入口： README.zh-CN
构建与验证说明： CONTRIBUTING

把一个 CUDA SGEMM 项目写成一份经得起追问的技术论证

按你的目标进入 ​

我只想先看 90 秒项目摘要

我想知道每一级 kernel 为什么存在

我更关心证据，不关心口号

我想看技术谱系和对照材料

白皮书主干 ​

用受控图示表达架构主线 ​

为什么这套呈现方式更强 ​

如果你想从仓库入口开始 ​

按你的目标进入

白皮书主干

用受控图示表达架构主线

为什么这套呈现方式更强

如果你想从仓库入口开始