算子设计

本页解释仓库 Triton kernel 的主要实现思路。

`fused_rmsnorm_rope`

核心思路是：在寄存器里尽量保留归一化结果，紧接着完成 RoPE，再把最终输出写回。

设计目标：

为什么重要：

这个 kernel 会对同一块输入同时计算两条投影：

随后对 gate projection 施加激活，并与 up projection 相乘：

output = activation(gate_proj(x)) * up_proj(x)

这样就把投影与激活的工作收敛到一次 launch 中，而不是拆成多个操作。

GEMM kernel 使用的是仓库自定义的 FP8 兼容表示：

代码里还采用了 grouped output tile 排布，以改善 cache locality。

当前 Python launcher 主要根据问题规模做启发式 block 选择，而不是每次调用时在线自动调优。

例如：

这样做的好处是运行路径更小、更稳定，而更复杂的配置搜索则交给通用 autotuner 层。

每个 kernel 模块都同时保留了 PyTorch reference 实现，这很关键，因为它提供了：

仓库强调的不只是“快”，而是“可验证地快”。