Triton Fused Ops

知识首页 / Knowledge Hub

面向 Transformer 推理路径的双语技术知识库,聚焦 Triton 融合算子、FP8 量化、自动调优、基准测试与实现细节。
A bilingual technical hub focused on Triton fused kernels, FP8 quantization, autotuning, benchmarking, and implementation details.

RMSNorm + RoPE Gated MLP FP8 GEMM Auto-Tuning Benchmarking

Language / 语言

Knowledge Map / 知识地图

Kernel Focus / 核心知识点

`fused_rmsnorm_rope`

将 RMSNorm 与 RoPE 合并在同一条 kernel 路径中,减少中间 HBM 往返。

`fused_gated_mlp`

面向 SwiGLU/GeGLU 场景,将 gate、up 与激活计算合并。

`fp8_gemm`

提供 FP8 量化 GEMM 路径,支持自动量化输入与显式 scale 管理。

Supporting Knowledge

包含验证规则、异常模型、自动调优缓存、性能报告与源码级内部说明。