Triton Fused Ops
知识首页 / Knowledge Hub
面向 Transformer 推理路径的双语技术知识库,聚焦 Triton 融合算子、FP8 量化、自动调优、基准测试与实现细节。
A bilingual technical hub focused on Triton fused kernels, FP8 quantization, autotuning, benchmarking, and implementation details.
RMSNorm + RoPE Gated MLP FP8 GEMM Auto-Tuning Benchmarking
Language / 语言
Knowledge Map / 知识地图
Scope Runtime Boundaries / 运行边界 GPU 运行要求、CPU-safe 验证路径、连续内存与 dtype 约束。
Reading Path Recommended Study Order / 推荐阅读路径 Quick Start → API → Integration → Performance → Internals.
Kernel Focus / 核心知识点
`fused_rmsnorm_rope`
将 RMSNorm 与 RoPE 合并在同一条 kernel 路径中,减少中间 HBM 往返。
`fused_gated_mlp`
面向 SwiGLU/GeGLU 场景,将 gate、up 与激活计算合并。
`fp8_gemm`
提供 FP8 量化 GEMM 路径,支持自动量化输入与显式 scale 管理。
Supporting Knowledge
包含验证规则、异常模型、自动调优缓存、性能报告与源码级内部说明。