API 参考
本节聚焦仓库当前维护的 API 表面,以及与这些接口密切相关的支撑模块。
根包导出
根包 triton_ops 从 __init__.py 暴露主要用户接口。
from triton_ops import (
fused_rmsnorm_rope,
fused_gated_mlp,
fp8_gemm,
quantize_fp8,
dequantize_fp8,
FusedRMSNormRoPE,
FusedGatedMLP,
FP8Linear,
TritonAutoTuner,
ConfigCache,
BenchmarkSuite,
)
知识分区
Kernels 核心计算路径 融合 RMSNorm + RoPE、融合 Gated MLP、FP8 GEMM 与模块封装。 Quantization FP8 存储与 scale 语义 说明量化/反量化、scale 规则,以及溢出处理 helper 的真实导入路径。 Autotuning 搜索、缓存与指标 涵盖 `TritonAutoTuner`、`ConfigCache`、配置空间与性能指标。 Benchmark 正确性验证与报告 涵盖 `BenchmarkSuite`、`CorrectnessVerifier` 以及报告对象。 Models 数据模型与结果容器 介绍 `TensorSpec`、输入规格、`KernelMetrics`、`TuningResult` 与 `FP8Format`。 Validation 输入校验与运行契约 说明 shape、dtype、连续内存、device 和标量参数检查。 Errors 异常层级 说明设备、dtype、形状、调优与数值溢出错误模型。
范围提醒
有些 helper 位于子模块里,但没有从根包重新导出。相关 API 页会明确给出真实导入路径,避免误导。