中文知识库
这里聚合了与当前仓库实现一致的技术内容:公开 API、运行约束、性能工具链,以及 Triton kernel 的内部设计说明。
开始使用 安装、运行与最小示例 从环境准备、第一段可运行代码,到模块封装示例。 API 参考 公开接口与输入契约 涵盖 kernel、量化、自动调优、基准工具、数据模型与异常说明。 工程指南 集成与性能知识 说明如何接入融合算子、如何正确测量性能、如何使用 FP8。 内部实现 源码级实现背景 查看架构分层、kernel 设计取舍与内存访问优化思路。
推荐阅读路径
运行边界提醒
- Triton kernel 的实际执行需要 CUDA。
- CPU-only 环境仍适合导入检查、lint、类型检查、构建,以及 CPU-safe 测试。
- 站点现在只保留技术知识页,不再把更新日志和仓库流程信息发布到 GitHub Pages。