Skip to main content
Link
Menu
Expand
(external link)
Document
Search
Copy
Copied
Knowledge Hub
Documentation
Getting Started
Installation
Quick Start
Examples
API Reference
Core Kernels
FP8 Quantization
Auto-Tuning
Benchmarking
Models and Types
Validation
Errors
Guides
Integration Guide
Performance Tuning
FP8 Best Practices
Internals
Architecture
Kernel Design
Memory Optimization
中文文档
开始使用
安装指南
快速开始
示例教程
API 参考
核心算子
FP8 量化
自动调优
基准测试
数据模型与类型
输入校验
异常模型
工程指南
集成指南
性能优化
FP8 最佳实践
内部实现
架构设计
算子设计
内存优化
Triton Fused Ops
English Docs
中文文档
中文文档
内部实现
内部实现
本节解释库的结构组织方式,以及这些 kernel 为何采用当前的实现方案。
架构
模块布局与职责划分
说明公开 API、验证层、kernel、自动调优和基准工具之间的关系。
Kernel
分块与融合策略
阅读 Triton kernel 的设计思路与内存访问模式。
内存
HBM 访问削减与 SRAM 复用
理解为什么融合有效,以及项目如何减少全局显存往返。
Table of contents
架构设计
算子设计
内存优化