Skip to the content.

LLM-Speed

GitHub Pages CI License: MIT CUDA C++ Python

LLM-Speed 面向“理解并验证 LLM 推理算子如何从朴素实现逐步优化到高性能版本”的学习与工程实践场景,覆盖 FlashAttention、Tensor Core GEMM、Python 绑定和属性测试。

项目定位

这是一个把 CUDA 内核实验、Python 集成和验证流程放在同一仓库里的工程化学习项目。仓库 README 只保留最小构建入口,这个页面负责说明项目适合谁、先看什么以及重要文档在哪。

适合谁

从哪里开始

  1. 先看 README,完成依赖安装、构建与测试。
  2. 再看 DeepWiki,理解核心 kernel、头文件原语与优化思路。
  3. 需要参与协作或追踪演进时,继续查看 CONTRIBUTING更新日志

推荐阅读路径

我只想先编译并跑测试

我想先理解优化路线

我准备继续维护

核心入口

类别 页面 说明
概览 README 仓库定位、最小构建命令与文档链接
快速开始 README 安装依赖、构建扩展与运行测试
使用指南 DeepWiki 核心 kernel、原语与优化策略说明
开发指南 CONTRIBUTING 提交流程、代码规范与测试要求
归档 更新日志 工作流、文档与实现迭代记录
外部链接 GitHub 仓库 源码、Issue 与协作入口