架构图谱
架构图谱章节回答的不是"有哪些文件",而是"这个运行时为什么被组织成这样"。你会看到为什么路由层保持轻薄、为什么模型分发集中在 manager / registry,以及异构模型如何共享同一条服务契约。
适合在这里进入的读者: 想快速看懂系统骨架、请求执行路径,以及扩展边界该落在哪里的人。
系统总览把服务看成分层运行时,而不是若干零散接口。请求生命周期顺着一次请求走完整条链路:入口、缓存、分发、执行、结果整形。执行边界理解模型特定逻辑如何被约束在 handler 内部。中间件栈安全、指标、超时、限流、压缩、跨域,按层次排序。配置注入Pydantic 设置如何通过适配器类流入运行时。模型缓存LRU + TTL 混合缓存,带内存压力驱逐和线程安全。
本章要回答的问题
- 为什么不按模型家族拆成多套接口?
- 为什么模型解析要经过 registry?
- 结果归一化发生在哪一层,代价是什么?
- 系统如何在保持扩展性的同时不失去可理解性?
- 中间件栈的排序如何反映生产关切?
- 为什么缓存是运营感知的,而不只是基于时间?