Skip to content

导读

导读章节用于把读者从“刚看到仓库”快速带到“已经理解这个系统为什么值得看”。如果你想先抓住项目边界、模型范围和阅读路径,从这里开始。

YOLO-Toys 本质上是什么

YOLO-Toys 是一个 多模型视觉推理服务运行时。它把多个视觉模型家族统一到一套 FastAPI 与 WebSocket 接口之下,既方便快速集成 demo / backend,也方便研究混合视觉工作负载的服务化架构。

先理解哪些表面

接口面作用
/infer统一检测、分割、姿态与开放词汇检测
/caption/vqaBLIP 驱动的视觉语言能力
/ws实时帧流推理,适合低延迟交互
/models/labels运行时发现模型与标签信息
/metrics/health/system/*观测、诊断与运行时护栏

建议阅读顺序

  1. 先看 快速开始
  2. 想本地开发就继续看 安装
  3. 想知道如何落地部署就看 部署概览
  4. 想深入理解设计边界就进入 架构图谱

当前纳入的平台模型家族

家族代表模型主要职责
YOLOv8yolov8n.ptyolov8n-seg.ptyolov8n-pose.pt快速检测、分割、姿态
DETRfacebook/detr-resnet-50Transformer 检测
OWL-ViT / Grounding DINOgoogle/owlvit-base-patch32开放词汇检测
BLIPSalesforce/blip-image-captioning-base图像描述与 VQA

下一跳

  • 想看系统全貌,进入 架构图谱
  • 想看设计原理,进入 学院
  • 想看接口与模型矩阵,进入 参考
  • 想看论文与竞品,进入 研究

Released under the MIT License.