理论与算法
本章深入介绍 YOLO-Toys 所服务模型的算法背景。理解这些基础知识有助于选择合适的模型、调整推理参数以及权衡性能取舍。
YOLO-Toys 服务于五个不同的模型家族,每个家族都有独特的架构假设、训练范式和推理特性。
章节结构
检测算法
目标检测是大多数 YOLO-Toys 用例的核心任务。本节涵盖:
- YOLO 家族演进 — 从 YOLOv1 的网格预测到 YOLOv8 的无锚框架构,追溯八年单阶段检测创新历程
- DETR 架构 — Transformer 如何实现无需锚框和 NMS 的端到端检测
- 检测范式对比 — 对比锚框式、无锚框式和基于 Transformer 的方法
视觉语言模型
开放词汇检测和图像理解模型:
- OWL-ViT — 基于对比预训练的文本条件检测
- Grounding DINO — 融合视觉语言特征的短语定位
- BLIP — 图像描述与视觉问答
训练背景
理解推理之前发生了什么:
- 损失函数 — 检测损失、对比损失及其梯度
为什么这些很重要
YOLO-Toys 抽象了模型家族的差异,但这种抽象不是免费的。理解底层架构有助于:
- 选择正确的模型 — YOLOv8 擅长吞吐量;DETR 更适合密集场景;OWL-ViT 可检测新类别
- 智能调参 — 置信度阈值、IoU 阈值和 NMS 设置在不同家族中有不同含义
- 诊断失败 — 为什么 OWL-ViT 漏检了这个目标?为什么 DETR 在这张图上更慢?
- 规划扩展 — 添加新模型家族需要什么?
阅读路径
运维人员
从 检测范式对比 开始获取概览,然后深入了解你部署的特定模型家族。
研究人员
视觉语言模型 章节涵盖检测生态中最新的成员。这些模型代表了开放词汇感知的前沿。