训练背景

理解推理之前发生了什么有助于做出更好的模型选择、微调和部署决策。

为什么预训练很重要

YOLO-Toys 中的模型遵循共同模式：

预训练：从大数据集学习通用特征
微调：适应特定任务/领域
推理：部署到实际应用

预训练阶段决定：

泛化能力：模型处理新输入的能力
特征质量：学习表示的丰富程度
可迁移性：模型适应新领域的容易程度

本节文章

损失函数

理解塑造模型行为的数学目标：

YOLO 家族损失（CIoU、VFL、DFL）
DETR 二分图匹配
视觉语言模型的对比损失

预训练数据规模

模型	预训练数据	规模
YOLOv8	COCO + Objects365	~200 万图像
DETR	COCO	11.8 万图像
OWL-ViT	LAION-400M	4 亿图文对
BLIP	LAION + CC3M	~1.3 亿图文对

接下来阅读

损失函数详细损失解释
模型矩阵实用规格