视觉语言模型
视觉语言模型(VLM)连接视觉感知和自然语言理解。YOLO-Toys 服务多个 VLM 用于开放词汇检测、图像描述和视觉问答。
为什么需要视觉语言模型?
传统视觉模型有根本局限:只能理解训练过的类别。VLM 通过从图文对学习克服这一点,实现:
- 开放词汇检测:用自然语言描述检测目标
- 图像描述:生成自然语言描述
- 视觉问答:回答关于图像内容的问题
YOLO-Toys 中的模型
OWL-ViT
使用对比预训练的开放词汇目标检测。
- 任务:文本条件检测
- 输入:图像 + 文本查询
- 输出:每个查询的边界框
- 用例:无需训练检测任意目标
Grounding DINO
融合视觉语言特征的短语定位。
- 任务:短语定位(链接文本到图像区域)
- 输入:图像 + 文本描述
- 输出:每个短语的边界框
- 用例:详细场景理解
BLIP
统一视觉语言理解和生成的预训练模型。
- 任务:图像描述、视觉问答
- 输入:图像(± 文本问题)
- 输出:自然语言描述/答案
- 用例:内容理解、无障碍
对比
| 模型 | 任务 | 开放词汇 | 输出 |
|---|---|---|---|
| OWL-ViT | 检测 | ✓ | 边界框 |
| Grounding DINO | 定位 | ✓ | 边界框 |
| BLIP | 描述/VQA | N/A | 文本 |
接下来阅读
- OWL-ViT 开放词汇检测
- Grounding DINO 短语定位
- BLIP 描述和 VQA