视觉语言模型

视觉语言模型（VLM）连接视觉感知和自然语言理解。YOLO-Toys 服务多个 VLM 用于开放词汇检测、图像描述和视觉问答。

为什么需要视觉语言模型？

传统视觉模型有根本局限：只能理解训练过的类别。VLM 通过从图文对学习克服这一点，实现：

开放词汇检测：用自然语言描述检测目标
图像描述：生成自然语言描述
视觉问答：回答关于图像内容的问题

YOLO-Toys 中的模型

OWL-ViT

使用对比预训练的开放词汇目标检测。

任务：文本条件检测
输入：图像 + 文本查询
输出：每个查询的边界框
用例：无需训练检测任意目标

Grounding DINO

融合视觉语言特征的短语定位。

任务：短语定位（链接文本到图像区域）
输入：图像 + 文本描述
输出：每个短语的边界框
用例：详细场景理解

BLIP

统一视觉语言理解和生成的预训练模型。

任务：图像描述、视觉问答
输入：图像（± 文本问题）
输出：自然语言描述/答案
用例：内容理解、无障碍

对比

模型	任务	开放词汇	输出
OWL-ViT	检测	✓	边界框
Grounding DINO	定位	✓	边界框
BLIP	描述/VQA	N/A	文本

接下来阅读

OWL-ViT 开放词汇检测
Grounding DINO 短语定位
BLIP 描述和 VQA