Skip to content

视觉语言模型

视觉语言模型(VLM)连接视觉感知和自然语言理解。YOLO-Toys 服务多个 VLM 用于开放词汇检测、图像描述和视觉问答。

为什么需要视觉语言模型?

传统视觉模型有根本局限:只能理解训练过的类别。VLM 通过从图文对学习克服这一点,实现:

  1. 开放词汇检测:用自然语言描述检测目标
  2. 图像描述:生成自然语言描述
  3. 视觉问答:回答关于图像内容的问题

YOLO-Toys 中的模型

OWL-ViT

使用对比预训练的开放词汇目标检测。

  • 任务:文本条件检测
  • 输入:图像 + 文本查询
  • 输出:每个查询的边界框
  • 用例:无需训练检测任意目标

Grounding DINO

融合视觉语言特征的短语定位。

  • 任务:短语定位(链接文本到图像区域)
  • 输入:图像 + 文本描述
  • 输出:每个短语的边界框
  • 用例:详细场景理解

BLIP

统一视觉语言理解和生成的预训练模型。

  • 任务:图像描述、视觉问答
  • 输入:图像(± 文本问题)
  • 输出:自然语言描述/答案
  • 用例:内容理解、无障碍

对比

模型任务开放词汇输出
OWL-ViT检测边界框
Grounding DINO定位边界框
BLIP描述/VQAN/A文本

接下来阅读

Released under the MIT License.