Skip to the content.

多模型系统增强 - 2025-11-25

概述

全面增强项目,支持多种 AI 模型的动态切换,包括 YOLO 系列、HuggingFace Transformers 模型和多模态模型。同时深度优化前端界面的设计和交互体验。

新功能

1. 多模型支持系统

2. 新增后端文件

3. API 增强

4. 前端 UI 全面重新设计

5. 鼠标悬浮提示 (Tooltips)

为所有设置项添加了详细的功能说明:

文件变更

新增文件

修改文件

备份文件

依赖更新

transformers>=4.35.0  # HuggingFace Transformers
accelerate>=0.24.0    # 推理加速

使用说明

切换模型

  1. 在设置面板中选择模型类别标签页
  2. 点击模型卡片选择具体模型
  3. 或使用顶部快速选择下拉框

多模态功能

  1. 选择”多模态”类别
  2. 图像描述:选择 BLIP Caption 模型,自动生成描述
  3. 视觉问答:选择 BLIP VQA 模型,在设置中输入问题

开放词汇检测

  1. 选择 OWL-ViT 模型
  2. 在多模态设置中输入要检测的物体(逗号分隔)
  3. 例如: “person, red car, dog”

注意事项


后续完善 (同日)

新增功能

  1. Toast 通知系统 - 添加操作反馈通知(成功/错误/信息)
  2. 错误处理增强 - 摄像头权限、网络错误等友好提示
  3. 模型选择反馈 - 切换模型时显示 toast 提示

修复问题

  1. 修复模型标签页过滤逻辑,支持多模态类别显示
  2. 添加模型卡片的速度/精度元信息显示
  3. 修复 WebSocket 断开重连时的通知显示

文档更新