视觉理解 — Vision Insight — 原型功能实现
📖 README
·
未连接
·
模型 doubao-seed-2-0-lite-260428
能力概览
①
多模态实时观察
:摄像头按 1 fps 抽帧上行,豆包 VLM 为每一帧生成画面描述,构建会话级短期视觉记忆(30 分钟 / 256 帧上限)。
②
历史记忆召回
:用户用自然语言追问"刚才/之前"等历史画面问题时,按文本向量在记忆库中召回最相关帧,VLM 联合作答。
③
当前画面问答
:对"现在/这是什么"类问题直接基于当前帧做 VQA,简洁直接。
④
持续检测与主动反馈
:用户口语化注册视觉规则(如"等到 X 出现告诉我"),后端带外调度器以 ≤2 QPS 限流匹配新帧,命中或超时通过 SSE 主动推送横幅提醒。
⑤
意图路由 + 可观测
:每次对话先经 LLM 意图分类(recall_history / current_frame_vqa / register_rule / chitchat),再分发到对应工具,回复中暴露 trace 与命中数,便于调参。
开启摄像头
关闭
自动抽帧 (1 fps)
手动观察一帧
📷 手机拍照
尚未捕获画面
附带当前帧
发送