视觉理解原型 · Doubao-Seed-2.0-lite

能力概览

① 多模态实时观察：摄像头按 1 fps 抽帧上行，豆包 VLM 为每一帧生成画面描述，构建会话级短期视觉记忆（30 分钟 / 256 帧上限）。
② 历史记忆召回：用户用自然语言追问"刚才/之前"等历史画面问题时，按文本向量在记忆库中召回最相关帧，VLM 联合作答。
③ 当前画面问答：对"现在/这是什么"类问题直接基于当前帧做 VQA，简洁直接。
④ 持续检测与主动反馈：用户口语化注册视觉规则（如"等到 X 出现告诉我"），后端带外调度器以 ≤2 QPS 限流匹配新帧，命中或超时通过 SSE 主动推送横幅提醒。
⑤ 意图路由 + 可观测：每次对话先经 LLM 意图分类（recall_history / current_frame_vqa / register_rule / chitchat），再分发到对应工具，回复中暴露 trace 与命中数，便于调参。

自动抽帧 (1 fps)

尚未捕获画面