VA 视觉智能体 Visual Agent Studio

Visual Content Pipeline

先选智能体,再进入对应工作流。

这不是一个万能聊天框,而是一套拆得足够细的商业视觉内容生产系统。每个智能体只解决一个高频问题,输出还能继续给下游复用。

  • 不是一个大 Prompt,而是主控台加多个子智能体。
  • 先分析,再生成;先静态,再动态;先中间产物,再最终结果。
  • 当前首期优先打通卖点分析和 25 宫格分镜入口。

Workflow

正确方向不是一个超级长 Prompt,而是内容生产操作系统。

01 输入理解

先识别任务目标与输入缺口

主控智能体先判断是卖点分析、25 宫格分镜、详情页,还是脚本生成,再决定走哪条工作流。

任务路由 / 输入检查
02 结构化中间产物

先产出 brief、style bible、shot spec

卖点、材质、风格、镜头位都应该先结构化,再交给图像生成、脚本生成或详情页模块继续消费。

brief / style / shot plan
03 按智能体出结果

每个智能体只解决一个高频问题

用户先选入口,再得到对应结果,而不是在一个输入框里自己猜该怎么提需求。

智能体入口 / 专用结果

Agent Entry

先选智能体,再进入对应工作台。这才是竞品的入口逻辑。

Agent Workspace

自动 25 宫格分镜

上传产品图后,在这里选择比例并生成对应的 25 宫格分镜总图。

Capability Matrix

你真正要卖的不是模型能力,而是多个高频入口组成的生产系统。

产品分析层

卖点分析大师

从视觉线索反推商业表达,为详情页、视频脚本和口播文案提供基础层结果。

视觉资产层

9:16 / 16:9 25 宫格分镜

不是裁切,而是按平台语法重做镜头组织、主体占比和安全区适配。

视觉资产层

三视图 + 顶级拆解

把单图补全成可复用的产品资产,而不是简单换几个角度。

视频脚本层

带旁白脚本生成器

把静态镜头资产转成镜号、时长、视觉提示词、音效和旁白都齐全的执行脚本。

视频脚本层

去旁白高级脚本

更偏广告导演逻辑,让画面自己说话,而不是靠解说兜底。

商业化层

带货种草视频

同时处理人、货、场、口播、CTA 和购物车引导,最接近直接变现。

Deliverables

最终卖的不是一张图,而是一套可以继续往下游传递的结果包。

Structured Output

中间产物

先拿到 product brief、style bible、shot spec,再把它们交给图像、脚本或详情页模块。

JSON 可编辑 可复用

Visual Assets

静态镜头资产

镜头板、主视觉、场景参考图和详情页画面,应该先成为稳定资产,再进入视频阶段。

25 宫格 横竖屏 主视觉

Execution Pack

脚本与转化结果

后续继续往视频脚本、口播文案、购物车引导和详情页结构延展,才像完整产品。

脚本 CTA 平台适配