技术实现 · 参考底稿
判断引擎要真正"看懂"一个镜头,再对照创作意图判它对不对题。这一页是技术路线:用什么读画面、怎么逼它说真话、v1 最便宜怎么搭。一句话结论:没有任何模型把"对不对题"做成现成能力;它是套在强多模态模型上的一层判据(rubric),那层 rubric 才是产品。
调研把市面上的视频理解能力扫了一遍,结论很干脆:前沿多模态模型能"看到"画面内容,但没有一个能原生判断"这个镜头服不服务你的主题"。判对不对题,是把模型包进一层结构化判据里逼出来的。
这一层判据,就是我们在 《清晨》案例 里跑的那套大师判据(Lumet 河床、Deakins 动机光、Murch 优先级…)。模型是租来的眼睛,判据是我们自己造的尺。
所以护城河在哪
不在"能不能看到画面"(那是买来的模型能力),在"看到之后拿什么尺去量",以及那把尺怎么校准成你的眼睛。模型会换代,这层判据留存。
前沿多模态模型当判官,轻量分镜检测当管线,判据协议当真产品。不必买现成的"视频理解产品"来做判断,它们大多只做结构化标注,不判自由文本的创作意图。
读真帧内容并推理构图、光线、对不对题。调研里 Gemini(Pro 系列原生音视频、长上下文、时间定位较强)是较优单选;GPT-5 vision 适合单图 / 短片构图,长视频是抽帧、时序偏弱。具体能力与上下文长度以官方为准。
不让 LLM 干这种活。分镜边界用 PySceneDetect(免费本地)或云端 shot detection;每镜约 1 fps 抽帧 + 取音频段,让每条判断锚到一个真实镜头和时间戳。
把模型包进一套结构化判据:读镜头内容 → 复述声明的意图 → 逐维度判 serves / competes / neutral 并引用可见证据 → 给方案 → 标严重度;线索不足时强制弃权。这层是核心 IP。
能"看懂一个镜头并对照意图判断"的最小闭环。无索引、无向量库、无 embeddings。
PySceneDetect 把视频切成镜头 + 时间戳(免费本地)。
每镜约 1 fps 抽帧,带上音频段。
把"帧 + 音频 + 你那句 through-line"发给一个便宜档多模态模型;最难 / 有争议的镜头才升到 Pro 档。
用判据约束,逐镜返回 JSON:复述意图、逐维度(对题 / 构图 / 节奏 / 动机)serves|competes|neutral + 证据、严重度、方案(含 before/after)、置信度、是否弃权。
每条判断贴在它评的那一镜上;散文是正餐,分数(若有)只给镜头列表排序。
成本量级
主要成本是便宜档模型,约每分钟素材半美分(量级,非报价),加近零的本地分镜检测。先建判据和界面,再优化模型。 实际单价以各家官方最新定价为准。
从一批辅助创作工具(Sudowrite / Lex / Grammarly / Notion / CodeRabbit / Greptile,以及流量工具的反馈呈现)扒出来的交互模式。只学交互方式,不学流量逻辑。
要避开的(否则像扫兴的人,不像伙伴)
把流量分 / 0-100 当头条结论;说教或"这是错的"的口气;报告优先的脱节界面;啰嗦多段;编辑中途闪烁骚扰;静默原地改。噪声比漏判更快让人关掉工具。
据调研整理,供选型参考。具体能力、版本、定价以各家官方为准。
多模态模型在构图 / 光 / 意图上不稳。不强制"引用可见证据 + 线索不足弃权",就会自信地判错。判据是必需,不是可选。
啰嗦、低置信、坏时机的提示让人直接关掉。狠压低价值提示,衰减被否决项,只在边界或按需打断。
裸分数或"这是错的"触发防御。每条都要带方案 + before/after,且人拍板。
厂商标的上限是营销值,有效召回早就掉。逐镜判,别整片一次塞,顺便锚住证据。
别摆权威。框成一个有理由、可覆盖的意见,绝不当强制 gate。
缓存镜头判定,只重判改动的镜头,Pro 档只给争议镜头。
这一页本身按"不臆造、不冒充确定"的纪律自查过。区分什么立得住、什么待核实。
多模态模型当判官 + 分镜检测管线 + 判据协议的三段式;没有现成产品原生判自由文本意图;判据(而非模型)是核心 IP;逐镜判可缓解上下文衰减;交互八条来自真实工具的公开行为。这些是稳的结论。
各模型的上下文上限、跑分、每分钟定价、具体版本与发布时间,均来自一轮调研、未逐条独立复核。页面上凡数字都标了"约 / 量级",落地选型前按官方最新文档核对。
真实接入测试、中文素材上的表现、长视频真实召回率、人工对照校准。这些要在 v1 跑起来后用真实片段验证。