给判断引擎装眼睛 · 技术实现

核心判断:模型给眼睛,rubric 给标准

调研把市面上的视频理解能力扫了一遍,结论很干脆:前沿多模态模型能"看到"画面内容,但没有一个能原生判断"这个镜头服不服务你的主题"。判对不对题,是把模型包进一层结构化判据里逼出来的。

这一层判据,就是我们在《清晨》案例里跑的那套大师判据(Lumet 河床、Deakins 动机光、Murch 优先级…)。模型是租来的眼睛,判据是我们自己造的尺。

所以护城河在哪

不在"能不能看到画面"(那是买来的模型能力),在"看到之后拿什么尺去量",以及那把尺怎么校准成你的眼睛。模型会换代,这层判据留存。

推荐技术栈:三段式

前沿多模态模型当判官,轻量分镜检测当管线,判据协议当真产品。不必买现成的"视频理解产品"来做判断,它们大多只做结构化标注,不判自由文本的创作意图。

判官 · 眼睛+推理

前沿多模态 LLM

读真帧内容并推理构图、光线、对不对题。调研里 Gemini(Pro 系列原生音视频、长上下文、时间定位较强)是较优单选;GPT-5 vision 适合单图 / 短片构图,长视频是抽帧、时序偏弱。具体能力与上下文长度以官方为准。

管线 · 便宜确定性

分镜检测 + 抽帧

不让 LLM 干这种活。分镜边界用 PySceneDetect(免费本地)或云端 shot detection;每镜约 1 fps 抽帧 + 取音频段,让每条判断锚到一个真实镜头和时间戳。

rubric · 真产品

判官协议

把模型包进一套结构化判据:读镜头内容 → 复述声明的意图 → 逐维度判 serves / competes / neutral 并引用可见证据 → 给方案 → 标严重度;线索不足时强制弃权。这层是核心 IP。

embeddings / 视频检索产品(如 Twelve Labs):只在"要在素材库里搜一个更对题的替代镜头"时才需要。v1 单视频评判用不上,跳过。

v1 最便宜的路径

能"看懂一个镜头并对照意图判断"的最小闭环。无索引、无向量库、无 embeddings。

切分镜

PySceneDetect 把视频切成镜头 + 时间戳(免费本地)。

抽帧取声

每镜约 1 fps 抽帧,带上音频段。

送判官

把"帧 + 音频 + 你那句 through-line"发给一个便宜档多模态模型;最难 / 有争议的镜头才升到 Pro 档。

结构化判据

用判据约束,逐镜返回 JSON:复述意图、逐维度(对题 / 构图 / 节奏 / 动机)serves|competes|neutral + 证据、严重度、方案(含 before/after)、置信度、是否弃权。

锚到时间线

每条判断贴在它评的那一镜上;散文是正餐,分数(若有)只给镜头列表排序。

成本量级

主要成本是便宜档模型,约每分钟素材半美分(量级,非报价),加近零的本地分镜检测。先建判据和界面,再优化模型。 实际单价以各家官方最新定价为准。

交互:怎么把判断递给创作者

从一批辅助创作工具(Sudowrite / Lex / Grammarly / Notion / CodeRabbit / Greptile,以及流量工具的反馈呈现)扒出来的交互模式。只学交互方式,不学流量逻辑。

贴着镜头给,不出报告。每条判断锚在它评的那一镜上,全局报告只是汇总。

每条批评都带具体方案。命名问题,再给可直接采用的改法(像代码评审的一键 diff),不是只提问。

接受 / 否决 / 重生成 + 讨论。一键应用、轻松忽略;被否决的提示衰减,不再骚扰。

before / after 是信任原语。方案渲染成"现状 vs 提议"让人批准,绝不静默改。

散文是正餐,分数只排序。单个判断用带理由的散文;分数只在给多个候选排序时用,且拆成命名维度。

严重度绑定到元素 + 一句为什么。小词表(阻断 / 提醒 / 润色),每个标签挂到具体镜头和理由。

默认按需,只在边界推。默认"判这场"才出声,只在场尾 / 剪点完成时主动提示,绝不在编辑中途。

伙伴感是四个动作。随时可问为什么、给多个选项、零评判随便问、人永远拍板。

要避开的(否则像扫兴的人,不像伙伴)

把流量分 / 0-100 当头条结论;说教或"这是错的"的口气;报告优先的脱节界面;啰嗦多段;编辑中途闪烁骚扰;静默原地改。噪声比漏判更快让人关掉工具。

模型与产品速览

据调研整理,供选型参考。具体能力、版本、定价以各家官方为准。

类别

候选与定位

判官(闭源前沿)

Gemini Pro / Flash 系列(原生音视频、长上下文、时间定位);GPT-5 vision(单图 / 短片构图强,长视频抽帧)

判官(开源自托管)

Qwen3-VL(时序定位 + 框定位)、InternVideo2.5(长时序);质量低于前沿闭源,隐私 / 规模成本逼迫时用

分镜检测

PySceneDetect(免费本地);云端有 AWS Rekognition / Google Video Intelligence 的 shot detection

视频检索(可选)

Twelve Labs(Marengo embeddings 检索 + Pegasus 语言判断);只在跨素材库找替代镜头时上

只做标注(不判意图)

Google Video Intelligence / AWS Rekognition / Azure Video Indexer:分镜、标签、OCR、转写,但不对自由文本意图推理

风险

不强制 grounding 就会胡判

多模态模型在构图 / 光 / 意图上不稳。不强制"引用可见证据 + 线索不足弃权",就会自信地判错。判据是必需,不是可选。

噪声杀采用

啰嗦、低置信、坏时机的提示让人直接关掉。狠压低价值提示,衰减被否决项,只在边界或按需打断。

说教毁伙伴感

裸分数或"这是错的"触发防御。每条都要带方案 + before/after,且人拍板。

长视频上下文衰减

厂商标的上限是营销值,有效召回早就掉。逐镜判,别整片一次塞,顺便锚住证据。

"对题"本就主观

别摆权威。框成一个有理由、可覆盖的意见,绝不当强制 gate。

成本随素材线性涨

缓存镜头判定,只重判改动的镜头,Pro 档只给争议镜头。

诚实边界(本页可信度自审)

这一页本身按"不臆造、不冒充确定"的纪律自查过。区分什么立得住、什么待核实。

立得住(架构层)

多模态模型当判官 + 分镜检测管线 + 判据协议的三段式;没有现成产品原生判自由文本意图;判据(而非模型)是核心 IP;逐镜判可缓解上下文衰减;交互八条来自真实工具的公开行为。这些是稳的结论。

待核实(具体数字)

各模型的上下文上限、跑分、每分钟定价、具体版本与发布时间,均来自一轮调研、未逐条独立复核。页面上凡数字都标了"约 / 量级",落地选型前按官方最新文档核对。

没覆盖

真实接入测试、中文素材上的表现、长视频真实召回率、人工对照校准。这些要在 v1 跑起来后用真实片段验证。