像写代码一样拍片

一个意外的相似

过去两年,编程圈把一件难事做成了:让一群 AI 协作,可靠地交付一个真实项目。做法收敛成几招,先写清楚需求文档,给每个角色独立分工,产物互相评审、自动测试,出错就进循环改到对。

拍一部片是同一个形状:一份分镜 → 一群专才(摄影、剪辑、配乐) → 互相把关 → 反复打磨 → 出片。既然形状一样,我们不重新发明,直接把编程那套搬过来。

一句话

不重造轮子。把"一支 AI 团队怎么交付项目"的成熟范式,整套搬进视频剧组,再加上它们都缺的判断层。

编程的成熟做法,逐条搬进剧组

左边是编程里早就跑通的范式,右边是它在视频剧组里对应的角色。判断层(测试那一行)是承重的一项。

编程里成熟的做法

搬到视频剧组

子分工:一个 AI 只干一件事

大师 persona 各管一摊:摄影、剪辑、美术,以及一个"主题评论"角色

先写需求文档(spec),再生成

先定分镜 + 一句"主题声明",当作整片的需求

自动测试,跑不过不合并

主题一致性判断引擎:每个镜头都问"它服务你的主题吗"

代码评审,同事互查

班子互评:摄影评剪辑的节奏对不对题,主题评论评两者

长期记忆,跨任务记住上下文

创作档案:你的口味、故事设定、历史决定

循环:出错 → 改 → 再来,直到达标

渲染 → 判断 → 重渲,直到对题,而不是渲一次就停

编排:技术负责人统筹

制片人(你)统筹整支班子

判断引擎,坐在"测试"那一格

这是整个设计的脊柱。在编程里,每段代码都要过测试才能合并;在我们这,每个镜头都是一次"待测样本",断言只有一句:它服务故事主线吗?

判断引擎给每个镜头打分、写诊断,不达标就带着诊断退回去重做。拿掉它,系统就退化成一个"能渲但不会判断"的生成器,也就是市面上已有的那些。它的判断标准由你的创作档案校准,所以"通过"意味着"服务的是你这位导演的主线",不是一套通用模板。

判断在四个关口把关(都在花钱之前最便宜的地方)

① 主题锁:开拍前先定一句主题声明,人批一次,之后不可随意改。② 剧本/节拍:每个节拍服不服务主线,不对题可拦下。③ 分镜:画面是表达主题还是只是装饰。④ 成片复检:渲完再核一遍,逐镜重渲有没有跑偏。

护城河 = 校准飞轮。 每次你否决判断引擎的意见,都是一条标注,回去更新创作档案、重调权重。用得越多,它越懂你,评估集随用增长。这是"它执行、却没有判断"的对手结构上抄不走的。

借范式,还是 fork 代码?

已经有一个开源项目(OpenMontage)把"生产执行"这套搭好了。能不能直接拿来改?决断很清楚:借它的思路,自己重写,不要 fork。

借范式(推荐)

思路不受版权,自己重写

有价值的是架构思想:需求文档当真相源、阶段化关口、按成本/质量选模型——这些重写一遍很轻松
它的代码大多是工具和管线胶水,本来就该自己写或换掉
判断层和创作档案用你自己的许可证,保持私有

Fork 它的代码

省一点初期力气

它是 AGPL-3.0:只要你在它代码上构建、并以服务形式提供(哪怕内网),就必须把你的派生源码全部开源给用户
那会逼你开源你唯一的护城河:判断层 + 创作档案 + 校准逻辑
等于在你的差异化上,接受了开源义务

AGPL 红线

纯个人、不联网自用的一次性 demo,AGPL 义务不触发,扩展它原型很方便。但只要成产品、成服务、要分享,就必须在自己的许可证上。目标是差异化的判断层,从第一天就干净室自建,别等到要商业化再被迫重写。

怎么开始:先证最难的那一步

不要一上来搭全套管线。先把风险最高的"判断引擎到底准不准"证出来,再往上长。

主题声明 + 静态判断引擎

定一个"主题声明"的格式,做一个判断引擎,输入主题 + 一段剧本/节拍,输出带诊断的评分。拿你自己 5 到 10 个旧项目离线验证:它标的"严重问题"和你的判断对不对得上。整个风险面都在这,先证它。

创作档案 + 校准

加入你的口味记忆(引用/否决的导演与片、节奏偏好),一次性访谈灌入。证明校准后的判断引擎比通用模板更准,误判更少。

单条管线的最小班子循环

干净室实现需求文档语法,只做一条管线(如短纪录蒙太奇)。制片人统筹导演 + 剧本 + 一个真实渲染后端(直接调现成引擎,别造渲染器)。判断引擎挂在剧本关口,先建议不阻断。

精化循环 + 阻断关口

剧本阶段判断不过就触发重生成(封顶两轮),再升级为可阻断(仅主题这一条,保留人工覆盖)。加成片复检。证明一个真实案例:循环在花钱渲染前,抓住并修好了一个不对题的节拍。

(可选)硬化

班子互评 + 若需确定性回放,再把编排升级成状态机。判断层价值证实前,不要从这里开始。