AI Co-Director.

AI Co-Director · 给 AI 视频装上判断力

AI 副导演

AI 能生成任何画面,却拍不出一个好故事。

它不替你创作,替你扫清杂事。繁杂的执行和反复试错交给 AI;有意思的部分,你的审美、你的故事、你的价值观、你要表达的主题,留给你。它还不断给你建议和思考,让你腾出空间,把真正重要的判断做得更好。

你来 · 不交出去的核心

  • 审美与品味
  • 故事的走向
  • 价值观
  • 你要表达的主题

你想说什么,为什么这么说。这是作品的灵魂。

AI 副导演来 · 替你接过的

  • 逐镜的繁杂思考
  • 给方案、建议、指导
  • 成本与反复试错
  • 执行落地

把耗神的部分接过去,还把更多可想的喂给你。

这不是把创作甩给 AI,而是把你从杂事里解放出来,去想更重要的事。普通创作者第一次拥有了过去只有大制作才请得起的副导演,得以专注当导演。

结论来源 六轮深度调研 + 一轮四维对抗式复验 · 所有数字标注时点与出处 · 2026-06

缺口

所有人在卷"生成":更清晰、更长、更便宜。几乎没人在做"判断":这个镜头对不对、服不服务你的故事。

我们的点

不做第 N 个生成器或画布。做一个会判断、会给方案的 AI 副导演,生成层租别人的。

为什么是现在

生成变得几乎免费,判断力反而更稀缺。成本越低,"为什么是这个镜头"越没人问。

01

一个反常识的出发点

工具一直都有。编剧书、导演大师课、剪辑教程,几十年来从不缺。可是真正能拍出好东西的人,始终很少。瓶颈从来不是工具,是判断力:知道这场戏要什么,知道这束光、这场雨、这个剪点该不该在。

AI 把"生成"这件事变得几乎免费。直觉上这应该让人人都能拍好片,但现实相反:当造一场雪只是一句话的成本,就再没有人被逼着回答"这场雪对我的故事有什么意义"。低成本放大了判断力的稀缺,而不是消除它。

300:1

"像在黑暗中开枪,像拉老虎机。"

Sora 官方短片《Air Head》的导演原话:约 90 秒成片,生成了数百个片段,素材淘汰比约 300 比 1。最前线的人,亲口把 AI 视频生成叫"老虎机"。

来源:Shy Kids / fxguide 访谈,2024。复验:成立(高置信)。

02

市场缺口:全行业在卷生成,没人在做判断

把市面上你熟悉的产品放到两根轴上看:横轴是"生成能力",纵轴是"创作判断力"。所有人挤在右下角。

创作判断力 生成能力 → 无人区:会判断、会给方案 Sora 2 Veo 3.1 Runway Kling ComfyUI Flora / Krea LTX · Higgsfield fal · OpenRouter 副导演
现有产品(生成 / 画布 / 聚合) 我们:创作判断层

定位为我们基于调研的判断,非精确测量。竞品名为团队熟悉的代表,非穷举。

03

竞品,以及我们的点在哪

市面上的玩家分三类。每一类都做得很好,但都把同一件事留给了你自己:决定拍什么、判断拍得对不对。

生成模型

Sora 2 · Veo 3.1 · Runway · Kling

把画面生成做到极致。但你给什么提示,它就赌一个结果,不判断这个镜头服不服务你的故事。

节点 / 画布

ComfyUI · Flora · Krea · Higgsfield

把多模型串成可视化流程,很强,但门槛高:你得一边想内容,一边操作工具。选择权全在你。

聚合 / 路由

fal · OpenRouter · Eachlabs

一个接口接通所有模型,解决"接入"。但选哪个模型、为什么,还是人工拍脑袋。

我们的点

不做第 N 个生成器,也不做第 N 个画布。我们做那个会判断、会主动给方案的副导演:它逐个镜头问"这服务你的故事吗",然后自己给出有理由的答案让你拍板。生成租别人的,判断是我们攒的。

04

给谁用

不是给所有人。给认真想讲好一个故事的人,不是冲流量的人。

适合

在意"讲得好不好",愿为判断力付费

  1. 独立短片 / 叙事创作者
  2. 想从"会写"跨到"会拍"的人
  3. 要质量的广告 / 品牌创意
  4. 动画 / 连续叙事内容作者

不适合

只要快、要量、冲流量

  1. 批量走量的流水内容
  2. 只追播放数据、不在意作者表达
  3. 他们要的是更便宜的生成器,不是副导演
诚实:具体的付费意愿我们还没有硬数据,这是下一步要验证的第一批问题之一。
05

怎么工作:像写代码先写需求文档

工程师不会一上来就写代码,而是先写清楚需求文档,反复改,再生成。我们对视频做同一件事:先把"分镜"用便宜模型反复打草稿,定稿后才花贵模型渲染一次。

1定故事主线一句话
2便宜模型打分镜草稿几分钱 / 张
3副导演逐镜判断 + 给方案服不服务主线
4你拍板改或过
5锁定分镜定稿
6贵模型渲染一次最终镜头
7后期成片声音 / 调色

关键在于把判断挪到最便宜的阶段:草稿便宜到可以改几十次,所有"对不对题"的决定都在这里发生;只有定稿的镜头才花贵的钱去渲染。这正是把"老虎机"式的碰运气,换成一个有纪律的片场。

06

草图草到什么程度,成本是多少

草稿阶段不需要精致,只需要"看清意图"。下面是从涂鸦到定稿的四级,以及背后的真实价格。

① 涂鸦

构图 + 走位,线稿

便宜模型 · 几分钱

② 粗草图

块面 + 光位

便宜模型 · 几分钱

③ 上色草稿

色调 + 氛围,定调

便宜模型 · 几分钱

④ 定稿渲染

锁定后,真实视频

贵模型 · 见下

视频模型价格(每秒,2026-04 时点):

Kling 3.0
$0.10
Runway Gen-4.5
$0.15
Veo 3.1 标准
$0.75
$60–175
一部 3 分钟 AI 短片的生成成本
$5k–30k
一部传统独立短片
诚实标注。 价格为 2026-04 时点,模型按月迭代,数字会漂;架构上让模型可热插拔。最贵与最便宜的视频模型差约 7.5 倍,这正是"草稿用便宜的、定稿用贵的"省钱逻辑成立的根据。短片成本区间来自 2026 行业拆解,为范围估算非单一权威报价。草图四级为手绘示意;接入模型后可换成真实草稿与定稿的对比帧。
07

为什么别人抄不走

模型每个月都在换代,任何"当前最好的模型"很快过时。所以护城河不在模型,也不在画面。你在这个产品里攒下的,是你的分镜底稿和你的审美偏好:它知道你怎么想故事、你偏好什么样的光和节奏。这是可携带、会增值的创作资产。

模型换代,旧像素可以用更好的模型重渲一遍;但你攒下的判断与品味留存下来。生成是租的,判断是攒的。这也回答了"要不要自己做生成":不做,租就好;要自己造的,是那层判断。

08

样例:一条 40 秒短片怎么诞生

看人怎么和产品互动。副导演逐镜给"对不对题"的判断和方案,你只做有意义的决定。

《最后一班》· 40 秒

深夜,空荡的地铁站。一个加班到很晚的年轻人,要不要给家里打个电话。

你定的故事主线:成年人的孤独,是有话,却咽了回去。

① 站台用什么光?

我的判断:冷白顶灯为主,别用暖光。

建议:整体惨白日光灯,加一处暖光——手机屏幕打在他脸上。为什么:暖光会冲淡孤独,冷白才让空旷成立;手机那点暖,是他咽下去的那句"想家",让"有话没说"看得见。光要有叙事理由,不为好看。

你定:冷白 + 手机暖光 / 全冷 / 换一个

② 要不要来一班呼啸而过的列车?(画面更"有戏")

我的判断:不加。

这场戏要保的是"静下来的孤独"。一班轰鸣的列车会抢掉沉默,把情绪推向外部刺激。空和静本身就是内容,删掉这个奇观,反而更重。先保情感,牺牲热闹。

你定:不加 / 远处一闪而过 / 加

③ 他几乎要拨号那一下,怎么拍?

我的判断:先空站台全景,再缓慢推近到那根犹豫的拇指。

空旷先把孤独框住,再推到悬在"妈"上方的拇指,咽下去那一下才有分量。一上来就大特写,会丢掉"他一个人,在多大的空里"。

你定:全景推近 / 直接特写 / 换一个

这一步,只有你能决定

他到底打没打这个电话?副导演把每个镜头怎么拍想透了,但"故事往哪走、要什么价值观",是你的事,不是它的。

以上判断全在便宜草稿上跑,改到顺;锁定后,只把定下来的几个镜头用合适的模型渲一次

09

同一条片,两种流程

差别不在画质,在你是一个人对着生成器碰运气,还是有人替你把每个镜头想透。

市面上的产品

你一个人对着生成器

  1. 写一段提示词,赌一次生成
  2. 出来不对,改提示词,再赌
  3. 重复十几次(老虎机),每次都花钱
  4. "对不对题"全靠你一个人边看边猜
  5. 凑出一版,自己也说不清为什么这样最好

AI 副导演

有人替你想,你做主

  1. 给一句故事主线
  2. 便宜草稿上,副导演逐镜给判断 + 方案
  3. 你只在有意义的地方做决定
  4. 锁定后,只渲定下来的几个镜头
  5. 每个选择都说得出为什么,成片有主心骨
探索 · 下一层构想(未验证) 10

往上一级:一座 AI Studio,你是制片人

前面你是导演、AI 是副导演。再往上拔一级:你是制片人,管钱、选人、拍板的那个人。我们给你一座现成的 studio,你来组队。

制片人 · 你出钱 · 选人 · 拍板
导演诺兰
摄影狄金斯
音乐季默
剪辑墨菲
编剧麦基

每个角色是一个 agent,按这些大师真实的访谈与创作理念给你建议,彼此讨论,各自还能带子团队。

你挑组合。比如诺兰 + 狄金斯 + 季默,整座 studio 的分析、风格、滤镜就朝这个组合收敛。每个 agent 像那位大师真的会跟你讨论的那样,给你他的镜头观、光观、配乐观。(构想阶段,这里不谈版权;大师是"理念参照系"。)

直接照搬编程已经跑通的那套

编程世界花了两年,把"一支 AI agent 团队怎么可靠交付一个项目"摸透了:spec 先行、记忆、评审、测试、循环。电影制作是同一个形状(一份 spec → 一群专才 → 互相评审 → 迭代 → 出片)。所以不重造,搬过来。

编程的 agent 团队(成熟开源)
视频剧组(照搬)
子智能体 sub-agents(Claude Code)
导演 / 摄影 / 音乐各一个 agent,可带子团队
spec 先行(Spec Kit / Kiro)
分镜即 spec
长期记忆 / 项目记忆
创作记忆:你的 taste、故事 bible、历史决定
代码评审 code review
crew 互评:摄影 agent 审导演的镜头能不能拍、对不对题
测试 / 评测 testing
主题一致性检验:每个镜头服不服务主线
agent 循环 / loop engineering
协同精化:提案 → 讨论 → 你定 → 下一轮
代码规范 lint / style guide
大师组合 = 风格指南,风格朝诺兰 + 狄金斯收敛
编排 orchestration(tech lead)
制片人(你)编排整支 crew

这一节是构想

你不是在用一个工具,是在搭一支剧组。制片人编排一支大师级 agent 团队,就像 tech lead 编排一支编程 agent 团队,而后者的范式已经开源、成熟、能跑。前面所有已验证的零件(分镜即 spec、判断、跨 session 记忆、循环)正好装进这个顶层架构。

探索 · 案例 11

复用一支剧组:以《奥本海默》为例

复用整支班子,复用的不是画面,是方法。先看这支班子怎么把一个主题打进每个部门,再看同一支班子换个项目会怎么反应。

他们服务的那条主线

彻底的主观:把观众放进奥本海默脑子里,去理解他,而不是审判他;道德脊梁是"知识一旦出现,就收不回来"。诺兰先定这条,再让每个部门服务它。

导演 · 诺兰

彩色 = 他的主观第一人称(全片主体),黑白 = 对手 Strauss 更客观的视角。色彩是叙事视角,不是风格。"结构定不下来,我没法动笔"——结构先于内容,本身就是意义。

摄影 · 范霍特玛

把 IMAX 从"拍奇观"改成"拍亲密"。"一部三小时、关于脸的电影。"定制近焦镜头,让画面像"穿过他的眼睛,从他眼里看世界"。

美术 · 德容

减法。"我们最少需要哪些东西,才能给出这个角色的本质?"不靠堆道具喊年代,只留情绪与人物。

实拍 · 不用 CGI

Trinity 试爆坚持实拍。"实拍的东西天生更有重量、有威胁感。"真实优先于数字的安全。

同一支班子,换你的项目会怎么做

把上面抽象成这支班子的"创作 DNA",换个完全不同的故事,短片《提交》:一个工程师把一段她明知有缺陷的代码推送上线,影响了几百万人。主线:一旦送出去,就收不回来。

这支班子的 DNA
用在《提交》上
主观压过奇观
全程在她脑内写和拍,和她一起按下那个键,不审判
结构先于剧本
两条交错时间线:彩色 = 提交那夜的主观当下;黑白 = 事后同事视角的复盘
一个装置贯穿全片载主题
"提交 / 发送"那一下(声音 + 光标)= 不可逆的动机,每个部门都服务它
巨大尺度上的亲密
极近特写她的眼睛和手,镜头"穿过她的眼睛",不要办公室全景
实拍优先于数字
真实屏幕光、真键盘真脸;不用炫的 CGI 界面糊弄
减法设计
把办公室剥到只剩她、屏幕、黑暗
诚实标注。以上导演 / 摄影 / 美术 / 实拍均来自主创访谈(诺兰、范霍特玛、德容)并通过对抗复验;配乐(季默)与剪辑(Lame)本轮未核实,未当结论写入。一个常见误读已纠正:黑白不是"纯客观",而是 Strauss 的偏见视角,诺兰原话是"更客观"。《提交》一段为产品行为的示范推演,非对真实班子的断言。
12

诚实的风险

敢说风险,团队反而更信。这四条我们看得很清楚。

窗口可能关

巨头(OpenRouter、Eachlabs)已有积木,可能一次发布补上一部分。靠判断质量 + 你攒的数据守,不靠"我们先想到"。

判断是真功夫

让 AI 真懂你的意图、看懂画面对不对题(多模态),是要自己造的硬核,也正是别人抄不走的护城河。

效力待验证

还没有硬数据证明它能让真实创作者的成片更好。这是我们要最先验的事。

模型按月变

成本、时长、能力都在漂。架构必须让模型热插拔,任何"当前最好"都不当永久真理。

13

展开细看

完整论证、来源与细节都在这一页,点开即看,不用跳转。

完整商业洞察AI 不缺生成力,缺判断力

导读

一句话:AI 不缺生成力,缺判断力。我们做那个替创作者判断"这个镜头对不对题、该怎么拍"的 AI 副导演,生成模型租别人的。

为什么重要:整个行业都在卷"把画面生成得更好",几乎没人在做"判断画面对不对"。这是一条还空着的路,而且越往后越值钱。

关键结论(先看这四条) - 瓶颈不是工具,是判断力。AI 让生成几乎免费,反而把判断力的稀缺放大了。 - 市场缺口明确:生成、画布、聚合三类产品都很强,但都把"拍什么、拍得对不对"留给你自己。 - 做法:像写代码先写需求文档。先用便宜模型反复打分镜草稿,定稿才花贵模型渲一次。 - 护城河不是模型(每月换代),是你攒下的判断和品味。生成是租的,判断是攒的。


1 · 出发点:工具一直都有,好内容的人一直很少

编剧书、导演大师课、剪辑教程,几十年从不缺。可真正拍得出好东西的人始终很少。瓶颈从来不是工具,是判断力:知道这场戏要什么,知道这束光、这场雨、这个剪点该不该在。

AI 把生成变得几乎免费,但这没让人人会拍片,反而相反。当造一场雪只是一句话的成本,就再没人被逼着回答"这场雪对我的故事有什么意义"。

Sora 官方短片《Air Head》的导演原话:为约 90 秒成片生成了数百个片段,素材淘汰比约 300 比 1,他亲口把这过程叫"老虎机"。最前线的人都在为"碰运气"付代价。

2 · 市场缺口:全行业在卷生成,没人在做判断

把生成能力当横轴、创作判断当纵轴,市面上所有产品都挤在"高生成、低判断"那一角。没有人占住"会判断、会给方案"这块。

3 · 竞品三类,以及我们的点

  • 生成模型(Sora 2 / Veo 3.1 / Runway / Kling):画面做到极致,但你给提示它就赌一个结果,不判断对不对题。
  • 节点 / 画布(ComfyUI / Flora / Krea / Higgsfield):把多模型串成流程,强,但门槛高,你得一边想内容一边操作工具。
  • 聚合 / 路由(fal / OpenRouter / Eachlabs):一个接口接通所有模型,解决"接入",但选哪个模型还是人工拍脑袋。

我们的点:不做第 N 个生成器或画布。做那个会判断、会主动给方案的副导演,它逐镜问"这服务你的故事吗",然后自己给出有理由的答案让你拍板。

4 · 怎么工作:分镜先行

工程师不会一上来写代码,先写需求文档反复改再生成。我们对视频做同一件事:

  1. 定故事主线(一句话)
  2. 便宜模型打分镜草稿(几分钱一张)
  3. 副导演逐镜判断 + 给方案(服不服务主线)
  4. 你拍板(改或过)
  5. 锁定分镜
  6. 贵模型渲染一次(只渲定稿)
  7. 后期成片

关键是把判断挪到最便宜的阶段:草稿便宜到能改几十次,所有"对不对题"的决定在这里发生;只有定稿才花贵的钱。

5 · 成本:为什么"草稿便宜、定稿贵"成立

视频模型每秒价格(2026-04 时点):Kling 3.0 约 $0.10、Runway 约 $0.15、Veo 3.1 约 $0.75。最贵和最便宜差约 7.5 倍,这正是分阶段省钱的根据。一部 3 分钟 AI 短片的生成成本约 $60–175,传统独立短片 $5,000–30,000。

(价格按月会变,架构上让模型可热插拔;短片成本为区间估算。)

6 · 护城河:攒的是判断,不是片段

模型每月换代,任何"当前最好"很快过时。所以护城河不在模型也不在画面,在你攒下的分镜底稿和审美偏好:它知道你怎么想故事、偏好什么样的光和节奏。模型换代,旧像素可重渲,你攒的判断留存。

7 · 风险与下一步

风险:判断引擎要真懂你的意图、真看懂画面,这是要自己造的硬核;模型按月变,数字都标了时点;别把它做成按固定模板套镜头,那会毁掉它的价值。

下一步:做一个最小可跑的判断引擎,拿一个真实片段验:给一句故事主线 + 一个情节点 + 几个已做的选择,看它给的判断和方案你认不认。这是把调研变成能上手的东西的最短路径。

竞品与定位三类玩家都不碰创作判断

导读

一句话:市面上的产品分三类(生成 / 画布 / 聚合),都很强,但都把"拍什么、拍得对不对"留给你。没有人做"主动判断"这件事。

为什么重要:这决定了我们不是去和谁抢同一块地,而是占一块没人占的地。

关键结论 - 生成模型、节点画布、聚合路由,三类都不碰"创作判断"。 - 最接近我们的是 LTX Studio、Higgsfield:它们把"创作 + 多模型"融合了,但选模型、判断对错仍是手动,没有"主动给方案"。 - 我们的差异点就卡在这条缝:逐镜判断对不对题,并主动给有理由的方案。 - 诚实提醒:巨头一次发布就可能补上一部分,所以护城河要靠判断质量 + 你攒下的数据,不靠这条缝本身。


三类玩家,各自强在哪、缺什么

类别 代表 强在 缺在
生成模型 Sora 2 · Veo · Runway · Kling 画面质量、一致性 不判断镜头对不对题
节点 / 画布 ComfyUI · Flora · Krea · Higgsfield 流程可视化、多模型 门槛高,选择权全在你
聚合 / 路由 fal · OpenRouter · Eachlabs 一个接口接通所有模型 选哪个模型仍靠人工

最接近我们的,以及它们的空档

LTX Studio 和 Higgsfield 已经把"创作前端(分镜/角色)+ 多模型"融合进一个产品,这是目前最像我们设想的。但关键空档是:它们的选模型和判断都是手动的,没有一个"主动逐镜判断对不对题、并给出方案"的角色。所有"融合"产品里,这块都还是空的。

我们的点

不做第 N 个生成器或画布。做那个会判断、会主动给方案的副导演:它对每个镜头/光/雨/剪点判断"服不服务你的故事主线",然后自己给出有理由的建议,你拍板。

一个诚实的提醒

这条缝不宽。OpenRouter、Eachlabs 这些都已经有积木,理论上一次发布就能补上一部分。所以真正能守住的,不是"我们先想到",而是:判断的质量(它真的帮你把故事变好)、你攒下的分镜底稿和审美数据(越用越懂你,别人搬不走)。

市场与构想演进为什么不做工具、不做路由器

导读

一句话:这个产品的定位是一步步逼出来的。从"视频版工具"到"路由器"再到"AI 副导演",每一步都是因为前一步被市场证明不够。

为什么重要:这能让团队明白我们为什么不去做那些更显眼、看起来更简单的东西。

关键结论 - 最初想法是"视频版的可控生成工具" + "按成本/质量自动选模型(路由器)"。 - 调研发现:工具和画布赛道已经很挤,纯"路由器"也基本被 OpenRouter、fal、Eachlabs 做掉了。 - 于是定位上移:不做工具,做那层"判断"。路由器退化成幕后的省钱引擎,不是产品本身。


第一版:视频版的可控生成工具

最初的设想是做一个以视频为主的、可编辑可复用的生成流程(类似把做图的 ComfyUI 搬到视频)。

问题:这条赛道已经很挤。ComfyUI(开源免费)、Runway、Flora(融资 4200 万美元)、Krea、Higgsfield、fal 都在做。只靠"又一个流程工具"赢不了。

第二版:按成本/质量自动选模型的"路由器"

差异点想放在"每个步骤自动推荐最划算的视频模型"。

问题:这件事基本被做掉了。OpenRouter 2026 年 4 月上线了统一视频接口,fal 接了上千个模型,Eachlabs 能自动选模型。纯路由器是一个薄功能,谁都能在一次发布里抄掉,利润也薄(转售推理)。

第三版:AI 副导演 / 判断层

真正没人占的,是"判断":这个镜头对不对题、该怎么拍。于是定位上移到那一层。

路由器没有被丢掉,而是换了位置:它从"产品"变成"幕后省钱引擎"——草稿阶段用便宜模型、定稿阶段用贵模型,每个镜头按成本选。它服务于判断层,不再是卖点本身。

一句话总结演进

不做工具,不做路由器,做判断。工具和路由是手段,判断是产品。

怎么工作:分镜先行像写代码先写需求文档

导读

一句话:像写代码先写需求文档一样,先把"分镜"用便宜模型反复打草稿、判断对不对题,定稿后才花贵模型渲一次。

为什么重要:这是整个产品的主轴。它把"碰运气式生成"换成"有纪律的片场",也让成本可控。

关键结论 - 分镜 = 视频的需求文档。它是耐久资产,渲染出的画面是可重做的下游产物。 - 判断发生在最便宜的草稿阶段,所以可以改几十次;只有定稿才花贵的钱。 - 三条戒律:别把分镜锁太死;草稿也能反过来改主线;不是每个镜头都要被管。


类比:工程师不会一上来就写代码

工程师先写清楚需求文档,反复改,再让它生成代码。需求文档是耐久的真相源,代码是可重生成的下游。我们对视频做同一件事:分镜就是视频的需求文档。

七步流程

  1. 定故事主线(一句话:这片到底讲什么)
  2. 便宜模型打分镜草稿(几分钱一张,先看清意图)
  3. 副导演逐镜判断 + 给方案(这个镜头服不服务主线?给有理由的建议)
  4. 你拍板(改或过)
  5. 锁定分镜(定稿)
  6. 贵模型渲染一次(只渲已锁定的镜头)
  7. 后期成片(声音、调色)

为什么把判断挪到便宜阶段

草稿便宜到可以改几十次,所有"对不对题"的决定都在这里发生。等到定稿才花贵的钱去渲染。这就是把"老虎机"式的碰运气,换成一个有纪律的片场。

三条戒律(防止做歪)

  • 别把分镜锁太死:固定意图,留出空间。视觉和情感比代码更模糊,锁成逐像素会杀掉即兴和涌现。
  • 草稿能反过来改主线:看了便宜草图发现主线该调,就调。流程是双向的,不是一条道走到黑。
  • 不是每个镜头都要被管:一个简单的建立镜头不需要全套判断。副导演要会判断什么时候该开口、什么时候放行,否则就成了扫兴的人。

护城河也藏在这里

你攒下的分镜底稿和审美偏好是可携带、会增值的创作资产。模型换代,旧画面可以用更好的模型重渲;你攒的判断留存。

生产实践与成本图先行管线 · 真实价格

导读

一句话:专业的 AI 视频不是"一句话生成一条片",而是一条管线:先锁定参考图,再图生视频,大头工时在后期。

为什么重要:副导演要真能帮人把东西做出来,就得懂这套真实的执行流程和成本,而不只是评判。

关键结论 - 专业流程是"图先行":先出锁定的参考静帧,再让它动,最后传统剪辑软件里成片。 - 跨镜头一致性(同一个人、同一种光)靠参考图特性,不靠写提示词。 - 真实成本有 7.5 倍价差(便宜的 Kling 到贵的 Veo),所以"草稿便宜、定稿贵"省钱成立。 - 单条片段只有几秒到几十秒,长片靠拼接;一把梭生成("老虎机")废片率极高。


专业流程:图先行,不是文生视频

  1. 故事 / 分镜设计
  2. 先出锁定的参考静帧(用便宜图模型,锁住种子/构图)— 很多人跳过这步,然后后悔
  3. 图生视频(把静帧喂给视频模型让它动),提示词尽量简短、运动幅度保守,减少人脸漂移
  4. 后期(传统剪辑软件:剪辑、调色、声音)— 大部分工时在这

一致性靠参考图,不靠提示词

跨镜头保住同一个角色、同一种光,主要靠参考图特性(例如 Runway 的角色参考、Nano Banana 做角色表),不是靠把提示词写长。一个实战诀窍:一次生成"四宫格"逼模型在同一光照下出四个变体,锁住一致性。

真实成本(2026-04 时点)

  • 视频模型每秒:Kling 约 $0.10、Runway 约 $0.15、Veo 约 $0.75(差约 7.5 倍)。
  • 一部 3 分钟 AI 短片的生成成本约 $60–175;传统独立短片 $5,000–30,000。
  • 价格按月会变,数字都标了时点。

失败模式:老虎机

单条片段通常只有几秒到几十秒,长片靠拼接。一把梭式生成("老虎机")废片率极高——Sora 短片《Air Head》素材淘汰比约 300 比 1。专业人早就放弃"一个提示词拿到全部",改成分层、有计划地搭建。这正是我们的副导演要替创作者收敛的浪费。

后期是大头

放大清晰度、插帧、调色对齐、对口型、配音配乐、把短片段拼成连贯序列——大部分功夫在生成之后。专业纪律之一:生成静音视频,声音全在后期补。

它凭什么判断大师们的可执行判据

导读

一句话:导演和编剧大师讲的其实是同一件事——一切服务故事主线,不服务的就是装饰。这套判断,正是副导演的内核。

为什么重要:它不是玄学。大师们给的是可执行的"删/留"测试,可以直接变成 AI 的判断标准。

关键结论 - 一句话内核:一个细节只有能追溯到上一层的明确意图,才算"在题上";否则就是装饰,删。 - 这套判断有母本(几位公认大师的方法),不是我们拍脑袋。 - 把它做成 AI 的判断引擎,再用你的反馈校准到你的口味,就是产品的护城河。


大师们其实在说同一件事

大师 他的判据(可执行)
Sidney Lumet(《Making Movies》) 先回答"这片到底讲什么",它是一切决定流进的"河床";好风格是隐形的,观众一注意到风格就是坏风格。
Robert McKee(《Story》) 每场戏必须让某个价值发生转变;价值不变 = 废戏,删。
Walter Murch(《眨眼之间》) 剪辑优先级:情感 51% > 故事 23% > 节奏 > 视线 > 连续性。冲突时从最不重要的往上牺牲,情感最后丢。
Roger Deakins(摄影) 一束光必须有叙事理由,不能只是"好看";否则破坏可信度。
David Mamet(《On Directing Film》) 镜头从"主人公这一拍要什么"推出,不从"什么好看"推出;追求"有趣的镜头"是失败模式。

一句话内核

把以上压成一条,所有大师共同的判据是:

一个细节,只有能追溯到上一层一个明确的意图,才算"在题上"。共同的失败模式是"因为好看/好听",却说不出意图。

这条横跨编剧和导演,就是副导演判断每个镜头时用的那把尺。

怎么变成产品

这套判据写成 AI 的判断引擎(类似一个会打分的"考官"),再用你的纠正不断校准到你的口味。判据来自经典,权重来自你。判断越用越准、越懂你——这是别人抄不走的部分。

它怎么开口(不扫兴)

铁律:不是只提问,而是问完自己给答案。比如:"这场雨服务主题吗?——我的判断:服务,但只能小雨,因为① 小雨符合人物此刻的克制 ② 大雨会抢掉对白的重量。你来定:小雨 / 不加。"先给判断和方案,你拍板。

14

下一步,以及想听你的

这是一份分享,不是结论。我们在哪、接下来做什么、想听团队哪方面的反馈。

我们在哪:概念已成型,经过六轮调研 + 一轮对抗复验。接下来做一个最小可跑的判断引擎,拿一个真实创作片段,验它给的判断和方案站不站得住。

想听 01

"判断,而非生成"这个定位,在你看来站得住吗?哪里最虚?

想听 02

如果先打一个用户,你会选独立短片、广告、还是动画?

想听 03

你手上有没有真实创作者,能当第一个试用、给我们真反馈?