AI Co-Director · AI 副导演

一个反常识的出发点

工具一直都有。编剧书、导演大师课、剪辑教程,几十年来从不缺。可是真正能拍出好东西的人,始终很少。瓶颈从来不是工具,是判断力:知道这场戏要什么,知道这束光、这场雨、这个剪点该不该在。

AI 把"生成"这件事变得几乎免费。直觉上这应该让人人都能拍好片,但现实相反:当造一场雪只是一句话的成本,就再没有人被逼着回答"这场雪对我的故事有什么意义"。低成本放大了判断力的稀缺,而不是消除它。

300:1

"像在黑暗中开枪,像拉老虎机。"

Sora 官方短片《Air Head》的导演原话:约 90 秒成片,生成了数百个片段,素材淘汰比约 300 比 1。最前线的人,亲口把 AI 视频生成叫"老虎机"。

来源:Shy Kids / fxguide 访谈,2024。复验:成立(高置信)。

市场缺口:全行业在卷生成,没人在做判断

把市面上你熟悉的产品放到两根轴上看:横轴是"生成能力",纵轴是"创作判断力"。所有人挤在右下角。

现有产品(生成 / 画布 / 聚合) 我们:创作判断层

定位为我们基于调研的判断,非精确测量。竞品名为团队熟悉的代表,非穷举。

竞品,以及我们的点在哪

市面上的玩家分三类。每一类都做得很好,但都把同一件事留给了你自己:决定拍什么、判断拍得对不对。

生成模型

Sora 2 · Veo 3.1 · Runway · Kling

把画面生成做到极致。但你给什么提示,它就赌一个结果,不判断这个镜头服不服务你的故事。

节点 / 画布

ComfyUI · Flora · Krea · Higgsfield

把多模型串成可视化流程,很强,但门槛高:你得一边想内容,一边操作工具。选择权全在你。

聚合 / 路由

fal · OpenRouter · Eachlabs

一个接口接通所有模型,解决"接入"。但选哪个模型、为什么,还是人工拍脑袋。

我们的点

不做第 N 个生成器,也不做第 N 个画布。我们做那个会判断、会主动给方案的副导演:它逐个镜头问"这服务你的故事吗",然后自己给出有理由的答案让你拍板。生成租别人的,判断是我们攒的。

给谁用

不是给所有人。给认真想讲好一个故事的人,不是冲流量的人。

适合

在意"讲得好不好",愿为判断力付费

独立短片 / 叙事创作者
想从"会写"跨到"会拍"的人
要质量的广告 / 品牌创意
动画 / 连续叙事内容作者

不适合

只要快、要量、冲流量

批量走量的流水内容
只追播放数据、不在意作者表达
他们要的是更便宜的生成器,不是副导演

诚实:具体的付费意愿我们还没有硬数据,这是下一步要验证的第一批问题之一。

怎么工作:像写代码先写需求文档

工程师不会一上来就写代码,而是先写清楚需求文档,反复改,再生成。我们对视频做同一件事:先把"分镜"用便宜模型反复打草稿,定稿后才花贵模型渲染一次。

1定故事主线一句话

2便宜模型打分镜草稿几分钱 / 张

3副导演逐镜判断 + 给方案服不服务主线

4你拍板改或过

5锁定分镜定稿

6贵模型渲染一次最终镜头

7后期成片声音 / 调色

关键在于把判断挪到最便宜的阶段:草稿便宜到可以改几十次,所有"对不对题"的决定都在这里发生;只有定稿的镜头才花贵的钱去渲染。这正是把"老虎机"式的碰运气,换成一个有纪律的片场。

草图草到什么程度,成本是多少

草稿阶段不需要精致,只需要"看清意图"。从涂鸦到定稿四级,每一级对应一个讨论阶段,背后是真实价格。

① 涂鸦 · 图压图

一开始聊整体结构、走位时,图压图就够

便宜模型 · 几分钱

② 粗草图

定光位、明暗结构时

便宜模型 · 几分钱

③ 上色草稿

定色调、氛围、调性时

便宜模型 · 几分钱

④ 定稿渲染

锁定后,出真实成片

贵模型 · 见下

一致性,从草稿就要锁死。 这四张是同一个人、同一个机位,只精度递进,做法是先定一张设计,再逐级派生,而不是各画各的。连一个镜头的草稿演进都保不住同一个人,长篇故事的角色一致性更无从谈起。锁角色 + 锁构图,从第一笔起,这正是我们要解决的核心难题。

视频模型价格(每秒,2026-04 时点):

Kling 3.0

$0.10

Runway Gen-4.5

$0.15

Veo 3.1 标准

$0.75

$60–175

一部 3 分钟 AI 短片的生成成本

$5k–30k

一部传统独立短片

诚实标注。 价格为 2026-04 时点,模型按月迭代,数字会漂;架构上让模型可热插拔。最贵与最便宜的视频模型差约 7.5 倍,这正是"草稿用便宜的、定稿用贵的"省钱逻辑成立的根据。短片成本区间来自 2026 行业拆解,为范围估算非单一权威报价。草图四级为同一设计的真实派生(同角色 + 同机位,只精度递进)。

为什么别人抄不走

模型每个月都在换代,任何"当前最好的模型"很快过时。所以护城河不在模型,也不在画面。你在这个产品里攒下的,是你的分镜底稿和你的审美偏好:它知道你怎么想故事、你偏好什么样的光和节奏。这是可携带、会增值的创作资产。

模型换代,旧像素可以用更好的模型重渲一遍;但你攒下的判断与品味留存下来。生成是租的,判断是攒的。这也回答了"要不要自己做生成":不做,租就好;要自己造的,是那层判断。

样例:一条 40 秒短片怎么诞生

看人怎么和产品互动。副导演逐镜给"对不对题"的判断和方案,你只做有意义的决定。

《最后一班》· 40 秒

深夜,空荡的地铁站。一个加班到很晚的年轻人,要不要给家里打个电话。

你定的故事主线:成年人的孤独,是有话,却咽了回去。

① 站台用什么光?

我的判断:冷白顶灯为主,别用暖光。

建议:整体惨白日光灯,加一处暖光——手机屏幕打在他脸上。为什么:暖光会冲淡孤独,冷白才让空旷成立;手机那点暖,是他咽下去的那句"想家",让"有话没说"看得见。光要有叙事理由,不为好看。

你定:冷白 + 手机暖光 / 全冷 / 换一个

② 要不要来一班呼啸而过的列车?(画面更"有戏")

我的判断:不加。

这场戏要保的是"静下来的孤独"。一班轰鸣的列车会抢掉沉默,把情绪推向外部刺激。空和静本身就是内容,删掉这个奇观,反而更重。先保情感,牺牲热闹。

你定:不加 / 远处一闪而过 / 加

③ 他几乎要拨号那一下,怎么拍?

我的判断:先空站台全景,再缓慢推近到那根犹豫的拇指。

空旷先把孤独框住,再推到悬在"妈"上方的拇指,咽下去那一下才有分量。一上来就大特写,会丢掉"他一个人,在多大的空里"。

你定:全景推近 / 直接特写 / 换一个

这一步,只有你能决定

他到底打没打这个电话?副导演把每个镜头怎么拍想透了,但"故事往哪走、要什么价值观",是你的事,不是它的。

以上判断全在便宜草稿上跑,改到顺;锁定后,只把定下来的几个镜头用合适的模型渲一次。

想看完整一遍(从主题到成片)?→ 走一遍《清晨》(世界杯牛奶广告)

同一个镜头,三步走,差别一眼可见:

直接生成

只给"深夜地铁站,年轻人看手机":暖黄站台灯、人物居中、还来一班进站列车。好看,但没情绪,谁都能生成。

第一次优化

副导演把光改成惨白冷调,只留手机屏一点暖光打在脸上;去掉进站列车,站台空下来。孤独开始成立。

第二次优化

从空站台全景缓慢推近到悬在"妈"上方的拇指。那点暖光和拇指的迟疑成了重心,"有话没说"看得见了。

第三次优化 · 整个剧组在群里聊

你:这个推近,会不会太用力了?

摄影(狄金斯):别推到底。让他先抬头看一眼空荡的穹顶,再低头看手机。孤独是周围的空,不只那根拇指。

美术(德容式):那就把站台再剥干净点,只留一盏忽明忽暗的灯,穹顶越空越好。

剪辑(墨菲式):抬头那一下留长一点,别急着剪走,情绪在那口气里。

于是给你三个方案草图,你挑一个出成片 ↓

方案 A · 草图

抬头望穹顶,再低头

方案 B · 草图

大远景,人被空吞掉

你选了 A · 成片

空间的空,和心里的空,对上了

同一条片,两种流程

差别不在画质,在你是一个人对着生成器碰运气,还是有人替你把每个镜头想透。

市面上的产品

你一个人对着生成器

写一段提示词,赌一次生成
出来不对,改提示词,再赌
重复十几次(老虎机),每次都花钱
"对不对题"全靠你一个人边看边猜
凑出一版,自己也说不清为什么这样最好

AI 副导演

有人替你想,你做主

给一句故事主线
便宜草稿上,副导演逐镜给判断 + 方案
你只在有意义的地方做决定
锁定后,只渲定下来的几个镜头
每个选择都说得出为什么,成片有主心骨

探索 · 下一层构想(未验证) 10

往上一级:一座 AI Studio,你是制片人

前面你是导演、AI 是副导演。再往上拔一级:你是制片人,管钱、选人、拍板的那个人。我们给你一座现成的 studio,你来组队。

制片人 · 你出钱 · 选人 · 拍板

导演诺兰

摄影狄金斯

音乐季默

剪辑墨菲

编剧麦基

每个角色是一个 agent,按这些大师真实的访谈与创作理念给你建议,彼此讨论,各自还能带子团队。

你挑组合。比如诺兰 + 狄金斯 + 季默,整座 studio 的分析、风格、滤镜就朝这个组合收敛。每个 agent 像那位大师真的会跟你讨论的那样,给你他的镜头观、光观、配乐观。(构想阶段,这里不谈版权;大师是"理念参照系"。)

直接照搬编程已经跑通的那套

编程世界花了两年,把"一支 AI agent 团队怎么可靠交付一个项目"摸透了:spec 先行、记忆、评审、测试、循环。电影制作是同一个形状(一份 spec → 一群专才 → 互相评审 → 迭代 → 出片)。所以不重造,搬过来。

编程的 agent 团队(成熟开源)

视频剧组(照搬)

子智能体 sub-agents(Claude Code)

导演 / 摄影 / 音乐各一个 agent,可带子团队

spec 先行(Spec Kit / Kiro)

分镜即 spec

长期记忆 / 项目记忆

创作记忆:你的 taste、故事 bible、历史决定

代码评审 code review

crew 互评:摄影 agent 审导演的镜头能不能拍、对不对题

测试 / 评测 testing

主题一致性检验:每个镜头服不服务主线

agent 循环 / loop engineering

协同精化:提案 → 讨论 → 你定 → 下一轮

代码规范 lint / style guide

大师组合 = 风格指南,风格朝诺兰 + 狄金斯收敛

编排 orchestration(tech lead)

制片人(你)编排整支 crew

这一节是构想

你不是在用一个工具,是在搭一支剧组。制片人编排一支大师级 agent 团队,就像 tech lead 编排一支编程 agent 团队,而后者的范式已经开源、成熟、能跑。前面所有已验证的零件(分镜即 spec、判断、跨 session 记忆、循环)正好装进这个顶层架构。

探索 · 案例 11

复用一支剧组:以《奥本海默》为例

复用整支班子,复用的不是画面,是方法。先看这支班子怎么把一个主题打进每个部门,再看同一支班子换个项目会怎么反应。

他们服务的那条主线

彻底的主观:把观众放进奥本海默脑子里,去理解他,而不是审判他;道德脊梁是"知识一旦出现,就收不回来"。诺兰先定这条,再让每个部门服务它。

导演 · 诺兰

彩色 = 他的主观第一人称(全片主体),黑白 = 对手 Strauss 更客观的视角。色彩是叙事视角,不是风格。"结构定不下来,我没法动笔"——结构先于内容,本身就是意义。

摄影 · 范霍特玛

把 IMAX 从"拍奇观"改成"拍亲密"。"一部三小时、关于脸的电影。"定制近焦镜头,让画面像"穿过他的眼睛,从他眼里看世界"。

美术 · 德容

减法。"我们最少需要哪些东西,才能给出这个角色的本质?"不靠堆道具喊年代,只留情绪与人物。

实拍 · 不用 CGI

Trinity 试爆坚持实拍。"实拍的东西天生更有重量、有威胁感。"真实优先于数字的安全。

同一支班子,换你的项目会怎么做

把上面抽象成这支班子的"创作 DNA",用到前面那条短片《最后一班》上(深夜空站台,他要不要给家里打个电话)。主线:成年人的孤独,是有话,却咽了回去。

这支班子的 DNA

用在《最后一班》上

主观压过奇观

全程在他脑内,和他一起在空站台犹豫要不要拨号,不评判他的孤独

结构先于剧本

彩色 = 他站台的主观当下;黑白 = 他脑中家里电话那头的画面(想拨没拨的另一端)

一个装置贯穿全片载主题

悬在"妈"上方的拇指 + 拨号音 = 那句没说出口的话,不可逆的动机,每个部门都服务它

巨大尺度上的亲密

极近特写他的眼睛和悬停的拇指,镜头"穿过他的眼睛";空站台只为孤独,不当奇观

实拍优先于数字

真实站台、真日光灯、真手机屏幕光;不靠 CGI 假景

减法设计

把站台剥到只剩他、一盏灯、那部手机

诚实标注。以上导演 / 摄影 / 美术 / 实拍均来自主创访谈(诺兰、范霍特玛、德容)并通过对抗复验;配乐(季默)与剪辑(Lame)本轮未核实,未当结论写入。一个常见误读已纠正:黑白不是"纯客观",而是 Strauss 的偏见视角,诺兰原话是"更客观"。《最后一班》一段为产品行为的示范推演,非对真实班子的断言。这恰好印证前面样例里副导演做的选择(冷光 + 手机暖光、不加呼啸列车、全景推近到拇指):大师 DNA 给的,正是同一种判断。

换成这支班子,同一个镜头三步走,味道更狠:

直接生成

同一句提示,出来一个居中、暖光、热闹的普通画面,和谁拍的都一样。

第一次优化

班子先把整场拉进他的主观,站台做减法,剥到只剩他、一盏灯、那部手机;冷白配手机暖光。

第二次优化

IMAX 式极近,镜头像穿过他的眼睛;悬停的拇指 + 拨号音成了贯穿全片的不可逆动机。

换一支班子,换个味道

同一条《最后一班》,换不同的班子。同一个常见场景,三支风格迥异的班子,三个完全不同的版本。

诺兰班子(奥本海默)

痛 · 不可逆 · IMAX 亲密

把孤独锁进他脑子;极近、像穿过他的眼睛;结尾是悬停的拇指,那不可逆的一下。

小津班子(家庭 · 柔和)

酸而暖 · 接受 · 留白

距离是常态;固定低机位绝不推拉;切空镜用留白承载;他只是把手机放回口袋,走开。

碟中谍班子(动作 · 张力)

倒计时 · 实拍 · 升级

抓住"最后一班"=最后期限,把犹豫变成倒计时:赶在车门关闭前拨不拨。手持跟拍、站台时钟、轰鸣进站,还剩 8 秒。

这就是"换一支班子"的意义,也是我们的价值。 同一个常见场景,三支风格迥异的班子,三个完全不同的版本:不同主题、不同镜头、不同结尾。碟中谍班子甚至把主题都换了(孤独 → 倒计时)——所以选对班子,本身就是创作判断的一部分。你不是在调参数,你在挑一种看世界的方式。我们给你的不是更强的生成器,是一群有判断、有视角的合作者。(小津 / 碟中谍方法为公认风格的示意,非本轮逐条核实。)

现实参照 · 先行 12

有人已经在做了:OpenMontage

我们的 Studio 构想,有一个开源的现实版(2026-04 发布,AGPLv3)。好消息有两个:它验证了方向,而且它正好不做我们要做的那一层。

OpenMontage 已经做了

生产执行的全套

agent 在 Claude Code 里当编排器(无中心代码)
research → 脚本 → 素材 → 剪辑 → 渲染全流水线
14 个视频模型 + 7 维成本 / 质量路由(= 你最初想的路由器)
真实素材(Archive / NASA)+ 本地零成本路

它不做的,正是我们的位置

对不对题的判断

判断这个镜头服不服务你的主题
主题连贯、导演之眼
它自己原话:"生产执行编排器,不是 taste 引擎"
它把 taste 判断主动让给人和底层 LLM

值不值得借鉴:架构值得,营销别信。 它的 agent-first 编排、流水线结构、7 维选模范式都干净、可学(借思想,代码受 AGPL 约束)。但它很新、发布期声量大(Threads / 播客 / 导航站),独立技术评测少,输出质量与成熟度未经第三方验证;还有数个 fork / 改名(如 hanzoai/video)。同类里另有 montage-ai(偏本地剪辑,非全流程)。结论:当最佳 plumbing 参照,别当成熟标杆;我们的产品是它之上的那台判断引擎。

诚实的风险

敢说风险,团队反而更信。这四条我们看得很清楚。

窗口可能关

巨头(OpenRouter、Eachlabs)已有积木,可能一次发布补上一部分。靠判断质量 + 你攒的数据守,不靠"我们先想到"。

判断是真功夫

让 AI 真懂你的意图、看懂画面对不对题(多模态),是要自己造的硬核,也正是别人抄不走的护城河。

效力待验证

还没有硬数据证明它能让真实创作者的成片更好。这是我们要最先验的事。

模型按月变

成本、时长、能力都在漂。架构必须让模型热插拔,任何"当前最好"都不当永久真理。

展开细看

三份核心研究做成了完整可视化页(下方卡片);其余底稿折叠如下,点开即看。

概念

把一个念头,变成一部真正的片子

一页讲清整套思路,非影视、非技术也能懂。

打开 →

案例·开发

三元 × 世界杯 · 开发(火花→立基)

从命题到调研:看研究如何拦下三个会毁片的错。

打开 →

案例·前期

三元 · 前期筹备(选角→审核)

案头工作(导演+主创阐述+导演评估)· 分镜文字版 · 黑白光影稿 · 主创审核门。

打开 →

技术

画面技术要求 · 草图的火候

四档火候 + 视觉验收 + 模型选型/成本 + 一致性棘轮。

打开 →

走一遍

案例《清晨》· 世界杯牛奶广告

贴合本届世界杯的真实创意:主题→spec→判断→草稿到成片,完整走一遍。

打开 →

技术

给判断引擎装眼睛 · 技术实现

视频理解技术栈 · 判官+管线+判据三段式 · v1 最便宜路径 · 交互模式。

打开 →

Prompt

把镜头写成画面 · Prompt 写作

摆脱 AI 味的真实感栈 · 8 槽位脚手架 · 各模型方言 · 像调代码一样迭代。

打开 →

骨架

八条通道,一个主题 · 导演工具箱

剪辑/调度/色彩/美术/构图/运镜/表演/声音八通道 + 跨通道一致性分 + 书单。

打开 →

工程

像写代码一样拍片

编程范式搬进剧组 · 判断引擎放哪 · 借范式自建(AGPL)· 5 步计划。

打开 →

竞品

有人先做了一半 · OpenMontage

它执行、我们判断 · 同类与"架构值得借鉴、营销别信"。

打开 →

构想

你是制片人 · AI Studio

大师 agent 剧组 · 复用整支剧组(奥本海默 DNA)· 顶层架构。

打开 →

完整商业洞察AI 不缺生成力,缺判断力

导读

一句话:AI 不缺生成力,缺判断力。我们做那个替创作者判断"这个镜头对不对题、该怎么拍"的 AI 副导演,生成模型租别人的。

为什么重要:整个行业都在卷"把画面生成得更好",几乎没人在做"判断画面对不对"。这是一条还空着的路,而且越往后越值钱。

关键结论(先看这四条) - 瓶颈不是工具,是判断力。AI 让生成几乎免费,反而把判断力的稀缺放大了。 - 市场缺口明确:生成、画布、聚合三类产品都很强,但都把"拍什么、拍得对不对"留给你自己。 - 做法:像写代码先写需求文档。先用便宜模型反复打分镜草稿,定稿才花贵模型渲一次。 - 护城河不是模型(每月换代),是你攒下的判断和品味。生成是租的,判断是攒的。

1 · 出发点:工具一直都有,好内容的人一直很少

编剧书、导演大师课、剪辑教程,几十年从不缺。可真正拍得出好东西的人始终很少。瓶颈从来不是工具,是判断力:知道这场戏要什么,知道这束光、这场雨、这个剪点该不该在。

AI 把生成变得几乎免费,但这没让人人会拍片,反而相反。当造一场雪只是一句话的成本,就再没人被逼着回答"这场雪对我的故事有什么意义"。

Sora 官方短片《Air Head》的导演原话:为约 90 秒成片生成了数百个片段,素材淘汰比约 300 比 1,他亲口把这过程叫"老虎机"。最前线的人都在为"碰运气"付代价。

2 · 市场缺口:全行业在卷生成,没人在做判断

把生成能力当横轴、创作判断当纵轴,市面上所有产品都挤在"高生成、低判断"那一角。没有人占住"会判断、会给方案"这块。

3 · 竞品三类,以及我们的点

生成模型(Sora 2 / Veo 3.1 / Runway / Kling):画面做到极致,但你给提示它就赌一个结果,不判断对不对题。
节点 / 画布(ComfyUI / Flora / Krea / Higgsfield):把多模型串成流程,强,但门槛高,你得一边想内容一边操作工具。
聚合 / 路由(fal / OpenRouter / Eachlabs):一个接口接通所有模型,解决"接入",但选哪个模型还是人工拍脑袋。

我们的点:不做第 N 个生成器或画布。做那个会判断、会主动给方案的副导演,它逐镜问"这服务你的故事吗",然后自己给出有理由的答案让你拍板。

4 · 怎么工作:分镜先行

工程师不会一上来写代码,先写需求文档反复改再生成。我们对视频做同一件事:

定故事主线(一句话)
便宜模型打分镜草稿(几分钱一张)
副导演逐镜判断 + 给方案(服不服务主线)
你拍板(改或过)
锁定分镜
贵模型渲染一次(只渲定稿)
后期成片

关键是把判断挪到最便宜的阶段:草稿便宜到能改几十次,所有"对不对题"的决定在这里发生;只有定稿才花贵的钱。

5 · 成本:为什么"草稿便宜、定稿贵"成立

视频模型每秒价格(2026-04 时点):Kling 3.0 约 $0.10、Runway 约 $0.15、Veo 3.1 约 $0.75。最贵和最便宜差约 7.5 倍,这正是分阶段省钱的根据。一部 3 分钟 AI 短片的生成成本约 $60–175,传统独立短片 $5,000–30,000。

(价格按月会变,架构上让模型可热插拔;短片成本为区间估算。)

6 · 护城河:攒的是判断,不是片段

模型每月换代,任何"当前最好"很快过时。所以护城河不在模型也不在画面,在你攒下的分镜底稿和审美偏好:它知道你怎么想故事、偏好什么样的光和节奏。模型换代,旧像素可重渲,你攒的判断留存。

7 · 风险与下一步

风险:判断引擎要真懂你的意图、真看懂画面,这是要自己造的硬核;模型按月变,数字都标了时点;别把它做成按固定模板套镜头,那会毁掉它的价值。

下一步:做一个最小可跑的判断引擎,拿一个真实片段验:给一句故事主线 + 一个情节点 + 几个已做的选择,看它给的判断和方案你认不认。这是把调研变成能上手的东西的最短路径。

竞品与定位三类玩家都不碰创作判断

导读

一句话:市面上的产品分三类(生成 / 画布 / 聚合),都很强,但都把"拍什么、拍得对不对"留给你。没有人做"主动判断"这件事。

为什么重要:这决定了我们不是去和谁抢同一块地,而是占一块没人占的地。

关键结论 - 生成模型、节点画布、聚合路由,三类都不碰"创作判断"。 - 最接近我们的是 LTX Studio、Higgsfield:它们把"创作 + 多模型"融合了,但选模型、判断对错仍是手动,没有"主动给方案"。 - 我们的差异点就卡在这条缝:逐镜判断对不对题,并主动给有理由的方案。 - 诚实提醒:巨头一次发布就可能补上一部分,所以护城河要靠判断质量 + 你攒下的数据,不靠这条缝本身。

三类玩家,各自强在哪、缺什么

类别	代表	强在	缺在
生成模型	Sora 2 · Veo · Runway · Kling	画面质量、一致性	不判断镜头对不对题
节点 / 画布	ComfyUI · Flora · Krea · Higgsfield	流程可视化、多模型	门槛高,选择权全在你
聚合 / 路由	fal · OpenRouter · Eachlabs	一个接口接通所有模型	选哪个模型仍靠人工

最接近我们的,以及它们的空档

LTX Studio 和 Higgsfield 已经把"创作前端(分镜/角色)+ 多模型"融合进一个产品,这是目前最像我们设想的。但关键空档是:它们的选模型和判断都是手动的,没有一个"主动逐镜判断对不对题、并给出方案"的角色。所有"融合"产品里,这块都还是空的。

我们的点

不做第 N 个生成器或画布。做那个会判断、会主动给方案的副导演:它对每个镜头/光/雨/剪点判断"服不服务你的故事主线",然后自己给出有理由的建议,你拍板。

一个诚实的提醒

这条缝不宽。OpenRouter、Eachlabs 这些都已经有积木,理论上一次发布就能补上一部分。所以真正能守住的,不是"我们先想到",而是:判断的质量(它真的帮你把故事变好)、你攒下的分镜底稿和审美数据(越用越懂你,别人搬不走)。

市场与构想演进为什么不做工具、不做路由器

导读

一句话:这个产品的定位是一步步逼出来的。从"视频版工具"到"路由器"再到"AI 副导演",每一步都是因为前一步被市场证明不够。

为什么重要:这能让团队明白我们为什么不去做那些更显眼、看起来更简单的东西。

关键结论 - 最初想法是"视频版的可控生成工具" + "按成本/质量自动选模型(路由器)"。 - 调研发现:工具和画布赛道已经很挤,纯"路由器"也基本被 OpenRouter、fal、Eachlabs 做掉了。 - 于是定位上移:不做工具,做那层"判断"。路由器退化成幕后的省钱引擎,不是产品本身。

第一版:视频版的可控生成工具

最初的设想是做一个以视频为主的、可编辑可复用的生成流程(类似把做图的 ComfyUI 搬到视频)。

问题:这条赛道已经很挤。ComfyUI(开源免费)、Runway、Flora(融资 4200 万美元)、Krea、Higgsfield、fal 都在做。只靠"又一个流程工具"赢不了。

第二版:按成本/质量自动选模型的"路由器"

差异点想放在"每个步骤自动推荐最划算的视频模型"。

问题:这件事基本被做掉了。OpenRouter 2026 年 4 月上线了统一视频接口,fal 接了上千个模型,Eachlabs 能自动选模型。纯路由器是一个薄功能,谁都能在一次发布里抄掉,利润也薄(转售推理)。

第三版:AI 副导演 / 判断层

真正没人占的,是"判断":这个镜头对不对题、该怎么拍。于是定位上移到那一层。

路由器没有被丢掉,而是换了位置:它从"产品"变成"幕后省钱引擎"——草稿阶段用便宜模型、定稿阶段用贵模型,每个镜头按成本选。它服务于判断层,不再是卖点本身。

一句话总结演进

不做工具,不做路由器,做判断。工具和路由是手段,判断是产品。

怎么工作:分镜先行像写代码先写需求文档

导读

一句话:像写代码先写需求文档一样,先把"分镜"用便宜模型反复打草稿、判断对不对题,定稿后才花贵模型渲一次。

为什么重要:这是整个产品的主轴。它把"碰运气式生成"换成"有纪律的片场",也让成本可控。

关键结论 - 分镜 = 视频的需求文档。它是耐久资产,渲染出的画面是可重做的下游产物。 - 判断发生在最便宜的草稿阶段,所以可以改几十次;只有定稿才花贵的钱。 - 三条戒律:别把分镜锁太死;草稿也能反过来改主线;不是每个镜头都要被管。

类比:工程师不会一上来就写代码

工程师先写清楚需求文档,反复改,再让它生成代码。需求文档是耐久的真相源,代码是可重生成的下游。我们对视频做同一件事:分镜就是视频的需求文档。

七步流程

定故事主线(一句话:这片到底讲什么)
便宜模型打分镜草稿(几分钱一张,先看清意图)
副导演逐镜判断 + 给方案(这个镜头服不服务主线?给有理由的建议)
你拍板(改或过)
锁定分镜(定稿)
贵模型渲染一次(只渲已锁定的镜头)
后期成片(声音、调色)

为什么把判断挪到便宜阶段

草稿便宜到可以改几十次,所有"对不对题"的决定都在这里发生。等到定稿才花贵的钱去渲染。这就是把"老虎机"式的碰运气,换成一个有纪律的片场。

三条戒律(防止做歪)

别把分镜锁太死:固定意图,留出空间。视觉和情感比代码更模糊,锁成逐像素会杀掉即兴和涌现。
草稿能反过来改主线:看了便宜草图发现主线该调,就调。流程是双向的,不是一条道走到黑。
不是每个镜头都要被管:一个简单的建立镜头不需要全套判断。副导演要会判断什么时候该开口、什么时候放行,否则就成了扫兴的人。

护城河也藏在这里

你攒下的分镜底稿和审美偏好是可携带、会增值的创作资产。模型换代,旧画面可以用更好的模型重渲;你攒的判断留存。

生产实践与成本图先行管线 · 真实价格

导读

一句话:专业的 AI 视频不是"一句话生成一条片",而是一条管线:先锁定参考图,再图生视频,大头工时在后期。

为什么重要:副导演要真能帮人把东西做出来,就得懂这套真实的执行流程和成本,而不只是评判。

关键结论 - 专业流程是"图先行":先出锁定的参考静帧,再让它动,最后传统剪辑软件里成片。 - 跨镜头一致性(同一个人、同一种光)靠参考图特性,不靠写提示词。 - 真实成本有 7.5 倍价差(便宜的 Kling 到贵的 Veo),所以"草稿便宜、定稿贵"省钱成立。 - 单条片段只有几秒到几十秒,长片靠拼接;一把梭生成("老虎机")废片率极高。

专业流程:图先行,不是文生视频

故事 / 分镜设计
先出锁定的参考静帧(用便宜图模型,锁住种子/构图)— 很多人跳过这步,然后后悔
图生视频(把静帧喂给视频模型让它动),提示词尽量简短、运动幅度保守,减少人脸漂移
后期(传统剪辑软件:剪辑、调色、声音)— 大部分工时在这

一致性靠参考图,不靠提示词

跨镜头保住同一个角色、同一种光,主要靠参考图特性(例如 Runway 的角色参考、Nano Banana 做角色表),不是靠把提示词写长。一个实战诀窍:一次生成"四宫格"逼模型在同一光照下出四个变体,锁住一致性。

真实成本(2026-04 时点)

视频模型每秒:Kling 约 $0.10、Runway 约 $0.15、Veo 约 $0.75(差约 7.5 倍)。
一部 3 分钟 AI 短片的生成成本约 $60–175;传统独立短片 $5,000–30,000。
价格按月会变,数字都标了时点。

失败模式:老虎机

单条片段通常只有几秒到几十秒,长片靠拼接。一把梭式生成("老虎机")废片率极高——Sora 短片《Air Head》素材淘汰比约 300 比 1。专业人早就放弃"一个提示词拿到全部",改成分层、有计划地搭建。这正是我们的副导演要替创作者收敛的浪费。

后期是大头

放大清晰度、插帧、调色对齐、对口型、配音配乐、把短片段拼成连贯序列——大部分功夫在生成之后。专业纪律之一:生成静音视频,声音全在后期补。

它凭什么判断大师们的可执行判据

导读

一句话:导演和编剧大师讲的其实是同一件事——一切服务故事主线,不服务的就是装饰。这套判断,正是副导演的内核。

为什么重要:它不是玄学。大师们给的是可执行的"删/留"测试,可以直接变成 AI 的判断标准。

关键结论 - 一句话内核:一个细节只有能追溯到上一层的明确意图,才算"在题上";否则就是装饰,删。 - 这套判断有母本(几位公认大师的方法),不是我们拍脑袋。 - 把它做成 AI 的判断引擎,再用你的反馈校准到你的口味,就是产品的护城河。

大师们其实在说同一件事

大师	他的判据(可执行)
Sidney Lumet(《Making Movies》)	先回答"这片到底讲什么",它是一切决定流进的"河床";好风格是隐形的,观众一注意到风格就是坏风格。
Robert McKee(《Story》)	每场戏必须让某个价值发生转变;价值不变 = 废戏,删。
Walter Murch(《眨眼之间》)	剪辑优先级:情感 51% > 故事 23% > 节奏 > 视线 > 连续性。冲突时从最不重要的往上牺牲,情感最后丢。
Roger Deakins(摄影)	一束光必须有叙事理由,不能只是"好看";否则破坏可信度。
David Mamet(《On Directing Film》)	镜头从"主人公这一拍要什么"推出,不从"什么好看"推出;追求"有趣的镜头"是失败模式。

一句话内核

把以上压成一条,所有大师共同的判据是:

一个细节,只有能追溯到上一层一个明确的意图,才算"在题上"。共同的失败模式是"因为好看/好听",却说不出意图。

这条横跨编剧和导演,就是副导演判断每个镜头时用的那把尺。

怎么变成产品

这套判据写成 AI 的判断引擎(类似一个会打分的"考官"),再用你的纠正不断校准到你的口味。判据来自经典,权重来自你。判断越用越准、越懂你——这是别人抄不走的部分。

它怎么开口(不扫兴)

铁律:不是只提问,而是问完自己给答案。比如:"这场雨服务主题吗?——我的判断:服务,但只能小雨,因为① 小雨符合人物此刻的克制 ② 大雨会抢掉对白的重量。你来定:小雨 / 不加。"先给判断和方案,你拍板。

下一步,以及想听你的

这是一份分享,不是结论。我们在哪、接下来做什么、想听团队哪方面的反馈。

我们在哪:概念已成型,经过六轮调研 + 一轮对抗复验。接下来做一个最小可跑的判断引擎,拿一个真实创作片段,验它给的判断和方案站不站得住。

想听 01

"判断,而非生成"这个定位,在你看来站得住吗?哪里最虚?

想听 02

如果先打一个用户,你会选独立短片、广告、还是动画?

想听 03

你手上有没有真实创作者,能当第一个试用、给我们真反馈?

一条片子,从念头走到画面 — 分阶段看

火花 → 调研 → 立基

选角 · 案头 · 场景地图 · 分镜 · 光影 · 审核

草图的火候 · 模型选型

一个反常识的出发点

市场缺口:全行业在卷生成,没人在做判断

竞品,以及我们的点在哪

生成模型

节点 / 画布

聚合 / 路由

给谁用

怎么工作:像写代码先写需求文档

草图草到什么程度,成本是多少

① 涂鸦 · 图压图

② 粗草图

③ 上色草稿

④ 定稿渲染

为什么别人抄不走

样例:一条 40 秒短片怎么诞生

同一条片,两种流程

往上一级:一座 AI Studio,你是制片人

直接照搬编程已经跑通的那套

复用一支剧组:以《奥本海默》为例

导演 · 诺兰

摄影 · 范霍特玛

美术 · 德容

实拍 · 不用 CGI

同一支班子,换你的项目会怎么做

换一支班子,换个味道

诺兰班子(奥本海默)

小津班子(家庭 · 柔和)

碟中谍班子(动作 · 张力)

有人已经在做了:OpenMontage

诚实的风险

窗口可能关

判断是真功夫

效力待验证

模型按月变

展开细看

把一个念头,变成一部真正的片子

三元 × 世界杯 · 开发(火花→立基)

三元 · 前期筹备(选角→审核)

画面技术要求 · 草图的火候

案例《清晨》· 世界杯牛奶广告

给判断引擎装眼睛 · 技术实现

把镜头写成画面 · Prompt 写作

八条通道,一个主题 · 导演工具箱

像写代码一样拍片

有人先做了一半 · OpenMontage

你是制片人 · AI Studio

导读

1 · 出发点:工具一直都有,好内容的人一直很少

2 · 市场缺口:全行业在卷生成,没人在做判断

3 · 竞品三类,以及我们的点

4 · 怎么工作:分镜先行

5 · 成本:为什么"草稿便宜、定稿贵"成立

6 · 护城河:攒的是判断,不是片段

7 · 风险与下一步

导读

三类玩家,各自强在哪、缺什么

最接近我们的,以及它们的空档

我们的点

一个诚实的提醒

导读

第一版:视频版的可控生成工具

第二版:按成本/质量自动选模型的"路由器"

第三版:AI 副导演 / 判断层

一句话总结演进

导读

类比:工程师不会一上来就写代码

七步流程

为什么把判断挪到便宜阶段

三条戒律(防止做歪)

护城河也藏在这里

导读

专业流程:图先行,不是文生视频

一致性靠参考图,不靠提示词

真实成本(2026-04 时点)

失败模式:老虎机

后期是大头