AI Co-Director · 给 AI 视频装上判断力
AI 能生成任何画面,却拍不出一个好故事。
它不替你创作,替你扫清杂事。繁杂的执行和反复试错交给 AI;有意思的部分,你的审美、你的故事、你的价值观、你要表达的主题,留给你。它还不断给你建议和思考,让你腾出空间,把真正重要的判断做得更好。
你来 · 不交出去的核心
你想说什么,为什么这么说。这是作品的灵魂。
AI 副导演来 · 替你接过的
把耗神的部分接过去,还把更多可想的喂给你。
这不是把创作甩给 AI,而是把你从杂事里解放出来,去想更重要的事。普通创作者第一次拥有了过去只有大制作才请得起的副导演,得以专注当导演。
缺口
所有人在卷"生成":更清晰、更长、更便宜。几乎没人在做"判断":这个镜头对不对、服不服务你的故事。
我们的点
不做第 N 个生成器或画布。做一个会判断、会给方案的 AI 副导演,生成层租别人的。
为什么是现在
生成变得几乎免费,判断力反而更稀缺。成本越低,"为什么是这个镜头"越没人问。

工具一直都有。编剧书、导演大师课、剪辑教程,几十年来从不缺。可是真正能拍出好东西的人,始终很少。瓶颈从来不是工具,是判断力:知道这场戏要什么,知道这束光、这场雨、这个剪点该不该在。
AI 把"生成"这件事变得几乎免费。直觉上这应该让人人都能拍好片,但现实相反:当造一场雪只是一句话的成本,就再没有人被逼着回答"这场雪对我的故事有什么意义"。低成本放大了判断力的稀缺,而不是消除它。
"像在黑暗中开枪,像拉老虎机。"
Sora 官方短片《Air Head》的导演原话:约 90 秒成片,生成了数百个片段,素材淘汰比约 300 比 1。最前线的人,亲口把 AI 视频生成叫"老虎机"。
来源:Shy Kids / fxguide 访谈,2024。复验:成立(高置信)。
把市面上你熟悉的产品放到两根轴上看:横轴是"生成能力",纵轴是"创作判断力"。所有人挤在右下角。
定位为我们基于调研的判断,非精确测量。竞品名为团队熟悉的代表,非穷举。
市面上的玩家分三类。每一类都做得很好,但都把同一件事留给了你自己:决定拍什么、判断拍得对不对。
Sora 2 · Veo 3.1 · Runway · Kling
把画面生成做到极致。但你给什么提示,它就赌一个结果,不判断这个镜头服不服务你的故事。
ComfyUI · Flora · Krea · Higgsfield
把多模型串成可视化流程,很强,但门槛高:你得一边想内容,一边操作工具。选择权全在你。
fal · OpenRouter · Eachlabs
一个接口接通所有模型,解决"接入"。但选哪个模型、为什么,还是人工拍脑袋。
我们的点
不做第 N 个生成器,也不做第 N 个画布。我们做那个会判断、会主动给方案的副导演:它逐个镜头问"这服务你的故事吗",然后自己给出有理由的答案让你拍板。生成租别人的,判断是我们攒的。
不是给所有人。给认真想讲好一个故事的人,不是冲流量的人。
适合
在意"讲得好不好",愿为判断力付费
不适合
只要快、要量、冲流量
工程师不会一上来就写代码,而是先写清楚需求文档,反复改,再生成。我们对视频做同一件事:先把"分镜"用便宜模型反复打草稿,定稿后才花贵模型渲染一次。
关键在于把判断挪到最便宜的阶段:草稿便宜到可以改几十次,所有"对不对题"的决定都在这里发生;只有定稿的镜头才花贵的钱去渲染。这正是把"老虎机"式的碰运气,换成一个有纪律的片场。
草稿阶段不需要精致,只需要"看清意图"。从涂鸦到定稿四级,每一级对应一个讨论阶段,背后是真实价格。




视频模型价格(每秒,2026-04 时点):
模型每个月都在换代,任何"当前最好的模型"很快过时。所以护城河不在模型,也不在画面。你在这个产品里攒下的,是你的分镜底稿和你的审美偏好:它知道你怎么想故事、你偏好什么样的光和节奏。这是可携带、会增值的创作资产。
模型换代,旧像素可以用更好的模型重渲一遍;但你攒下的判断与品味留存下来。生成是租的,判断是攒的。这也回答了"要不要自己做生成":不做,租就好;要自己造的,是那层判断。
看人怎么和产品互动。副导演逐镜给"对不对题"的判断和方案,你只做有意义的决定。
深夜,空荡的地铁站。一个加班到很晚的年轻人,要不要给家里打个电话。
你定的故事主线:成年人的孤独,是有话,却咽了回去。
① 站台用什么光?
我的判断:冷白顶灯为主,别用暖光。
建议:整体惨白日光灯,加一处暖光——手机屏幕打在他脸上。为什么:暖光会冲淡孤独,冷白才让空旷成立;手机那点暖,是他咽下去的那句"想家",让"有话没说"看得见。光要有叙事理由,不为好看。
你定:冷白 + 手机暖光 / 全冷 / 换一个
② 要不要来一班呼啸而过的列车?(画面更"有戏")
我的判断:不加。
这场戏要保的是"静下来的孤独"。一班轰鸣的列车会抢掉沉默,把情绪推向外部刺激。空和静本身就是内容,删掉这个奇观,反而更重。先保情感,牺牲热闹。
你定:不加 / 远处一闪而过 / 加
③ 他几乎要拨号那一下,怎么拍?
我的判断:先空站台全景,再缓慢推近到那根犹豫的拇指。
空旷先把孤独框住,再推到悬在"妈"上方的拇指,咽下去那一下才有分量。一上来就大特写,会丢掉"他一个人,在多大的空里"。
你定:全景推近 / 直接特写 / 换一个
这一步,只有你能决定
他到底打没打这个电话?副导演把每个镜头怎么拍想透了,但"故事往哪走、要什么价值观",是你的事,不是它的。
以上判断全在便宜草稿上跑,改到顺;锁定后,只把定下来的几个镜头用合适的模型渲一次。
同一个镜头,三步走,差别一眼可见:

直接生成
只给"深夜地铁站,年轻人看手机":暖黄站台灯、人物居中、还来一班进站列车。好看,但没情绪,谁都能生成。

第一次优化
副导演把光改成惨白冷调,只留手机屏一点暖光打在脸上;去掉进站列车,站台空下来。孤独开始成立。

第二次优化
从空站台全景缓慢推近到悬在"妈"上方的拇指。那点暖光和拇指的迟疑成了重心,"有话没说"看得见了。
第三次优化 · 整个剧组在群里聊
你:这个推近,会不会太用力了?
摄影(狄金斯):别推到底。让他先抬头看一眼空荡的穹顶,再低头看手机。孤独是周围的空,不只那根拇指。
美术(德容式):那就把站台再剥干净点,只留一盏忽明忽暗的灯,穹顶越空越好。
剪辑(墨菲式):抬头那一下留长一点,别急着剪走,情绪在那口气里。
于是给你三个方案草图,你挑一个出成片 ↓

方案 A · 草图
抬头望穹顶,再低头

方案 B · 草图
大远景,人被空吞掉

你选了 A · 成片
空间的空,和心里的空,对上了
差别不在画质,在你是一个人对着生成器碰运气,还是有人替你把每个镜头想透。
市面上的产品
你一个人对着生成器
AI 副导演
有人替你想,你做主
前面你是导演、AI 是副导演。再往上拔一级:你是制片人,管钱、选人、拍板的那个人。我们给你一座现成的 studio,你来组队。
每个角色是一个 agent,按这些大师真实的访谈与创作理念给你建议,彼此讨论,各自还能带子团队。
你挑组合。比如诺兰 + 狄金斯 + 季默,整座 studio 的分析、风格、滤镜就朝这个组合收敛。每个 agent 像那位大师真的会跟你讨论的那样,给你他的镜头观、光观、配乐观。(构想阶段,这里不谈版权;大师是"理念参照系"。)
编程世界花了两年,把"一支 AI agent 团队怎么可靠交付一个项目"摸透了:spec 先行、记忆、评审、测试、循环。电影制作是同一个形状(一份 spec → 一群专才 → 互相评审 → 迭代 → 出片)。所以不重造,搬过来。
这一节是构想
你不是在用一个工具,是在搭一支剧组。制片人编排一支大师级 agent 团队,就像 tech lead 编排一支编程 agent 团队,而后者的范式已经开源、成熟、能跑。前面所有已验证的零件(分镜即 spec、判断、跨 session 记忆、循环)正好装进这个顶层架构。
复用整支班子,复用的不是画面,是方法。先看这支班子怎么把一个主题打进每个部门,再看同一支班子换个项目会怎么反应。
他们服务的那条主线
彻底的主观:把观众放进奥本海默脑子里,去理解他,而不是审判他;道德脊梁是"知识一旦出现,就收不回来"。诺兰先定这条,再让每个部门服务它。
彩色 = 他的主观第一人称(全片主体),黑白 = 对手 Strauss 更客观的视角。色彩是叙事视角,不是风格。"结构定不下来,我没法动笔"——结构先于内容,本身就是意义。
把 IMAX 从"拍奇观"改成"拍亲密"。"一部三小时、关于脸的电影。"定制近焦镜头,让画面像"穿过他的眼睛,从他眼里看世界"。
减法。"我们最少需要哪些东西,才能给出这个角色的本质?"不靠堆道具喊年代,只留情绪与人物。
Trinity 试爆坚持实拍。"实拍的东西天生更有重量、有威胁感。"真实优先于数字的安全。
把上面抽象成这支班子的"创作 DNA",用到前面那条短片《最后一班》上(深夜空站台,他要不要给家里打个电话)。主线:成年人的孤独,是有话,却咽了回去。
换成这支班子,同一个镜头三步走,味道更狠:

直接生成
同一句提示,出来一个居中、暖光、热闹的普通画面,和谁拍的都一样。

第一次优化
班子先把整场拉进他的主观,站台做减法,剥到只剩他、一盏灯、那部手机;冷白配手机暖光。

第二次优化
IMAX 式极近,镜头像穿过他的眼睛;悬停的拇指 + 拨号音成了贯穿全片的不可逆动机。
同一条《最后一班》,换不同的班子。同一个常见场景,三支风格迥异的班子,三个完全不同的版本。
痛 · 不可逆 · IMAX 亲密
把孤独锁进他脑子;极近、像穿过他的眼睛;结尾是悬停的拇指,那不可逆的一下。
酸而暖 · 接受 · 留白
距离是常态;固定低机位绝不推拉;切空镜用留白承载;他只是把手机放回口袋,走开。
倒计时 · 实拍 · 升级
抓住"最后一班"=最后期限,把犹豫变成倒计时:赶在车门关闭前拨不拨。手持跟拍、站台时钟、轰鸣进站,还剩 8 秒。



我们的 Studio 构想,有一个开源的现实版(2026-04 发布,AGPLv3)。好消息有两个:它验证了方向,而且它正好不做我们要做的那一层。
OpenMontage 已经做了
生产执行的全套
它不做的,正是我们的位置
对不对题的判断
敢说风险,团队反而更信。这四条我们看得很清楚。
巨头(OpenRouter、Eachlabs)已有积木,可能一次发布补上一部分。靠判断质量 + 你攒的数据守,不靠"我们先想到"。
让 AI 真懂你的意图、看懂画面对不对题(多模态),是要自己造的硬核,也正是别人抄不走的护城河。
还没有硬数据证明它能让真实创作者的成片更好。这是我们要最先验的事。
成本、时长、能力都在漂。架构必须让模型热插拔,任何"当前最好"都不当永久真理。
三份核心研究做成了完整可视化页(下方卡片);其余底稿折叠如下,点开即看。
编程范式搬进剧组 · 判断引擎放哪 · 借范式自建(AGPL)· 5 步计划。
它执行、我们判断 · 同类与"架构值得借鉴、营销别信"。
大师 agent 剧组 · 复用整支剧组(奥本海默 DNA)· 顶层架构。
一句话:AI 不缺生成力,缺判断力。我们做那个替创作者判断"这个镜头对不对题、该怎么拍"的 AI 副导演,生成模型租别人的。
为什么重要:整个行业都在卷"把画面生成得更好",几乎没人在做"判断画面对不对"。这是一条还空着的路,而且越往后越值钱。
关键结论(先看这四条) - 瓶颈不是工具,是判断力。AI 让生成几乎免费,反而把判断力的稀缺放大了。 - 市场缺口明确:生成、画布、聚合三类产品都很强,但都把"拍什么、拍得对不对"留给你自己。 - 做法:像写代码先写需求文档。先用便宜模型反复打分镜草稿,定稿才花贵模型渲一次。 - 护城河不是模型(每月换代),是你攒下的判断和品味。生成是租的,判断是攒的。
编剧书、导演大师课、剪辑教程,几十年从不缺。可真正拍得出好东西的人始终很少。瓶颈从来不是工具,是判断力:知道这场戏要什么,知道这束光、这场雨、这个剪点该不该在。
AI 把生成变得几乎免费,但这没让人人会拍片,反而相反。当造一场雪只是一句话的成本,就再没人被逼着回答"这场雪对我的故事有什么意义"。
Sora 官方短片《Air Head》的导演原话:为约 90 秒成片生成了数百个片段,素材淘汰比约 300 比 1,他亲口把这过程叫"老虎机"。最前线的人都在为"碰运气"付代价。
把生成能力当横轴、创作判断当纵轴,市面上所有产品都挤在"高生成、低判断"那一角。没有人占住"会判断、会给方案"这块。
我们的点:不做第 N 个生成器或画布。做那个会判断、会主动给方案的副导演,它逐镜问"这服务你的故事吗",然后自己给出有理由的答案让你拍板。
工程师不会一上来写代码,先写需求文档反复改再生成。我们对视频做同一件事:
关键是把判断挪到最便宜的阶段:草稿便宜到能改几十次,所有"对不对题"的决定在这里发生;只有定稿才花贵的钱。
视频模型每秒价格(2026-04 时点):Kling 3.0 约 $0.10、Runway 约 $0.15、Veo 3.1 约 $0.75。最贵和最便宜差约 7.5 倍,这正是分阶段省钱的根据。一部 3 分钟 AI 短片的生成成本约 $60–175,传统独立短片 $5,000–30,000。
(价格按月会变,架构上让模型可热插拔;短片成本为区间估算。)
模型每月换代,任何"当前最好"很快过时。所以护城河不在模型也不在画面,在你攒下的分镜底稿和审美偏好:它知道你怎么想故事、偏好什么样的光和节奏。模型换代,旧像素可重渲,你攒的判断留存。
风险:判断引擎要真懂你的意图、真看懂画面,这是要自己造的硬核;模型按月变,数字都标了时点;别把它做成按固定模板套镜头,那会毁掉它的价值。
下一步:做一个最小可跑的判断引擎,拿一个真实片段验:给一句故事主线 + 一个情节点 + 几个已做的选择,看它给的判断和方案你认不认。这是把调研变成能上手的东西的最短路径。
一句话:市面上的产品分三类(生成 / 画布 / 聚合),都很强,但都把"拍什么、拍得对不对"留给你。没有人做"主动判断"这件事。
为什么重要:这决定了我们不是去和谁抢同一块地,而是占一块没人占的地。
关键结论 - 生成模型、节点画布、聚合路由,三类都不碰"创作判断"。 - 最接近我们的是 LTX Studio、Higgsfield:它们把"创作 + 多模型"融合了,但选模型、判断对错仍是手动,没有"主动给方案"。 - 我们的差异点就卡在这条缝:逐镜判断对不对题,并主动给有理由的方案。 - 诚实提醒:巨头一次发布就可能补上一部分,所以护城河要靠判断质量 + 你攒下的数据,不靠这条缝本身。
| 类别 | 代表 | 强在 | 缺在 |
|---|---|---|---|
| 生成模型 | Sora 2 · Veo · Runway · Kling | 画面质量、一致性 | 不判断镜头对不对题 |
| 节点 / 画布 | ComfyUI · Flora · Krea · Higgsfield | 流程可视化、多模型 | 门槛高,选择权全在你 |
| 聚合 / 路由 | fal · OpenRouter · Eachlabs | 一个接口接通所有模型 | 选哪个模型仍靠人工 |
LTX Studio 和 Higgsfield 已经把"创作前端(分镜/角色)+ 多模型"融合进一个产品,这是目前最像我们设想的。但关键空档是:它们的选模型和判断都是手动的,没有一个"主动逐镜判断对不对题、并给出方案"的角色。所有"融合"产品里,这块都还是空的。
不做第 N 个生成器或画布。做那个会判断、会主动给方案的副导演:它对每个镜头/光/雨/剪点判断"服不服务你的故事主线",然后自己给出有理由的建议,你拍板。
这条缝不宽。OpenRouter、Eachlabs 这些都已经有积木,理论上一次发布就能补上一部分。所以真正能守住的,不是"我们先想到",而是:判断的质量(它真的帮你把故事变好)、你攒下的分镜底稿和审美数据(越用越懂你,别人搬不走)。
一句话:这个产品的定位是一步步逼出来的。从"视频版工具"到"路由器"再到"AI 副导演",每一步都是因为前一步被市场证明不够。
为什么重要:这能让团队明白我们为什么不去做那些更显眼、看起来更简单的东西。
关键结论 - 最初想法是"视频版的可控生成工具" + "按成本/质量自动选模型(路由器)"。 - 调研发现:工具和画布赛道已经很挤,纯"路由器"也基本被 OpenRouter、fal、Eachlabs 做掉了。 - 于是定位上移:不做工具,做那层"判断"。路由器退化成幕后的省钱引擎,不是产品本身。
最初的设想是做一个以视频为主的、可编辑可复用的生成流程(类似把做图的 ComfyUI 搬到视频)。
问题:这条赛道已经很挤。ComfyUI(开源免费)、Runway、Flora(融资 4200 万美元)、Krea、Higgsfield、fal 都在做。只靠"又一个流程工具"赢不了。
差异点想放在"每个步骤自动推荐最划算的视频模型"。
问题:这件事基本被做掉了。OpenRouter 2026 年 4 月上线了统一视频接口,fal 接了上千个模型,Eachlabs 能自动选模型。纯路由器是一个薄功能,谁都能在一次发布里抄掉,利润也薄(转售推理)。
真正没人占的,是"判断":这个镜头对不对题、该怎么拍。于是定位上移到那一层。
路由器没有被丢掉,而是换了位置:它从"产品"变成"幕后省钱引擎"——草稿阶段用便宜模型、定稿阶段用贵模型,每个镜头按成本选。它服务于判断层,不再是卖点本身。
不做工具,不做路由器,做判断。工具和路由是手段,判断是产品。
一句话:像写代码先写需求文档一样,先把"分镜"用便宜模型反复打草稿、判断对不对题,定稿后才花贵模型渲一次。
为什么重要:这是整个产品的主轴。它把"碰运气式生成"换成"有纪律的片场",也让成本可控。
关键结论 - 分镜 = 视频的需求文档。它是耐久资产,渲染出的画面是可重做的下游产物。 - 判断发生在最便宜的草稿阶段,所以可以改几十次;只有定稿才花贵的钱。 - 三条戒律:别把分镜锁太死;草稿也能反过来改主线;不是每个镜头都要被管。
工程师先写清楚需求文档,反复改,再让它生成代码。需求文档是耐久的真相源,代码是可重生成的下游。我们对视频做同一件事:分镜就是视频的需求文档。
草稿便宜到可以改几十次,所有"对不对题"的决定都在这里发生。等到定稿才花贵的钱去渲染。这就是把"老虎机"式的碰运气,换成一个有纪律的片场。
你攒下的分镜底稿和审美偏好是可携带、会增值的创作资产。模型换代,旧画面可以用更好的模型重渲;你攒的判断留存。
一句话:专业的 AI 视频不是"一句话生成一条片",而是一条管线:先锁定参考图,再图生视频,大头工时在后期。
为什么重要:副导演要真能帮人把东西做出来,就得懂这套真实的执行流程和成本,而不只是评判。
关键结论 - 专业流程是"图先行":先出锁定的参考静帧,再让它动,最后传统剪辑软件里成片。 - 跨镜头一致性(同一个人、同一种光)靠参考图特性,不靠写提示词。 - 真实成本有 7.5 倍价差(便宜的 Kling 到贵的 Veo),所以"草稿便宜、定稿贵"省钱成立。 - 单条片段只有几秒到几十秒,长片靠拼接;一把梭生成("老虎机")废片率极高。
跨镜头保住同一个角色、同一种光,主要靠参考图特性(例如 Runway 的角色参考、Nano Banana 做角色表),不是靠把提示词写长。一个实战诀窍:一次生成"四宫格"逼模型在同一光照下出四个变体,锁住一致性。
单条片段通常只有几秒到几十秒,长片靠拼接。一把梭式生成("老虎机")废片率极高——Sora 短片《Air Head》素材淘汰比约 300 比 1。专业人早就放弃"一个提示词拿到全部",改成分层、有计划地搭建。这正是我们的副导演要替创作者收敛的浪费。
放大清晰度、插帧、调色对齐、对口型、配音配乐、把短片段拼成连贯序列——大部分功夫在生成之后。专业纪律之一:生成静音视频,声音全在后期补。
一句话:导演和编剧大师讲的其实是同一件事——一切服务故事主线,不服务的就是装饰。这套判断,正是副导演的内核。
为什么重要:它不是玄学。大师们给的是可执行的"删/留"测试,可以直接变成 AI 的判断标准。
关键结论 - 一句话内核:一个细节只有能追溯到上一层的明确意图,才算"在题上";否则就是装饰,删。 - 这套判断有母本(几位公认大师的方法),不是我们拍脑袋。 - 把它做成 AI 的判断引擎,再用你的反馈校准到你的口味,就是产品的护城河。
| 大师 | 他的判据(可执行) |
|---|---|
| Sidney Lumet(《Making Movies》) | 先回答"这片到底讲什么",它是一切决定流进的"河床";好风格是隐形的,观众一注意到风格就是坏风格。 |
| Robert McKee(《Story》) | 每场戏必须让某个价值发生转变;价值不变 = 废戏,删。 |
| Walter Murch(《眨眼之间》) | 剪辑优先级:情感 51% > 故事 23% > 节奏 > 视线 > 连续性。冲突时从最不重要的往上牺牲,情感最后丢。 |
| Roger Deakins(摄影) | 一束光必须有叙事理由,不能只是"好看";否则破坏可信度。 |
| David Mamet(《On Directing Film》) | 镜头从"主人公这一拍要什么"推出,不从"什么好看"推出;追求"有趣的镜头"是失败模式。 |
把以上压成一条,所有大师共同的判据是:
一个细节,只有能追溯到上一层一个明确的意图,才算"在题上"。共同的失败模式是"因为好看/好听",却说不出意图。
这条横跨编剧和导演,就是副导演判断每个镜头时用的那把尺。
这套判据写成 AI 的判断引擎(类似一个会打分的"考官"),再用你的纠正不断校准到你的口味。判据来自经典,权重来自你。判断越用越准、越懂你——这是别人抄不走的部分。
铁律:不是只提问,而是问完自己给答案。比如:"这场雨服务主题吗?——我的判断:服务,但只能小雨,因为① 小雨符合人物此刻的克制 ② 大雨会抢掉对白的重量。你来定:小雨 / 不加。"先给判断和方案,你拍板。
这是一份分享,不是结论。我们在哪、接下来做什么、想听团队哪方面的反馈。
我们在哪:概念已成型,经过六轮调研 + 一轮对抗复验。接下来做一个最小可跑的判断引擎,拿一个真实创作片段,验它给的判断和方案站不站得住。
想听 01
"判断,而非生成"这个定位,在你看来站得住吗?哪里最虚?
想听 02
如果先打一个用户,你会选独立短片、广告、还是动画?
想听 03
你手上有没有真实创作者,能当第一个试用、给我们真反馈?