從劇本到視頻:一套 Seedance 2.0 的分鏡師 Agent團隊方案
整理版優先睇
呢篇文章詳解咗一套基於 Seedance 2.0 嘅 AI 視頻分鏡系統,透過四個專業角色(製片人、導演、服化道、分鏡師)將劇本轉化為高質量嘅視頻提示詞,核心原則是參考圖已見原則和敍事描述式。
呢篇文章係由廢才寫嘅,佢分享咗自己搭建嘅一套 AI 視頻分鏡系統。佢發現由劇本到 Seedance 2.0 嘅視頻提示詞,中間其實有三次唔同嘅翻譯:從文字到畫面意圖、從畫面意圖到靜態視覺資產、再到動態視頻指令。大多數人只係一步到位寫提示詞,結果質量唔穩定。所以佢設計咗四個角色——製片人、導演、服化道、分鏡師,各自負責唔同階段,確保每一步嘅質量。整體結論係:要得到高質量嘅 AI 視頻,需要將專業影視前期嘅工作流程拆解成 AI 可以執行嘅協作系統,用參考圖已見原則減少提示詞嘅冗餘,用敍事描述式匹配模型嘅理解方式,並用審核閉環迭代優化。
呢套系統嘅關鍵設計包括:導演作為唯一貫穿全流程嘅角色,負責講戲同審核;服化道根據講戲設計角色同場景參考圖;分鏡師基於參考圖已見原則,只寫動態變化,唔重複靜態資訊。仲有節拍密度約束同頭尾安全區呢啲物理限制。最終每個環節都經過雙重審核(業務+合規),用評分制確保質量。
總括嚟講,呢套系統唔係為咗做一集而設計,而係考慮到跨集累積設計資產,可以擴展到多集。作者強調工具會變,但呢套思路——拆解任務、專業分工、規範約束、審核閉環——先係最值得學習嘅。
- 核心結論:將劇本轉為視頻提示詞需要三次翻譯,對應四個專業角色,而非一步到位。
- 方法:導演負責講戲(五維度融合敍述),服化道設計參考圖,分鏡師基於參考圖已見原則只寫動態。
- 差異:參考圖已見原則顛覆咗傳統提示詞寫法,靜態信息由參考圖承載,提示詞100%描述變化。
- 啟發:Skill 設計必須包含方法論、模板、示例、審核標準四個組件,否則 Agent 表現下降。
- 可行動點:應用節拍密度約束(1拍≈2.5秒)和頭尾安全區(前後0.5秒不留關鍵內容)來提升生成視頻質素。
系統核心:四個角色對應三次翻譯
大多數人覺得由劇本到 Seedance 提示詞只係一步——讀完劇本寫一段描述就得。但作者拆解發現,中間其實有三次本質唔同嘅翻譯:第一次係從文字到畫面意圖(導演嘅工作),第二次係從畫面意圖到靜態視覺資產(服化道嘅工作),第三次係從畫面意圖加上靜態資產到動態視頻指令(分鏡師嘅工作)。
三次翻譯需要三種完全唔同嘅思維模式——敍事思維、視覺設計思維、技術翻譯思維——如果夾埋一個 Agent 做,每件事都只會做到六七十分。
所以作者設計咗四個角色:製片人係主 Agent,負責調度;導演、服化道、分鏡師各自負責一個翻譯階段。製片人唔自己做翻譯,只確保每一步嘅交付質量,令每一步都乾淨俐落。
導演:從頭到尾嘅創意守門人
導演係唯一貫穿全流程嘅角色,佢有5個技能包,而服化道同分鏡師各自得1個。導演要做嘅最核心嘢叫「講戲」——將劇本變成自然流暢嘅畫面敍述,覆蓋畫面內容、人物動作、台詞聲音、鏡頭感覺、光影氛圍五個維度,而且必須融合成一段連貫描述,唔可以分條列舉。
講戲嘅輸出係一段自然流暢嘅敍述,五個維度融合喺同一條時間線上,咁樣分鏡師先唔使重組碎片,維度之間嘅關聯唔會遺失。
導演仲要負責審核——自審講戲、審服化道嘅設計、審分鏡師嘅提示詞。點解唔揾獨立審核 Agent?因為審核需要創作意圖嘅上下文,導演腦入面有最清楚嘅畫面,佢先知道「對唔對」。作者用咗 Resumable Subagents 機制,令導演每次審核都可以恢復返當初講戲時嘅對話上下文。
- 導演有5個技能包:director-skill、script-analysis-review-skill、art-direction-review-skill、seedance-prompt-review-skill、compliance-review-skill。
- 講戲係用融合敍述,唔可以分條列舉,因為分條會令維度之間嘅關聯丟失。
- 導演審核時會做「腦內預演」:閉眼想像提示詞生成出嚟嘅畫面,同上遊嘅創意意圖做比對。
參考圖已見原則同敍事描述式
Seedance 2.0 可以「睇到」你 @引用嘅參考圖——人物五官、場景佈局全部識別。呢個能力改變咗提示詞應該寫乜:參考圖負責承載靜態信息,提示詞只描述變化。呢個就係「參考圖已見原則」。
一條冇參考圖嘅提示詞可能60%係靜態描述,但用參考圖已見原則之後,100%嘅內容都係動態變化。
至於點樣寫變化,作者主張「敍事描述式」——用完整段落、連貫敍述,好似寫電影腳本咁。唔好用關鍵詞堆疊(例如「中景, 冷色調, 緩慢推鏡」),因為 Seedance 最擅長理解自然語言嘅連貫敍事,而唔係從標籤推斷關係。
敍事描述式仲有個好處:佢天然帶有節奏——快慢交替會直接影響 Seedance 生成嘅視頻節奏,而關鍵詞堆疊只會產生均勻冇起伏嘅畫面。
Skill 設計同實戰規則
每個 Skill 包含四個組件:方法論(定義點樣先叫「啱」)、模板(定義輸出格式)、示例(定義好嘅標準)、審核標準(定義點判斷夠唔夠好)。缺任何一個,Agent 表現都會明顯下降。
AI 對具體示例嘅理解能力遠強於對抽象規則嘅理解能力——示例係最被低估嘅組件。
實戰層面有物理限制:每個連續鏡頭內,1拍大約等於2.5秒,一個物理動作算一拍,鏡頭運動算一拍。仲有頭尾安全區:開頭同結尾各0.5秒唔好放關鍵內容。素材對應表確保每個 @引用指向同一素材,而且每個引用必須明確用途。
- 節拍密度約束:一個5秒單鏡頭最多放2拍(例如「站起身→走到門前」),否則畫面會糊。
- 跨集累積:服化道嘅設計資產係全局共享,每集只處理新增同變體,唔使由頭做起。
- 審核用評分制:平均分≥8且單項不低於6,合規審核只有通過/不通過。

由劇本到影片:一套 Seedance 2.0 嘅分解方案
我砌咗一套 AI 影片分鏡系統。
你畀佢一個劇本,佢幫你一路生成到 Seedance 2.0 可以直接用嘅影片提示詞——中間嘅角色參考圖、場景參考圖呢啲設計資產嘅提示詞都一併搞掂。
如果你想睇完整嘅實操示範,下面呢條片由頭到尾行咗一次全流程。
呢篇文章講嘅係影片裏面冇展開嘅嘢——呢套系統背後嘅設計邏輯。每一個角色點解存在,每一個技能包點解係咁配,每一條規則點解係咁定。
內容會比較密,建議你揀個靜啲嘅時間讀。
I — 四個角色,三次翻譯
由一個劇本到一條 Seedance 2.0 嘅影片提示詞,中間發生咗啲咩?
大多數人嘅答案係「寫提示詞」。佢哋覺得呢一步就得——讀完劇本,腦裏面諗一個畫面,然後用文字描述出嚟,掉畀 Seedance 生成。
但如果你仔細拆解呢個過程,你會發現中間其實有三次本質完全唔同嘅「翻譯」。
第一次翻譯:由文字到畫面意圖。劇本寫嘅係「林書白喺簡陋住處猛然驚醒」,但呢句話對應嘅畫面係咩?係乜嘢景別?鏡頭由邊個角度切入?佢醒來第一個動作係咩?間房嘅光係點?呢啲嘢劇本冇寫,需要有人補上。呢個係導演做嘅嘢。
第二次翻譯:由畫面意圖到靜態視覺資產。導演話「林書白着住素色長衫,黑色短髮,清秀但沉穩」,但呢個只係文字描述。Seedance 需要見到一張具體嘅圖先至知「林書白」究竟係咩樣。仲需要一張簡陋住處嘅場景參考圖,等 Seedance 知道呢間房嘅佈局、光線、質感。呢啲靜態嘅視覺資產,需要有人設計出嚟。呢個係服化道做嘅嘢。
第三次翻譯:由畫面意圖加上靜態資產,到動態影片指令。導演講清楚咗呢場戲要拍咩,服化道將角色同場景嘅參考圖都準備好,而家需要有人將呢一切融合成一條 Seedance 2.0 能夠理解嘅提示詞——@引用邊啲素材,描述咩動作、咩運鏡、咩情緒變化。呢個係分鏡師做嘅嘢。
三次翻譯,三種完全唔同嘅思維模式。
第一次係敍事思維——點樣將故事拆成可執行嘅畫面段落。第二次係視覺設計思維——點樣將文字描述轉化為精確嘅視覺形象。第三次係技術翻譯思維——點樣用 Seedance 能夠理解嘅語言描述一段動態畫面。
你叫一個 Agent 同時做呢三件事,結果就係每件事都做到六七十分。唔係因為模型能力唔夠,而係因為三種思維模式撈埋一齊,互相干擾。導演喺諗點樣拆故事嘅時候,唔應該同時操心提示詞格式;分鏡師喺寫運鏡嘅時候,唔應該仲要分心去設計角色嘅衫紋理。
所以呢套系統有四個角色。製片人係主 Agent,佢自己唔翻譯,淨係負責調度——等導演、服化道、分鏡師喺啱嘅時間做啱嘅事,然後確保每一步嘅交付質量。
唔係為咗令系統睇起嚟複雜。係為咗令每一步都乾淨。
II — 導演:唯一貫穿全流程嘅角色
三個 Sub-Agent 裏面,導演係最特別嘅。
睇下佢哋嘅配置就知。服化道有 1 個技能包——art-design-skill,負責設計人物同場景提示詞。分鏡師有 1 個技能包——seedance-storyboard-skill,負責編寫 Seedance 提示詞。
導演有 5 個。
director-skill,負責劇本分析、劇情拆解、講戲。script-analysis-review-skill,負責審核自己嘅講戲質量。art-direction-review-skill,負責審核服化道嘅設計質量。seedance-prompt-review-skill,負責審核分鏡師嘅提示詞質量。compliance-review-skill,負責審核所有階段嘅內容合規性。
你可能會問:點解唔單獨設一個審核 Agent?點解要導演一個人做創作又做審核?
因為審核需要創作意圖嘅上下文。
導演喺講戲嘅時候,腦裏面有一個非常具體嘅畫面——佢知道呢場戲嘅核心情緒係咩,佢知道呢個鏡頭點解要由側面切入而唔係正面,佢知道光應該由左邊打定右邊打。呢啲細微嘅意圖,只有佢自己最清楚。
如果你叫一個獨立嘅審核 Agent 嚟做質量把控,佢冇呢啲上下文。佢淨係見到規則同產出,判斷產出係咪符合規則。但「符合規則」同「忠實於導演意圖」係兩回事。一條提示詞可以完美符合所有格式要求,但同導演想要嘅畫面差咗十萬八千里。
等導演自己審自己嘅講戲、審服化道嘅設計、審分鏡師嘅提示詞,佢每一次審核都係攞產出同自己腦裏面嘅畫面做比對。佢知「啱唔啱」,因為「啱」嘅標準就喺佢自己嘅上下文裏面。
呢個亦都係點解我用咗 Resumable Subagents 機制——導演第一次被調用時分析劇本講戲,系統記錄佢嘅唯一 ID。後面再調用佢審核服化道、審核分鏡師,恢復嘅係同一個對話上下文。佢仲記得自己當初講戲時每一個細節嘅設定。
導演係呢套系統裏面唯一一個由頭到尾都在場嘅角色。佢既係創意嘅源頭,亦係質量嘅守門人。
III — 講戲:將文字變成畫面指令
導演做嘅最核心嘅嘢叫「講戲」。
呢個概念直接嚟自傳統影視。片場開拍之前,導演會叫演員埋一邊,由頭到尾將呢場戲講一次:你由呢度入畫面,先睇一眼窗外,然後轉身走向枱,講對白嘅時候語氣要剋制,鏡頭會由你嘅側臉推到你手上嘅信,光由你左邊嘅窗打嚟。
講戲唔係複述劇本。劇本寫嘅係「佢得知咗真相」,導演講嘅係「佢拆開信封,目光由左掃到右,手指逐漸收緊,信紙嘅褶皺被捏出嚟,嘴唇微微顫抖但冇講嘢」。
喺我嘅 director-skill 入面,講戲必須涵蓋五個維度:
畫面內容——邊個喺邊度,環境係點樣。人物動作——具體嘅肢體動作、走位、表情變化。對白聲音——講咗咩話、咩語氣、有冇環境聲。鏡頭感覺——咩景別、鏡頭點樣運動、由邊度到邊度。光影氛圍——咩光源、咩色調、咩情緒。
但呢五個維度唔係分條列舉嘅。
呢一點非常關鍵。講戲嘅輸出係一段自然流暢嘅敍述,五個維度融合埋一齊,就好似導演真係同你講緊嘢一樣。
點解唔分條?因為分條列舉會令信息碎片化。分鏡師接到一個分條列舉嘅講戲——「動作:站起身走向門口。鏡頭:中景推到近景。光影:冷藍色調。」——佢需要自己去重組呢啲碎片,諗像佢哋合埋一齊係咩畫面。呢個重組過程中,維度之間嘅關聯好容易甩漏——鏡頭嘅推進同人物嘅走動係同步定先後?光線變化係動作之前定之後?
融合敍述冇呢個問題。「佢緩緩站起身,鏡頭由佢側臉嘅特寫開始向後拉開,冷藍色嘅微光由窗口斜射入嚟,喺佢轉身走向門口嘅過程中,光線逐漸由臉上滑落到背影上。」——所有維度喺同一條時間線上,關係一目瞭然。
仲有一條硬性原則:用具體物理動作,唔用抽象概念。
「佢好攰」——Seedance 唔理解攰係咩畫面。「佢揉了揉太陽穴,目光由屏幕移開,靠向椅背」——呢個係 Seedance 可以直接執行嘅動作。「氣氛緊張」——冇畫面。「兩個面對面企,一個身體前傾咬緊下巴,另一個雙臂交叉面無表情」——呢個有畫面。
導演講戲嘅質量,直接決定咗後面所有環節嘅上限。服化道根據講戲本設計角色同場景,如果講戲裏面嘅外觀描述係模糊嘅,設計出嚟嘅參考圖就唔會準確。分鏡師根據講戲本寫 Seedance 提示詞,如果講戲裏面嘅動作同運鏡係含糊嘅,提示詞就會偏離意圖。
成條流水線嘅精度,由呢度開始。
IV — 參考圖已見原則:一條規則重新定義提示詞應該寫咩
而家講呢套系統裏面最重要嘅一條設計原則。
Seedance 2.0 有一個能力,被絕大多數人忽略咗:佢可以「見到」你通過 @引用傳入去嘅參考圖。
唔係「參考一下大概嘅意思」,係真係見到——人物嘅五官、髮型、衫紋理、體態氣質,場景嘅空間佈局、光線方向、色調質感,佢全部可以識別。
呢個能力徹底改變咗提示詞應該寫咩。
如果 Seedance 已經見咗林書白嘅參考圖,你喺提示詞裏面再寫「一個着素色長衫嘅年輕男子,黑色短髮,面容清秀」——呢啲全部係廢話。你喺重複佢已經知嘅信息,唔單止冇幫助,反而霸咗提示詞有效嘅空間。
參考圖已見原則講嘅係:參考圖負責承載靜態信息,提示詞淨係負責描述「變化」——動作、運鏡、情緒轉變、光影變化。
呢條原則係成套系統分工邏輯嘅根基。
因為有咗呢條原則,服化道呢個角色就必須獨立存在。靜態視覺信息需要高質量嘅參考圖嚟承載,參考圖嘅質量直接影響 Seedance 嘅生成效果。如果你嘅角色參考圖畫得唔清楚——例如側面嘅特徵冇展示出嚟,或者服裝細節模糊——咁 Seedance 喺生成影片嘅時候就只能靠估,結果自然不可控。
服化道嘅工作就係確保每一張參考圖都係高質量嘅——角色有面部特寫加三視圖,Seedance 唔理由邊個角度生成都有參考;場景有完整嘅空間佈局同光影信息,運鏡點樣轉都唔會穿崩。
因為有咗呢條原則,分鏡師就可以將全部精力集中喺動態描述上。佢唔需要喺提示詞裏面浪費字數描述角色係咩樣、場景咩氛圍,佢只需要寫:呢個角色做咗咩動作,鏡頭點樣運動,情緒由咩狀態變成咩狀態。
信息密度直接提高咗一倍唔止。
一條冇參考圖嘅提示詞,可能 60% 嘅內容喺描述靜態信息,40% 喺描述動態內容。一條基於參考圖已見原則寫嘅提示詞,100% 嘅內容都喺描述動態內容。你覺得邊條提示詞生成出嚟嘅影片好啲?
將啱嘅信息放喺啱嘅載體上。呢個就係呢條原則嘅本質。
V — 敍事描述式:點解用講故仔嘅方式寫提示詞
確定咗「提示詞淨係寫變化」之後,下一個問題係:點樣寫呢啲變化?
我嘅答案係敍事描述式——用完整嘅段落、連貫嘅敍述,好似寫電影腳本咁描述畫面由頭到尾發生咗啲咩。
唔係關鍵詞堆疊。唔係「中景, 冷色調, 緩慢推鏡, 緊張氛圍」。
呢個唔係風格偏好。呢個係一個技術選擇。
Seedance 2.0 嘅底層係一個理解自然語言嘅模型。佢最擅長嘅嘢,係理解一段連貫嘅敍事——邊個做咗咩,然後發生咗咩,與此同時鏡頭點樣運動。佢最唔擅長嘅嘢,係由一堆離散嘅標籤推斷出佢哋之間嘅關係同優先級。
你畀佢「中景, 冷色調, 緩慢推鏡」,佢需要自己去估:冷色調係一開始就有定逐漸變冷?推鏡係先推定後推?推鏡嘅同時人物喺做緊咩?標籤之間嘅關係係空白嘅,Seedance 必須自己填空,結果自然不可控。
你畀佢一段敍事——「灰藍色嘅清晨微光由左側窗口斜射入昏暗嘅室內,鏡頭由人物臉部側面特寫開始,佢猛然睜開雙眼,額頭滲出汗珠,鏡頭緩緩向後拉開,佢坐喺木牀上,胸口起伏逐漸平穩」——所有嘅信息都喺一條連貫嘅時間線上,先後關係、因果關係、同步關係一目瞭然。
敍事描述式仲有一個被低估嘅好處:佢天然帶有節奏。
「鏡頭由側面特寫開始」——慢。「佢猛然睜開雙眼」——快。「額頭滲出汗珠」——細節停頓。「鏡頭緩緩向後拉開」——又慢返。呢種快慢交替嘅節奏感,會直接影響 Seedance 生成影片嘅節奏。而關鍵詞堆疊係冇節奏嘅,所有信息平鋪,Seedance 只能生成一種均勻、冇起伏嘅畫面。
所以喺我嘅系統裏面,由導演講戲、到服化道設計參考圖提示詞、到分鏡師寫最終嘅 Seedance 提示詞,全鏈路都使用敍事描述式。唔係某一個環節用,係所有環節都用。因為上游嘅敍事風格會傳遞到下游——導演用敍事風格講戲,分鏡師讀到嘅就係一個有畫面感嘅敍述,佢翻譯成 Seedance 提示詞嘅時候自然都會保持呢種風格。
VI — Skill 嘅設計哲學:唔係同佢講「你係導演」就夠
到呢度,你已經知道咗系統嘅角色分工同核心原則。而家我要講一個容易被忽略但極其關鍵嘅層面:Skill 嘅設計。
你可能覺得,同一個 AI Agent 講「你係一個資深導演,去分析呢個劇本」就夠。
唔夠。差好遠。
「你係一個導演」只係話咗畀 AI 知佢嘅身份,冇話畀佢知點樣做、做到咩標準、咩可以做咩唔可以做。AI 會根據佢訓練數據裏面對「導演」嘅理解去執行,但呢個理解係泛泛嘅、冇邊界嘅。佢可能講出一段好文學性嘅戲但完全唔能夠轉化成影片提示詞,佢可能漏咗光影描述因為「導演唔一定要講光影」。
所以每一個 Skill 都包含四個組件。呢個唔係隨便定嘅,係反覆測試之後確定嘅最小必要結構。
方法論——定義「咩係啱嘅」。
以分鏡師嘅 seedance-prompt-methodology 為例。佢唔係教分鏡師點樣寫提示詞,而係劃定邊界:參考圖已見原則(唔好重複靜態內容)、敍事描述式(唔好關鍵詞堆疊)、節拍密度約束(1拍≈2.5秒)、頭尾安全區(前後0.5秒唔放關鍵內容)、@引用必須指定用途、唔可以用否定句。
方法論解決嘅問題係:令 AI 知道咩係好,咩係唔允許。冇方法論嘅 Agent 會憑「直覺」行事,質量完全不可預測。
模板——定義「輸出係咩樣」。
導演嘅產出模板 director-analysis-template 定義咗講戲本嘅格式:每個劇情點包含人物、場景、鏡頭組、時長建議、導演闡述。服化道嘅產出模板 art-design-template 定義咗人物提示詞格式(左特寫+右三視圖+白色背景)同場景提示詞格式(宮格佈局+視覺規範+逐格描述)。分鏡師嘅產出模板 seedance-prompts-template 定義咗素材對應表同每個劇情點嘅提示詞結構。
模板唔係形式主義。模板係信息傳遞嘅接口。
導演嘅產出格式決定咗服化道能夠讀到咩——人物清單裏面有外觀關鍵詞,服化道先知道角色應該係咩樣。服化道嘅產出格式決定咗分鏡師能夠引用咩——場景按宮格編號獨立存儲,分鏡師先可以喺 @引用裏面精確關聯。如果上游嘅輸出格式唔統一,下游就要花大量精力去解析同猜測,效率同準確性都會下降。
成條流水線能夠行得通,靠嘅就係模板之間嚴格嘅對接。
示例——定義「好嘅標準係咩樣」。
呢個係最容易被低估嘅組件。
你同 AI 講「人物提示詞要詳細、具體、有畫面感」,佢會生成一段佢認為「詳細具體有畫面感」嘅文字。但佢認為嘅好同你認為嘅好,往往差好遠。
但如果你畀佢睇一個 9 分嘅人物提示詞係咩樣——具體到每一條髮絲嘅走向、每一條衫褶皺嘅材質、鞋嘅款式同跟高、配飾嘅位置同數量——佢直接就知咗「詳細」意味住咩精度。
character-prompt-examples 裏面嘅示例,每一條都係完整可用嘅提示詞,直接複製到文生圖工具就可以生成。唔係抽象嘅指南,係實打實嘅標杆。seedance-prompt-examples 係 Seedance 2.0 官方團隊自己寫嘅模板,代表咗平台方認為最優嘅提示詞風格——呢個係最權威嘅參考基準。
AI 對具體示例嘅理解能力遠強於對抽象規則嘅理解能力。呢一點我測試過好多次,結論非常明確。
審核標準——定義「點樣判斷夠唔夠好」。
每個階段有自己嘅業務審核 Skill,維度完全唔同。
導演自審用 script-analysis-review-skill,檢查嘅係講戲質量:畫面感清唔清晰、動作鏈完唔完整、節拍密度合唔合理、鏡頭能唔能夠連續實現、光影描述夠唔夠具體、情緒傳達準唔準確、前後銜接自唔自然。
服化道審核用 art-direction-review-skill,檢查嘅係設計質量:人物造型同導演描述一唔一致、角色辨識度夠唔夠、描述有冇歧義(「清秀」會唔會被理解成女性化?)、場景氛圍同講戲本匹唔匹配、宮格之間風格統唔統一。
分鏡審核用 seedance-prompt-review-skill,檢查嘅係提示詞質量:忠實度、畫面還原度、動作可執行性、鏡頭可實現性、Seedance 友好度、音頻設計、情緒準確性。
點解唔可以用同一套標準審核所有階段?因為每個階段產出嘅嘢性質完全唔同——講戲本係畫面描述,參考圖提示詞係視覺設計,Seedance 提示詞係動態指令——判斷「好唔好」嘅維度自然唔同。
但合規審核得一個——compliance-review-skill。因為平台紅線係通用嘅。唔理係講戲本定設計提示詞定 Seedance 提示詞,真人肖像就係唔用得,版權 IP 就係唔可以掂,暴力色情就係唔可以有。同一套規則適用於所有階段,所以只需要一個 Skill。
方法論話畀 AI 知做嘅邊界喺邊,模板話畀佢知輸出係咩樣,示例話畀佢知好嘅標準係咩,審核標準話畀佢知點樣判斷夠唔夠好。呢四個組件缺任何一個,Agent 嘅表現都會明顯下降。
VII — 節拍密度同安全區:寫入規則嘅物理限制
AI 影片生成有物理限制。
唔係模型嘅限制,唔係平台嘅限制,係「喺有限時間內能夠表達幾多內容」嘅物理限制。你唔可能喺一秒鐘內講完一段說話,Seedance 2.0 亦都唔可能喺兩秒鐘內完成三個複雜動作。
我反覆生成、逐幀比對咗幾百條影片之後,總結出一條底層規律:
每個連續鏡頭內,1 拍大約等於 2.5 秒屏幕時間。
一個物理動作算一拍——「站起身」係 1 拍,「站起身 → 行到門前 → 推開門」係 3 拍。一次鏡頭運動算一拍——推鏡、拉鏡、環繞,各算 1 拍。一句短對白(10 字以內)算一拍,超過 10 字按 2 拍。同時發生嘅事合併——「猛然睜眼,額頭滲汗」發生喺同一刻,算 1 拍。
如果你喺一個 5 秒嘅單鏡頭裏面塞咗 4 拍動作,生成出嚟嘅畫面就會模糊、跳、唔自然。每個動作分到嘅時間太短,AI 嚟唔切將過渡做清楚。
但節拍密度約束只作用於每個連續鏡頭內部。
如果你嘅段落係多鏡頭結構——例如一段 15 秒嘅蒙太奇,包含 5 個子畫面,每個子畫面 2-3 秒——咁每個子畫面各自遵守密度約束就得,總嘅節拍數可以遠遠超過單鏡頭嘅上限。就好似電影裏面嘅快速剪輯:每個鏡頭內容簡單,但鏡頭之間切換好快,總信息量好大。
除咗節拍密度,仲有頭尾安全區。
Seedance 每次生成嘅前 0.5 秒同後 0.5 秒,畫面嘅穩定性同質量唔及中間段。如果你將關鍵動作放喺開頭嘅第一幀,好可能被截斷或者變形。如果你將收尾動作卡喺最後一幀,剪輯嘅時候冇餘地。
所以規則係:開頭畀環境或者主體一個靜態建立,等畫面先穩定落嚟。結尾等動作自然收住,或者保持一個可以銜接嘅姿態。
呢啲規律唔係經驗之談,唔係「我覺得大概係咁」。係一幀一幀睇咗幾百條生成結果之後總結出嚟嘅硬性規律。
關鍵在於:我將呢啲規律寫咗入方法論同審核標準裏面,而唔係作為一條建議貼喺某個地方。分鏡師寫提示詞嘅時候,方法論裏面明確規定咗節拍密度約束同安全區規則。導演審核提示詞嘅時候,審核 Skill 裏面有專門嘅「動作可執行性」維度,會逐條檢查每個連續鏡頭內嘅節拍密度係咪合理。
唔合格嘅提示詞會被打回頭重寫。唔係建議,係硬性規則。
VIII — 雙重審核同評分制:點樣喺生成之前發現問題
審核環節係我喺呢套系統裏面花最多心思嘅部分。
一個基本事實:AI 生成嘅內容,唔理模型有幾強,唔可能第一次就完美。創作本身唔係一次成型嘅過程。但如果冇系統化嘅審核機制,你就只能靠「生成→睇效果→唔滿意→換個提示詞再試」嘅隨機試錯。
我嘅做法係喺系統內部建審核閉環。每個階段完成之後,導演做兩步審核。
第一步,業務審核。
呢一步用嘅係階段專屬嘅審核 Skill——審導演自己嘅講戲用 script-analysis-review-skill,審服化道嘅設計用 art-direction-review-skill,審分鏡師嘅提示詞用 seedance-prompt-review-skill。每個維度單獨打分,1 到 10 分。
通過條件係:平均分 ≥ 8,而且任何單項唔低過 6。
點解用評分制而唔係簡單嘅通過/唔通過?
因為通過/唔通過嘅顆粒度太粗。AI 做審核嘅時候,如果只需要畀一個「通過」或「唔通過」,佢好容易放水——「差唔多就得啦」。但如果要求佢對每一個維度單獨打分,佢就必須逐個維度做判斷,冇得含糊過去。
點解係「平均≥8 且單項唔低過6」?平均≥8 保證整體質量。單項唔低過6 防止木桶效應——一條提示詞可能忠實度 9 分、畫面還原 9 分,但音頻設計得 3 分,因為分鏡師完全唔記得寫背景音樂同環境音效。如果淨係睇平均分,呢條提示詞可能仲係過關,但生成出嚟嘅影片會係靜音嘅。
第二步,合規審核。
用 compliance-review-skill,檢查內容有冇觸碰平台紅線:真人肖像限制、版權 IP 限制、政治敏感、宗教、色情暴力、未成年人保護、仇恨歧視。呢一步唔打分,只有通過或者唔通過。
兩步審核都通過,先可以進入下一階段。任何一步唔通過,所有問題會合併成一份修改清單,一次性發返畀對應嘅 Agent 修改。
點解業務同合規要分開做,而唔係合成一步?
因為呢兩個維度嘅判斷邏輯完全唔同。業務審核睇嘅係專業質量——講戲嘅畫面感夠唔夠、設計嘅辨識度高唔高、提示詞嘅運鏡合唔合理。合規審核睇嘅係紅線——有冇觸碰平台唔允許嘅內容。一個係程度判斷(好唔好),一個係邊界判斷(得唔得)。撈埋一齊容易顧此失彼。
但分開審核嘅問題係效率——如果業務審核通過咗、合規審核冇通過,改完合規再返轉頭改業務,來來回回。所以我嘅設計係先做業務、再做合規,兩輪嘅問題合併成一份清單,Agent 一次性修改所有問題,修改完再重新行兩步審核。一次過拎曬所有問題,一次過改曬。
審核環節裏面最精妙嘅方法論叫「腦內預演」。
導演審核分鏡師提示詞嘅時候,唔係淨係睇文字——「嗯,格式啱,@引用寫咗,敍事描述式用咗,通過。」佢做嘅係:合埋眼,想像將呢條提示詞掉入 Seedance 2.0,生成出嚟嘅影片畫面係乜樣。然後將呢個諗像出嚟嘅畫面,同自己當初講戲時腦裏面嘅畫面做比對。一致就通過,唔一致就打返去,而且講清楚邊度唔一致、點解唔一致、應該點樣改。
呢個係唯一能夠喺實際生成之前發現問題嘅方法。等你真係掉咗入 Seedance 生成咗先發現唔啱,時間同算力已經使咗。
IX — 素材對應表同 @引用:視覺信息嘅系統化組織
到分鏡師呢一步,所有上游產物要被融合成一條可以直接複製到 Seedance 2.0 嘅提示詞。
呢度有一個你可能覺得瑣碎但其實極其關鍵嘅設計:素材對應表。
分鏡師要做嘅第一件事,唔係開始寫提示詞,而係建一張表。呢張表將每個 @引用編號同具體嘅素材一一對應——@圖片1 係林書白嘅角色參考圖,@圖片2 係幼年林書白,@圖片3 係楚講師,@圖片5 係簡陋住處,@圖片6 係青雲文院大門。編號順序係先人物再場景,按照 character-prompts 同 scene-prompts 裏面嘅出場順序排列。
點解需要呢張表?
因為一個項目嘅素材數量可以好多。一集可能會有 4 個角色、9 個場景,加埋 13 個素材。分鏡師喺寫唔同劇情點嘅提示詞時,需要反覆引用呢啲素材。如果冇一張統一嘅對應表,每條提示詞裏面嘅 @圖片1 可能指嘅係唔同嘅嘢——呢條裏面 @圖片1 係林書白,嗰條裏面 @圖片1 變咗場景。一旦混亂,Seedance 生成出嚟嘅畫面就會錯。
素材對應表係全文檔嘅總映射,保證每一條提示詞裏面嘅每一個 @引用都指向同一個素材。
呢度有一個容易犯嘅錯誤,我喺審核 Skill 裏面專門標註咗。
場景參考圖係用九宮格一次性生成嘅——一條提示詞掉入 Nano Banana,出嚟一張 3×3 嘅圖,9 個場景全部喺上面。但你實際使用嘅時候,需要將每個格子單獨裁出嚟,一個場景一張圖,分別上傳到 Seedance。所以喺素材對應表裏面,每個場景必須獨立編號為一個 @圖片——唔可以將成張九宮格當成一個 @圖片。
如果分鏡師犯咗呢個錯誤,導演喺審核時會直接 FAIL,因為 seedance-prompt-review-skill 裏面明確寫咗呢條檢查規則。
建好對應表之後,分鏡師喺每條提示詞嘅開頭聲明素材引用。呢度有另一條硬性要求:每個 @引用必須明確說明用途。
唔可以寫「參考 @圖片1」。太模糊。Seedance 唔知你要佢參考呢張圖嘅咩——人物形象?服裝?姿態?構圖?
必須寫「以 @圖片1 中嘅人物形象為主角」或者「場景參考 @圖片5 嘅空間佈局同光線氛圍」。用途越明確,Seedance 嘅理解越準確。
呢套 @引用系統嘅本質,係將視覺信息系統化咁組織起嚟。人物係人物,場景係場景,動態係動態,各自有各自嘅載體,各自有各自嘅編號,指向關係清清楚楚。
比起「將所有嘢塞入一條提示詞」好喺邊?好喺可複用——同一張角色參考圖可以喺唔同劇情點被唔同提示詞引用,角色嘅視覺一致性自動就保證咗。你唔需要喺每條提示詞裏面重新描述角色係咩樣,亦都唔需要祈求 Seedance 喺唔同提示詞裏面生成嘅同一個角色係一樣樣。參考圖鎖住咗視覺基準,提示詞淨係管描述變化。
X — 由一集到十集:設計資產嘅跨集累積
呢套系統唔係為做一集而設計嘅。
現實項目通常有多集。如果每做一集都由頭設計所有角色同場景,工作量線性增長。但實際上大多數角色同場景係跨集複用嘅——主角每集出現,核心場景前幾集反覆使用。
所以服化道生成嘅設計資產係全局共享、跨集累積嘅。
人物參考提示詞同場景參考提示詞分別存在 assets 文件夾下。做第一集時,服化道為所有新角色同新場景設計提示詞,寫入文件。做第二集時,導演分析完劇本後會喺人物清單同場景清單裏面標註每一項嘅「素材狀態」——新增、複用或者變體。
新增:第一次出場嘅角色或場景,需要服化道設計提示詞。複用:同已有素材完全一致,直接用,跳過設計。變體:同一角色但外觀有變化——例如換咗衫、年齡變化、受傷——需要服化道基於原版設計一個變體版本。
服化道淨係處理新增同變體,追加到文件尾。去到第五集、第十集,你已經積累咗一個完整嘅角色庫同場景庫,每做一集新嘅只需要處理增量。
同跨集累積配合嘅係 Resumable Subagents 嘅作用域設計。
同一集內,所有 Agent 嘅上下文係連續嘅——導演分析完劇本去審核服化道設計,再去審核分鏡提示詞,三次調用恢復同一個對話。佢記得自己講戲時嘅每一個細節設定,審核時唔會遺漏。
跨集時,所有 Agent 嘅狀態重置,重新創建。因為不同集數嘅劇情內容差異大,如果將五集嘅上下文全部累積喺一個 Agent 嘅對話裏面,信息量會溢出,反而影響判斷質量。新一集、新嘅上下文、乾淨嘅起點。
仲有一個設計決策值得講:點解成條流水線中間有一步係手動嘅?
生成參考圖呢一步——攞住服化道寫好嘅提示詞去 Nano Banana Pro 生成圖片——係成條鏈路裏面唯一需要你手動操作嘅環節。
呢個唔係冇得自動化。而係喺當前階段,文生圖嘅質量需要人眼把關。AI 能夠寫出好嘅提示詞,但生成出嚟嘅圖係咪「對味」——角色嘅氣質啱唔啱、場景嘅氛圍準唔準、某個細節需唔需要調整——只有你自己可以判斷。呢一步留畀人,係刻意嘅。
最後
回過頭睇呢套系統,佢做嘅嘢其實可以用一句話概括:將專業影視前期嘅工作流程翻譯成 AI 可以執行嘅協作系統。
四個角色各司其職,三次翻譯層層遞進。參考圖已見原則重新定義咗提示詞應該寫咩。敍事描述式匹配咗 Seedance 2.0 嘅理解方式。節拍密度同安全區將物理限制變成硬性規則。方法論、模板、示例、審核標準四個組件確保每一個 Agent 唔係憑直覺行事,而係喺一套專業規範內執行。雙重審核加評分制保證質量下限。跨集累積同 Resumable Subagents 解決咗由一集到十集嘅擴展性。
每一個決策都唔係拍拍個腦就定嘅。每一條規則背後都有一個「點解」。
工具會一直變。Seedance 2.0 之後會有 3.0,Nano Banana 之後會有新嘅模型。但將一個複雜任務拆解成專業分工、用規範約束質量、用審核閉環迭代優化嘅呢套思路——呢個唔會變。
希望你睇完呢篇文章見到嘅唔止係一套系統,而係系統背後嘅設計邏輯。因為如果你真正理解咗呢啲邏輯,你可以用同樣嘅方法論,去設計你哋自己嘅系統。
👑 呢篇文章裏面講解嘅 Seedance 2.0 分鏡師團隊嘅完整配置文件係付費內容,已經整理打包好放咗喺廢才俱樂部裏面。
原創唔易,由架構設計到方法論提煉到實戰迭代,呢套系統係我用真金白銀嘅 token 一篇一篇文章跑出嚟嘅。
多謝支持。歡迎加入廢才俱樂部。


從劇本到視頻:一套 Seedance 2.0 的分解方案
我搭了一套 AI 視頻分鏡系統。
你給它一個劇本,它幫你一路生成到 Seedance 2.0 可以直接用的視頻提示詞——中間的角色參考圖、場景參考圖這些設計資產的提示詞也一併搞定。
如果你想看完整的實操演示,下面這個視頻從頭到尾走了一遍全流程。
這篇文章講的是視頻裏沒有展開的東西——這套系統背後的設計邏輯。每一個角色為什麼存在,每一個技能包為什麼這樣配,每一條規則為什麼這樣定。
內容會比較密,建議你找個安靜的時間讀。
I — 四個角色,三次翻譯
從一個劇本到一條 Seedance 2.0 的視頻提示詞,中間發生了什麼?
大多數人的答案是"寫提示詞"。他們覺得這是一步——讀完劇本,腦子裏想一個畫面,然後用文字描述出來,丟給 Seedance 生成。
但如果你仔細拆解這個過程,你會發現中間其實有三次本質完全不同的"翻譯"。
第一次翻譯:從文字到畫面意圖。劇本寫的是"林書白在簡陋住處猛然驚醒",但這句話對應的畫面是什麼?是什麼景別?鏡頭從哪個角度切進來?他醒來的第一個動作是什麼?房間的光是怎樣的?這些東西劇本里沒寫,需要有人補上。這是導演乾的事。
第二次翻譯:從畫面意圖到靜態視覺資產。導演說"林書白穿着素色長衫,黑色短髮,清秀但沉穩",但這只是文字描述。Seedance 需要看到一張具體的圖才知道"林書白"到底長什麼樣。你還需要一張簡陋住處的場景參考圖,讓 Seedance 知道這個房間的佈局、光線、質感。這些靜態的視覺資產,需要有人設計出來。這是服化道乾的事。
第三次翻譯:從畫面意圖加上靜態資產,到動態視頻指令。導演講清楚了這場戲要拍什麼,服化道把角色和場景的參考圖都準備好了,現在需要有人把這一切融合成一條 Seedance 2.0 能理解的提示詞——@引用哪些素材,描述什麼動作、什麼運鏡、什麼情緒變化。這是分鏡師乾的事。
三次翻譯,三種完全不同的思維模式。
第一次是敍事思維——怎麼把故事拆成可執行的畫面段落。第二次是視覺設計思維——怎麼把文字描述轉化為精確的視覺形象。第三次是技術翻譯思維——怎麼用 Seedance 能理解的語言描述一段動態畫面。
你讓一個 Agent 同時做這三件事,結果就是每件事都做到六七十分。不是因為模型能力不夠,而是因為三種思維模式混在一起,互相干擾。導演在想怎麼拆故事的時候,不應該同時操心提示詞格式;分鏡師在寫運鏡的時候,不應該還要分心去設計角色的衣服紋理。
所以這套系統有四個角色。製片人是主 Agent,它自己不翻譯,只負責調度——讓導演、服化道、分鏡師在正確的時間做正確的事,然後確保每一步的交付質量。
不是為了讓系統看起來複雜。是為了讓每一步都乾淨。
II — 導演:唯一貫穿全流程的角色
三個 Sub-Agent 裏面,導演是最特殊的。
看一下他們的配置就知道了。服化道有 1 個技能包——art-design-skill,負責設計人物和場景提示詞。分鏡師有 1 個技能包——seedance-storyboard-skill,負責編寫 Seedance 提示詞。
導演有 5 個。
director-skill,負責劇本分析、劇情拆解、講戲。script-analysis-review-skill,負責審核自己的講戲質量。art-direction-review-skill,負責審核服化道的設計質量。seedance-prompt-review-skill,負責審核分鏡師的提示詞質量。compliance-review-skill,負責審核所有階段的內容合規性。
你可能會問:為什麼不單獨設一個審核 Agent?為什麼讓導演一個人幹創作又幹審核?
因為審核需要創作意圖的上下文。
導演在講戲的時候,腦子裏有一個非常具體的畫面——他知道這場戲的核心情緒是什麼,他知道這個鏡頭為什麼要從側面切進來而不是正面,他知道光應該從左邊打還是右邊打。這些細微的意圖,只有他自己最清楚。
如果你讓一個獨立的審核 Agent 來做質量把控,它沒有這些上下文。它只能看到規則和產出,判斷產出是否符合規則。但"符合規則"和"忠實於導演意圖"是兩回事。一條提示詞可以完美符合所有格式要求,但跟導演想要的畫面差了十萬八千里。
讓導演自己審自己的講戲、審服化道的設計、審分鏡師的提示詞,他每一次審核都是在拿產出跟自己腦子裏的畫面做比對。他知道"對不對",因為"對"的標準就在他自己的上下文裏。
這也是為什麼我用了 Resumable Subagents 機制——導演第一次被調用時分析劇本講戲,系統記錄他的唯一 ID。後面再調用他審核服化道、審核分鏡師,恢復的是同一個對話上下文。他還記得自己當初講戲時每一個細節的設定。
導演是這套系統裏唯一一個從頭到尾都在場的角色。他既是創意的源頭,也是質量的守門人。
III — 講戲:把文字變成畫面指令
導演做的最核心的事叫"講戲"。
這個概念直接來自傳統影視。片場開拍之前,導演會把演員叫到一邊,從頭到尾把這場戲講一遍:你從這裏進畫面,先看一眼窗外,然後轉身走向桌子,說台詞的時候語氣要剋制,鏡頭會從你的側臉推到你手上的信,光從你左邊的窗户打進來。
講戲不是在複述劇本。劇本寫的是"他得知了真相",導演講的是"他拆開信封,目光從左掃到右,手指逐漸收緊,信紙的褶皺被捏出來,嘴唇微微顫抖但沒有說話"。
在我的 director-skill 裏,講戲必須覆蓋五個維度:
畫面內容——誰在哪裏,環境是什麼樣。人物動作——具體的肢體動作、走位、表情變化。台詞聲音——說了什麼話、什麼語氣、有什麼環境音。鏡頭感覺——什麼景別、鏡頭怎麼運動、從哪到哪。光影氛圍——什麼光源、什麼色調、什麼情緒。
但這五個維度不是分條列舉的。
這一點非常關鍵。講戲的輸出是一段自然流暢的敍述,五個維度融合在一起,就像導演真的在跟你說話一樣。
為什麼不分條?因為分條列舉會讓信息碎片化。分鏡師拿到一個分條列舉的講戲——"動作:站起身走向門口。鏡頭:中景推到近景。光影:冷藍色調。"——他需要自己去重組這些碎片,想象它們合在一起是什麼畫面。這個重組過程中,維度之間的關聯很容易丟失——鏡頭的推進和人物的走動是同步的還是有先後?光線變化是在動作之前還是之後?
融合敍述不存在這個問題。"他緩緩站起身,鏡頭從他側臉的特寫開始向後拉開,冷藍色的微光從窗口斜射進來,在他轉身走向門口的過程中,光線逐漸從臉上滑落到背影上。"——所有維度在同一條時間線上,關係一目瞭然。
還有一條硬性原則:用具體物理動作,不用抽象概念。
"她很疲憊"——Seedance 不理解疲憊是什麼畫面。"她揉了揉太陽穴,目光從屏幕移開,靠向椅背"——這是 Seedance 能直接執行的動作。"氣氛緊張"——沒有畫面。"兩人面對面站立,一個身體前傾咬緊下巴,另一個雙臂交叉面無表情"——這有畫面。
導演講戲的質量,直接決定了後面所有環節的上限。服化道根據講戲本設計角色和場景,如果講戲裏的外觀描述是模糊的,設計出來的參考圖就不會準確。分鏡師根據講戲本寫 Seedance 提示詞,如果講戲裏的動作和運鏡是含糊的,提示詞就會偏離意圖。
整條流水線的精度,從這裏開始。
IV — 參考圖已見原則:一條規則重新定義提示詞應該寫什麼
現在講這套系統裏最重要的一條設計原則。
Seedance 2.0 有一個能力,被絕大多數人忽略了:它能"看到"你通過 @引用傳進去的參考圖。
不是"參考一下大概的意思",是真的看到了——人物的五官、髮型、衣服紋理、體態氣質,場景的空間佈局、光線方向、色調質感,它全都能識別。
這個能力徹底改變了提示詞應該寫什麼。
如果 Seedance 已經看到了林書白的參考圖,你在提示詞裏再寫"一個穿素色長衫的年輕男子,黑色短髮,面容清秀"——這些全是廢話。你在重複它已經知道的信息,不但沒有幫助,反而佔用了提示詞的有效空間。
參考圖已見原則說的是:參考圖負責承載靜態信息,提示詞只負責描述"變化"——動作、運鏡、情緒轉變、光影變化。
這條原則是整套系統分工邏輯的根基。
因為有了這條原則,服化道這個角色就必須獨立存在。靜態視覺信息需要高質量的參考圖來承載,參考圖的質量直接影響 Seedance 的生成效果。如果你的角色參考圖畫得不清楚——比如側面的特徵沒展示出來,或者服裝細節模糊——那 Seedance 在生成視頻的時候就只能靠猜,結果自然不可控。
服化道的工作就是確保每一張參考圖都是高質量的——角色有面部特寫加三視圖,Seedance 不管從什麼角度生成都有參考;場景有完整的空間佈局和光影信息,運鏡怎麼轉都不會穿幫。
因為有了這條原則,分鏡師就可以把全部精力集中在動態描述上。他不需要在提示詞裏浪費字數描述角色長什麼樣、場景什麼氛圍,他只需要寫:這個角色做了什麼動作,鏡頭怎麼運動,情緒從什麼狀態變成什麼狀態。
信息密度直接提高了一倍不止。
一條沒有參考圖的提示詞,可能 60% 的內容在描述靜態信息,40% 在描述動態內容。一條基於參考圖已見原則寫的提示詞,100% 的內容都在描述動態內容。你覺得哪條提示詞生成出來的視頻更好?
把對的信息放在對的載體上。這就是這條原則的本質。
V — 敍事描述式:為什麼用講故事的方式寫提示詞
確定了"提示詞只寫變化"之後,下一個問題是:怎麼寫這些變化?
我的答案是敍事描述式——用完整的段落、連貫的敍述,像寫電影腳本一樣描述畫面從頭到尾發生了什麼。
不是關鍵詞堆疊。不是"中景, 冷色調, 緩慢推鏡, 緊張氛圍"。
這不是風格偏好。這是一個技術選擇。
Seedance 2.0 的底層是一個理解自然語言的模型。它最擅長的事情,是理解一段連貫的敍事——誰做了什麼,然後發生了什麼,與此同時鏡頭怎麼運動。它最不擅長的事情,是從一堆離散的標籤裏推斷出它們之間的關係和優先級。
你給它"中景, 冷色調, 緩慢推鏡",它需要自己去猜:冷色調是從一開始就有還是逐漸變冷?推鏡是先推還是後推?推鏡的同時人物在做什麼?標籤之間的關係是空白的,Seedance 必須自己填空,結果自然不可控。
你給它一段敍事——"灰藍色的清晨微光從左側窗口斜射入昏暗的室內,鏡頭從人物臉部側面特寫開始,他猛然睜開雙眼,額頭滲出汗珠,鏡頭緩緩向後拉開,他坐在木牀上,胸口起伏逐漸平穩"——所有的信息都在一條連貫的時間線上,先後關係、因果關係、同步關係一目瞭然。
敍事描述式還有一個被低估的好處:它天然帶有節奏。
"鏡頭從側面特寫開始"——慢。"他猛然睜開雙眼"——快。"額頭滲出汗珠"——細節停頓。"鏡頭緩緩向後拉開"——又慢下來。這種快慢交替的節奏感,會直接影響 Seedance 生成視頻的節奏。而關鍵詞堆疊是沒有節奏的,所有信息平鋪,Seedance 只能生成一種均勻的、沒有起伏的畫面。
所以在我的系統裏,從導演講戲、到服化道設計參考圖提示詞、到分鏡師寫最終的 Seedance 提示詞,全鏈路都使用敍事描述式。不是某一個環節用,是所有環節都用。因為上游的敍事風格會傳遞到下游——導演用敍事風格講戲,分鏡師讀到的就是一個有畫面感的敍述,他翻譯成 Seedance 提示詞的時候自然也會保持這種風格。
VI — Skill 的設計哲學:不是告訴它"你是導演"就夠了
到這裏,你已經知道了系統的角色分工和核心原則。現在我要講一個容易被忽略但極其關鍵的層面:Skill 的設計。
你可能覺得,給一個 AI Agent 說"你是一個資深導演,去分析這個劇本"就夠了。
不夠。差遠了。
"你是一個導演"只告訴了 AI 它的身份,沒有告訴它怎麼做、做到什麼標準、什麼可以做什麼不可以做。AI 會根據它訓練數據裏對"導演"的理解去執行,但這個理解是泛泛的、沒有邊界的。它可能講出一段很文學的戲但完全不能轉化成視頻提示詞,它可能遺漏了光影描述因為"導演不一定要講光影"。
所以每一個 Skill 都包含四個組件。這不是隨便定的,是反覆測試之後確定的最小必要結構。
方法論——定義"什麼是對的"。
以分鏡師的 seedance-prompt-methodology 為例。它不是在教分鏡師怎麼寫提示詞,而是在劃定邊界:參考圖已見原則(不要重複靜態內容)、敍事描述式(不要關鍵詞堆疊)、節拍密度約束(1拍≈2.5秒)、頭尾安全區(前後0.5秒不放關鍵內容)、@引用必須指定用途、不能使用否定句。
方法論解決的問題是:讓 AI 知道什麼是好的,什麼是不允許的。沒有方法論的 Agent 會憑"直覺"行事,質量完全不可預測。
模板——定義"輸出長什麼樣"。
導演的產出模板 director-analysis-template 定義了講戲本的格式:每個劇情點包含人物、場景、鏡頭組、時長建議、導演闡述。服化道的產出模板 art-design-template 定義了人物提示詞格式(左特寫+右三視圖+白色背景)和場景提示詞格式(宮格佈局+視覺規範+逐格描述)。分鏡師的產出模板 seedance-prompts-template 定義了素材對應表和每個劇情點的提示詞結構。
模板不是形式主義。模板是信息傳遞的接口。
導演的產出格式決定了服化道能讀到什麼——人物清單裏有外觀關鍵詞,服化道才知道角色應該長什麼樣。服化道的產出格式決定了分鏡師能引用什麼——場景按宮格編號獨立存儲,分鏡師才能在 @引用裏精確關聯。如果上游的輸出格式不統一,下游就要花大量精力去解析和猜測,效率和準確性都會下降。
整條流水線能跑通,靠的就是模板之間的嚴格對接。
示例——定義"好的標準長什麼樣"。
這是最容易被低估的組件。
你告訴 AI"人物提示詞要詳細、具體、有畫面感",它會生成一段它認為"詳細具體有畫面感"的文字。但它認為的好和你認為的好,往往差很遠。
但如果你給它看一個 9 分的人物提示詞長什麼樣——具體到每一根髮絲的走向、每一條服裝褶皺的材質、鞋子的款式和跟高、配飾的位置和數量——它直接就知道了"詳細"意味着什麼精度。
character-prompt-examples 裏的示例,每一條都是完整可用的提示詞,直接複製到文生圖工具就能生成。不是抽象的指南,是實打實的標杆。seedance-prompt-examples 是 Seedance 2.0 官方團隊自己寫的模板,代表了平台方認為最優的提示詞風格——這是最權威的參考基準。
AI 對具體示例的理解能力遠強於對抽象規則的理解能力。這一點我測試過很多次,結論非常明確。
審核標準——定義"怎麼判斷夠不夠好"。
每個階段有自己的業務審核 Skill,維度完全不同。
導演自審用 script-analysis-review-skill,檢查的是講戲質量:畫面感清不清晰、動作鏈完不完整、節拍密度合不合理、鏡頭能不能連續實現、光影描述夠不夠具體、情緒傳達準不準確、前後銜接自不自然。
服化道審核用 art-direction-review-skill,檢查的是設計質量:人物造型跟導演描述一不一致、角色辨識度夠不夠、描述有沒有歧義("清秀"會不會被理解成女性化?)、場景氛圍跟講戲本匹不匹配、宮格之間風格統不統一。
分鏡審核用 seedance-prompt-review-skill,檢查的是提示詞質量:忠實度、畫面還原度、動作可執行性、鏡頭可實現性、Seedance 友好度、音頻設計、情緒準確性。
為什麼不能用同一套標準審核所有階段?因為每個階段產出的東西性質完全不同——講戲本是畫面描述,參考圖提示詞是視覺設計,Seedance 提示詞是動態指令——判斷"好不好"的維度自然不同。
但合規審核只有一個——compliance-review-skill。因為平台紅線是通用的。不管是講戲本還是設計提示詞還是 Seedance 提示詞,真人肖像就是不能用,版權 IP 就是不能碰,暴力色情就是不能有。同一套規則適用於所有階段,所以只需要一個 Skill。
方法論告訴 AI 做的邊界在哪,模板告訴它輸出長什麼樣,示例告訴它好的標準是什麼,審核標準告訴它怎麼判斷夠不夠好。這四個組件缺任何一個,Agent 的表現都會明顯下降。
VII — 節拍密度和安全區:寫進規則的物理限制
AI 視頻生成有物理限制。
不是模型的限制,不是平台的限制,是"在有限時間內能表達多少內容"的物理限制。你不可能在一秒鐘內說完一段話,Seedance 2.0 也不可能在兩秒鐘內完成三個複雜動作。
我反覆生成、逐幀比對了幾百條視頻之後,總結出一條底層規律:
每個連續鏡頭內,1 拍大約等於 2.5 秒屏幕時間。
一個物理動作算一拍——"站起身"是 1 拍,"站起身 → 走到門前 → 推開門"是 3 拍。一次鏡頭運動算一拍——推鏡、拉鏡、環繞,各算 1 拍。一句短台詞(10 字以內)算一拍,超過 10 字按 2 拍。同時發生的事合併——"猛然睜眼,額頭滲汗"發生在同一時刻,算 1 拍。
如果你在一個 5 秒的單鏡頭裏塞了 4 拍動作,生成出來的畫面就會糊、跳、不自然。每個動作分到的時間太短,AI 來不及把過渡做清楚。
但節拍密度約束只作用於每個連續鏡頭內部。
如果你的段落是多鏡頭結構——比如一段 15 秒的蒙太奇,包含 5 個子畫面,每個子畫面 2-3 秒——那每個子畫面各自遵守密度約束就好,總的節拍數可以遠超單鏡頭的上限。就像電影裏的快速剪輯:每個鏡頭內容簡單,但鏡頭之間切換很快,總信息量很大。
除了節拍密度,還有頭尾安全區。
Seedance 每次生成的前 0.5 秒和後 0.5 秒,畫面的穩定性和質量不如中間段。如果你把關鍵動作放在開頭的第一幀,很可能被截斷或者變形。如果你把收尾動作卡在最後一幀,剪輯的時候沒有餘地。
所以規則是:開頭給環境或主體一個靜態建立,讓畫面先穩住。結尾讓動作自然收住,或者保持一個可銜接的姿態。
這些規律不是經驗之談,不是"我覺得大概是這樣"。是一幀一幀看了幾百條生成結果之後總結出來的硬性規律。
關鍵在於:我把這些規律寫進了方法論和審核標準裏,而不是作為一條建議貼在某個地方。分鏡師寫提示詞的時候,方法論裏明確規定了節拍密度約束和安全區規則。導演審核提示詞的時候,審核 Skill 裏有專門的"動作可執行性"維度,會逐條檢查每個連續鏡頭內的節拍密度是否合理。
不合格的提示詞會被打回重寫。不是建議,是硬性規則。
VIII — 雙重審核和評分制:怎麼在生成之前發現問題
審核環節是我在這套系統裏花心思最多的部分。
一個基本事實:AI 生成的內容,不管模型多強,不可能第一次就完美。創作本身就不是一次成型的過程。但如果沒有系統化的審核機制,你就只能靠"生成→看效果→不滿意→換個提示詞再試"的隨機試錯。
我的做法是在系統內部建審核閉環。每個階段完成後,導演做兩步審核。
第一步,業務審核。
這一步用的是階段專屬的審核 Skill——審導演自己的講戲用 script-analysis-review-skill,審服化道的設計用 art-direction-review-skill,審分鏡師的提示詞用 seedance-prompt-review-skill。每個維度單獨打分,1 到 10 分。
通過條件是:平均分 ≥ 8,且任何單項不低於 6。
為什麼用評分制而不是簡單的通過/不通過?
因為通過/不通過的顆粒度太粗。AI 做審核的時候,如果只需要給一個"通過"或"不通過",它很容易放水——"差不多就行了"。但如果要求它對每一個維度單獨打分,它就必須逐個維度做判斷,不能含糊過去。
為什麼是"平均≥8 且單項不低於6"?平均≥8 保證整體質量。單項不低於 6 防止木桶效應——一條提示詞可能忠實度 9 分、畫面還原 9 分,但音頻設計只有 3 分,因為分鏡師完全忘了寫背景音樂和環境音效。如果只看平均分,這條提示詞可能還是過了,但生成出來的視頻會是啞的。
第二步,合規審核。
用 compliance-review-skill,檢查內容有沒有觸碰平台紅線:真人肖像限制、版權 IP 限制、政治敏感、宗教、色情暴力、未成年人保護、仇恨歧視。這一步不打分,只有通過或不通過。
兩步審核都通過,才能進入下一階段。任何一步不通過,所有問題會被合併成一份修改清單,一次性發回給對應的 Agent 修改。
為什麼業務和合規要分開做,而不是合成一步?
因為這兩個維度的判斷邏輯完全不同。業務審核看的是專業質量——講戲的畫面感夠不夠、設計的辨識度高不高、提示詞的運鏡合不合理。合規審核看的是紅線——有沒有觸碰平台不允許的內容。一個是程度判斷(好不好),一個是邊界判斷(行不行)。混在一起容易顧此失彼。
但分開審核的問題是效率——如果業務審核通過了、合規審核沒通過,改完合規再回來改業務,來回折騰。所以我的設計是先做業務、再做合規,兩輪的問題合併成一份清單,Agent 一次性修改所有問題,修改完再重新走兩步審核。一次拿到所有問題,一次改完。
審核環節裏最精妙的方法論叫"腦內預演"。
導演審核分鏡師提示詞的時候,不是在看文字——"嗯,格式對了,@引用寫了,敍事描述式用了,通過。"他做的是:閉上眼,想象把這條提示詞丟進 Seedance 2.0,生成出來的視頻畫面是什麼樣的。然後拿這個想象出來的畫面,跟自己當初講戲時腦子裏的畫面做比對。一致就通過,不一致就打回去,並且說清楚哪裏不一致、為什麼不一致、應該怎麼改。
這是唯一能在實際生成之前發現問題的方法。等你真的丟進 Seedance 生成了再發現不對,時間和算力已經花出去了。
IX — 素材對應表和 @引用:視覺信息的系統化組織
到分鏡師這一步,所有上游產物要被融合成一條可以直接複製到 Seedance 2.0 的提示詞。
這裏面有一個你可能覺得瑣碎但其實極其關鍵的設計:素材對應表。
分鏡師要做的第一件事,不是開始寫提示詞,而是建一張表。這張表把每個 @引用編號跟具體的素材一一對應——@圖片1 是林書白的角色參考圖,@圖片2 是幼年林書白,@圖片3 是楚講師,@圖片5 是簡陋住處,@圖片6 是青雲文院大門。編號順序是先人物再場景,按照 character-prompts 和 scene-prompts 裏的出場順序排列。
為什麼需要這張表?
因為一個項目的素材數量可以很多。一集可能有 4 個角色、9 個場景,加起來 13 個素材。分鏡師在寫不同劇情點的提示詞時,需要反覆引用這些素材。如果沒有一張統一的對應表,每條提示詞裏的 @圖片1 可能指的是不同的東西——這條裏 @圖片1 是林書白,那條裏 @圖片1 變成了場景。一旦混亂,Seedance 生成出來的畫面就會錯。
素材對應表是全文檔的總映射,保證每一條提示詞裏的每一個 @引用都指向同一個素材。
這裏有一個容易犯的錯誤,我在審核 Skill 裏專門標註了。
場景參考圖是用九宮格一次性生成的——一條提示詞丟進 Nano Banana,出來一張 3×3 的圖,9 個場景全在上面。但你實際使用的時候,需要把每個格子單獨裁出來,一個場景一張圖,分別上傳到 Seedance。所以在素材對應表裏,每個場景必須獨立編號為一個 @圖片——不能把整張九宮格當成一個 @圖片。
如果分鏡師犯了這個錯誤,導演在審核時會直接 FAIL,因為 seedance-prompt-review-skill 裏明確寫了這條檢查規則。
建好對應表之後,分鏡師在每條提示詞的開頭聲明素材引用。這裏有另一條硬性要求:每個 @引用必須明確說明用途。
不能寫"參考 @圖片1"。太模糊。Seedance 不知道你要它參考這張圖的什麼——人物形象?服裝?姿態?構圖?
必須寫"以 @圖片1 中的人物形象為主角"或者"場景參考 @圖片5 的空間佈局和光線氛圍"。用途越明確,Seedance 的理解越準確。
這套 @引用系統的本質,是把視覺信息系統化地組織起來。人物是人物,場景是場景,動態是動態,各自有各自的載體,各自有各自的編號,指向關係清清楚楚。
比"把所有東西塞進一條提示詞"好在哪?好在可複用——同一張角色參考圖可以在不同劇情點被不同提示詞引用,角色的視覺一致性自動就保證了。你不需要在每條提示詞裏重新描述角色長什麼樣,也不需要祈禱 Seedance 在不同提示詞裏生成的同一個角色長得一樣。參考圖鎖住了視覺基準,提示詞只管描述變化。
X — 從一集到十集:設計資產的跨集累積
這套系統不是為做一集而設計的。
現實項目通常有多集。如果每做一集都從頭設計所有角色和場景,工作量線性增長。但實際上大多數角色和場景是跨集複用的——主角每集出現,核心場景前幾集反覆使用。
所以服化道生成的設計資產是全局共享、跨集累積的。
人物參考提示詞和場景參考提示詞分別存在 assets 文件夾下。做第一集時,服化道為所有新角色和新場景設計提示詞,寫入文件。做第二集時,導演分析完劇本後會在人物清單和場景清單裏標註每項的"素材狀態"——新增、複用還是變體。
新增:第一次出場的角色或場景,需要服化道設計提示詞。複用:跟已有素材完全一致,直接用,跳過設計。變體:同一角色但外觀有變化——比如換了衣服、年齡變化、受傷——需要服化道基於原版設計一個變體版本。
服化道只處理新增和變體,追加到文件末尾。到了第五集、第十集,你已經積累了一個完整的角色庫和場景庫,每做一集新的只需要處理增量。
與跨集累積配合的是 Resumable Subagents 的作用域設計。
同一集內,所有 Agent 的上下文是連續的——導演分析完劇本去審核服化道設計,再去審核分鏡提示詞,三次調用恢復同一個對話。他記得自己講戲時的每一個細節設定,審核時不會遺漏。
跨集時,所有 Agent 的狀態重置,重新創建。因為不同集數的劇情內容差異大,如果把五集的上下文全累積在一個 Agent 的對話裏,信息量會溢出,反而影響判斷質量。新一集、新的上下文、乾淨的起點。
還有一個設計決策值得說:為什麼整條流水線中間有一步是手動的?
生成參考圖這一步——拿着服化道寫好的提示詞去 Nano Banana Pro 生成圖片——是整條鏈路裏唯一需要你手動操作的環節。
這不是沒法自動化。而是在當前階段,文生圖的質量需要人眼把關。AI 能寫出好的提示詞,但生成出來的圖是否"對味"——角色的氣質對不對、場景的氛圍準不準、某個細節需不需要調整——只有你自己能判斷。這一步留給人,是刻意的。
最後
回過頭看這套系統,它做的事情其實可以用一句話概括:把專業影視前期的工作流程翻譯成了 AI 可以執行的協作系統。
四個角色各司其職,三次翻譯層層遞進。參考圖已見原則重新定義了提示詞應該寫什麼。敍事描述式匹配了 Seedance 2.0 的理解方式。節拍密度和安全區把物理限制變成了硬性規則。方法論、模板、示例、審核標準四個組件確保每一個 Agent 不是在憑直覺行事,而是在一套專業規範內執行。雙重審核加評分制保證質量下限。跨集累積和 Resumable Subagents 解決了從一集到十集的擴展性。
每一個決策都不是拍腦袋定的。每一條規則背後都有一個"為什麼"。
工具會一直在變。Seedance 2.0 之後會有 3.0,Nano Banana 之後會有新的模型。但把一個複雜任務拆解成專業分工、用規範約束質量、用審核閉環迭代優化的這套思路——這個不會變。
希望這篇文章讓你看到的不只是一套系統,而是系統背後的設計邏輯。因為如果你真正理解了這些邏輯,你可以用同樣的方法論,去設計你自己的系統。
👑 這篇文章裏講解的 Seedance 2.0 分鏡師團隊的完整配置文件屬於付費內容,已整理打包放在廢才俱樂部中。
原創不易,從架構設計到方法論提煉到實戰迭代,這套系統是我用真金白銀的 token 一篇一篇文章跑出來的。
感謝支持。歡迎加入廢才俱樂部。
