從劇本到視頻：一套 Seedance 2.0 的分鏡師 Agent團隊方案

作者：廢才俱樂部Club

日期：2026年3月4日上午10:01

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

呢篇文章詳解咗一套基於 Seedance 2.0 嘅 AI 視頻分鏡系統，透過四個專業角色（製片人、導演、服化道、分鏡師）將劇本轉化為高質量嘅視頻提示詞，核心原則是參考圖已見原則和敍事描述式。

整理版摘要

呢篇文章係由廢才寫嘅，佢分享咗自己搭建嘅一套 AI 視頻分鏡系統。佢發現由劇本到 Seedance 2.0 嘅視頻提示詞，中間其實有三次唔同嘅翻譯：從文字到畫面意圖、從畫面意圖到靜態視覺資產、再到動態視頻指令。大多數人只係一步到位寫提示詞，結果質量唔穩定。所以佢設計咗四個角色——製片人、導演、服化道、分鏡師，各自負責唔同階段，確保每一步嘅質量。整體結論係：要得到高質量嘅 AI 視頻，需要將專業影視前期嘅工作流程拆解成 AI 可以執行嘅協作系統，用參考圖已見原則減少提示詞嘅冗餘，用敍事描述式匹配模型嘅理解方式，並用審核閉環迭代優化。

呢套系統嘅關鍵設計包括：導演作為唯一貫穿全流程嘅角色，負責講戲同審核；服化道根據講戲設計角色同場景參考圖；分鏡師基於參考圖已見原則，只寫動態變化，唔重複靜態資訊。仲有節拍密度約束同頭尾安全區呢啲物理限制。最終每個環節都經過雙重審核（業務+合規），用評分制確保質量。

總括嚟講，呢套系統唔係為咗做一集而設計，而係考慮到跨集累積設計資產，可以擴展到多集。作者強調工具會變，但呢套思路——拆解任務、專業分工、規範約束、審核閉環——先係最值得學習嘅。

核心結論：將劇本轉為視頻提示詞需要三次翻譯，對應四個專業角色，而非一步到位。
方法：導演負責講戲（五維度融合敍述），服化道設計參考圖，分鏡師基於參考圖已見原則只寫動態。
差異：參考圖已見原則顛覆咗傳統提示詞寫法，靜態信息由參考圖承載，提示詞100%描述變化。
啟發：Skill 設計必須包含方法論、模板、示例、審核標準四個組件，否則 Agent 表現下降。
可行動點：應用節拍密度約束（1拍≈2.5秒）和頭尾安全區（前後0.5秒不留關鍵內容）來提升生成視頻質素。

整理重點

系統核心：四個角色對應三次翻譯

大多數人覺得由劇本到 Seedance 提示詞只係一步——讀完劇本寫一段描述就得。但作者拆解發現，中間其實有三次本質唔同嘅翻譯：第一次係從文字到畫面意圖（導演嘅工作），第二次係從畫面意圖到靜態視覺資產（服化道嘅工作），第三次係從畫面意圖加上靜態資產到動態視頻指令（分鏡師嘅工作）。

三次翻譯需要三種完全唔同嘅思維模式——敍事思維、視覺設計思維、技術翻譯思維——如果夾埋一個 Agent 做，每件事都只會做到六七十分。

所以作者設計咗四個角色：製片人係主 Agent，負責調度；導演、服化道、分鏡師各自負責一個翻譯階段。製片人唔自己做翻譯，只確保每一步嘅交付質量，令每一步都乾淨俐落。

整理重點

導演：從頭到尾嘅創意守門人

導演係唯一貫穿全流程嘅角色，佢有5個技能包，而服化道同分鏡師各自得1個。導演要做嘅最核心嘢叫「講戲」——將劇本變成自然流暢嘅畫面敍述，覆蓋畫面內容、人物動作、台詞聲音、鏡頭感覺、光影氛圍五個維度，而且必須融合成一段連貫描述，唔可以分條列舉。

講戲嘅輸出係一段自然流暢嘅敍述，五個維度融合喺同一條時間線上，咁樣分鏡師先唔使重組碎片，維度之間嘅關聯唔會遺失。

導演仲要負責審核——自審講戲、審服化道嘅設計、審分鏡師嘅提示詞。點解唔揾獨立審核 Agent？因為審核需要創作意圖嘅上下文，導演腦入面有最清楚嘅畫面，佢先知道「對唔對」。作者用咗 Resumable Subagents 機制，令導演每次審核都可以恢復返當初講戲時嘅對話上下文。

導演有5個技能包：director-skill、script-analysis-review-skill、art-direction-review-skill、seedance-prompt-review-skill、compliance-review-skill。
講戲係用融合敍述，唔可以分條列舉，因為分條會令維度之間嘅關聯丟失。
導演審核時會做「腦內預演」：閉眼想像提示詞生成出嚟嘅畫面，同上遊嘅創意意圖做比對。

整理重點

參考圖已見原則同敍事描述式

Seedance 2.0 可以「睇到」你 @引用嘅參考圖——人物五官、場景佈局全部識別。呢個能力改變咗提示詞應該寫乜：參考圖負責承載靜態信息，提示詞只描述變化。呢個就係「參考圖已見原則」。

一條冇參考圖嘅提示詞可能60%係靜態描述，但用參考圖已見原則之後，100%嘅內容都係動態變化。

至於點樣寫變化，作者主張「敍事描述式」——用完整段落、連貫敍述，好似寫電影腳本咁。唔好用關鍵詞堆疊（例如「中景, 冷色調, 緩慢推鏡」），因為 Seedance 最擅長理解自然語言嘅連貫敍事，而唔係從標籤推斷關係。

敍事描述式仲有個好處：佢天然帶有節奏——快慢交替會直接影響 Seedance 生成嘅視頻節奏，而關鍵詞堆疊只會產生均勻冇起伏嘅畫面。

整理重點

Skill 設計同實戰規則

每個 Skill 包含四個組件：方法論（定義點樣先叫「啱」）、模板（定義輸出格式）、示例（定義好嘅標準）、審核標準（定義點判斷夠唔夠好）。缺任何一個，Agent 表現都會明顯下降。

AI 對具體示例嘅理解能力遠強於對抽象規則嘅理解能力——示例係最被低估嘅組件。

實戰層面有物理限制：每個連續鏡頭內，1拍大約等於2.5秒，一個物理動作算一拍，鏡頭運動算一拍。仲有頭尾安全區：開頭同結尾各0.5秒唔好放關鍵內容。素材對應表確保每個 @引用指向同一素材，而且每個引用必須明確用途。

節拍密度約束：一個5秒單鏡頭最多放2拍（例如「站起身→走到門前」），否則畫面會糊。
跨集累積：服化道嘅設計資產係全局共享，每集只處理新增同變體，唔使由頭做起。
審核用評分制：平均分≥8且單項不低於6，合規審核只有通過/不通過。

由劇本到影片：一套 Seedance 2.0 嘅分解方案

我砌咗一套 AI 影片分鏡系統。

你畀佢一個劇本，佢幫你一路生成到 Seedance 2.0 可以直接用嘅影片提示詞——中間嘅角色參考圖、場景參考圖呢啲設計資產嘅提示詞都一併搞掂。

如果你想睇完整嘅實操示範，下面呢條片由頭到尾行咗一次全流程。

呢篇文章講嘅係影片裏面冇展開嘅嘢——呢套系統背後嘅設計邏輯。每一個角色點解存在，每一個技能包點解係咁配，每一條規則點解係咁定。

內容會比較密，建議你揀個靜啲嘅時間讀。

I — 四個角色，三次翻譯

由一個劇本到一條 Seedance 2.0 嘅影片提示詞，中間發生咗啲咩？

大多數人嘅答案係「寫提示詞」。佢哋覺得呢一步就得——讀完劇本，腦裏面諗一個畫面，然後用文字描述出嚟，掉畀 Seedance 生成。

但如果你仔細拆解呢個過程，你會發現中間其實有三次本質完全唔同嘅「翻譯」。

第一次翻譯：由文字到畫面意圖。劇本寫嘅係「林書白喺簡陋住處猛然驚醒」，但呢句話對應嘅畫面係咩？係乜嘢景別？鏡頭由邊個角度切入？佢醒來第一個動作係咩？間房嘅光係點？呢啲嘢劇本冇寫，需要有人補上。呢個係導演做嘅嘢。

第二次翻譯：由畫面意圖到靜態視覺資產。導演話「林書白着住素色長衫，黑色短髮，清秀但沉穩」，但呢個只係文字描述。Seedance 需要見到一張具體嘅圖先至知「林書白」究竟係咩樣。仲需要一張簡陋住處嘅場景參考圖，等 Seedance 知道呢間房嘅佈局、光線、質感。呢啲靜態嘅視覺資產，需要有人設計出嚟。呢個係服化道做嘅嘢。

第三次翻譯：由畫面意圖加上靜態資產，到動態影片指令。導演講清楚咗呢場戲要拍咩，服化道將角色同場景嘅參考圖都準備好，而家需要有人將呢一切融合成一條 Seedance 2.0 能夠理解嘅提示詞——@引用邊啲素材，描述咩動作、咩運鏡、咩情緒變化。呢個係分鏡師做嘅嘢。

三次翻譯，三種完全唔同嘅思維模式。

第一次係敍事思維——點樣將故事拆成可執行嘅畫面段落。第二次係視覺設計思維——點樣將文字描述轉化為精確嘅視覺形象。第三次係技術翻譯思維——點樣用 Seedance 能夠理解嘅語言描述一段動態畫面。

你叫一個 Agent 同時做呢三件事，結果就係每件事都做到六七十分。唔係因為模型能力唔夠，而係因為三種思維模式撈埋一齊，互相干擾。導演喺諗點樣拆故事嘅時候，唔應該同時操心提示詞格式；分鏡師喺寫運鏡嘅時候，唔應該仲要分心去設計角色嘅衫紋理。

所以呢套系統有四個角色。製片人係主 Agent，佢自己唔翻譯，淨係負責調度——等導演、服化道、分鏡師喺啱嘅時間做啱嘅事，然後確保每一步嘅交付質量。

唔係為咗令系統睇起嚟複雜。係為咗令每一步都乾淨。

II — 導演：唯一貫穿全流程嘅角色

三個 Sub-Agent 裏面，導演係最特別嘅。

睇下佢哋嘅配置就知。服化道有 1 個技能包——art-design-skill，負責設計人物同場景提示詞。分鏡師有 1 個技能包——seedance-storyboard-skill，負責編寫 Seedance 提示詞。

導演有 5 個。

director-skill，負責劇本分析、劇情拆解、講戲。script-analysis-review-skill，負責審核自己嘅講戲質量。art-direction-review-skill，負責審核服化道嘅設計質量。seedance-prompt-review-skill，負責審核分鏡師嘅提示詞質量。compliance-review-skill，負責審核所有階段嘅內容合規性。

你可能會問：點解唔單獨設一個審核 Agent？點解要導演一個人做創作又做審核？

因為審核需要創作意圖嘅上下文。

導演喺講戲嘅時候，腦裏面有一個非常具體嘅畫面——佢知道呢場戲嘅核心情緒係咩，佢知道呢個鏡頭點解要由側面切入而唔係正面，佢知道光應該由左邊打定右邊打。呢啲細微嘅意圖，只有佢自己最清楚。

如果你叫一個獨立嘅審核 Agent 嚟做質量把控，佢冇呢啲上下文。佢淨係見到規則同產出，判斷產出係咪符合規則。但「符合規則」同「忠實於導演意圖」係兩回事。一條提示詞可以完美符合所有格式要求，但同導演想要嘅畫面差咗十萬八千里。

等導演自己審自己嘅講戲、審服化道嘅設計、審分鏡師嘅提示詞，佢每一次審核都係攞產出同自己腦裏面嘅畫面做比對。佢知「啱唔啱」，因為「啱」嘅標準就喺佢自己嘅上下文裏面。

呢個亦都係點解我用咗 Resumable Subagents 機制——導演第一次被調用時分析劇本講戲，系統記錄佢嘅唯一 ID。後面再調用佢審核服化道、審核分鏡師，恢復嘅係同一個對話上下文。佢仲記得自己當初講戲時每一個細節嘅設定。

導演係呢套系統裏面唯一一個由頭到尾都在場嘅角色。佢既係創意嘅源頭，亦係質量嘅守門人。

III — 講戲：將文字變成畫面指令

導演做嘅最核心嘅嘢叫「講戲」。

呢個概念直接嚟自傳統影視。片場開拍之前，導演會叫演員埋一邊，由頭到尾將呢場戲講一次：你由呢度入畫面，先睇一眼窗外，然後轉身走向枱，講對白嘅時候語氣要剋制，鏡頭會由你嘅側臉推到你手上嘅信，光由你左邊嘅窗打嚟。

講戲唔係複述劇本。劇本寫嘅係「佢得知咗真相」，導演講嘅係「佢拆開信封，目光由左掃到右，手指逐漸收緊，信紙嘅褶皺被捏出嚟，嘴唇微微顫抖但冇講嘢」。

喺我嘅 director-skill 入面，講戲必須涵蓋五個維度：

畫面內容——邊個喺邊度，環境係點樣。人物動作——具體嘅肢體動作、走位、表情變化。對白聲音——講咗咩話、咩語氣、有冇環境聲。鏡頭感覺——咩景別、鏡頭點樣運動、由邊度到邊度。光影氛圍——咩光源、咩色調、咩情緒。

但呢五個維度唔係分條列舉嘅。

呢一點非常關鍵。講戲嘅輸出係一段自然流暢嘅敍述，五個維度融合埋一齊，就好似導演真係同你講緊嘢一樣。

點解唔分條？因為分條列舉會令信息碎片化。分鏡師接到一個分條列舉嘅講戲——「動作：站起身走向門口。鏡頭：中景推到近景。光影：冷藍色調。」——佢需要自己去重組呢啲碎片，諗像佢哋合埋一齊係咩畫面。呢個重組過程中，維度之間嘅關聯好容易甩漏——鏡頭嘅推進同人物嘅走動係同步定先後？光線變化係動作之前定之後？

融合敍述冇呢個問題。「佢緩緩站起身，鏡頭由佢側臉嘅特寫開始向後拉開，冷藍色嘅微光由窗口斜射入嚟，喺佢轉身走向門口嘅過程中，光線逐漸由臉上滑落到背影上。」——所有維度喺同一條時間線上，關係一目瞭然。

仲有一條硬性原則：用具體物理動作，唔用抽象概念。

「佢好攰」——Seedance 唔理解攰係咩畫面。「佢揉了揉太陽穴，目光由屏幕移開，靠向椅背」——呢個係 Seedance 可以直接執行嘅動作。「氣氛緊張」——冇畫面。「兩個面對面企，一個身體前傾咬緊下巴，另一個雙臂交叉面無表情」——呢個有畫面。

導演講戲嘅質量，直接決定咗後面所有環節嘅上限。服化道根據講戲本設計角色同場景，如果講戲裏面嘅外觀描述係模糊嘅，設計出嚟嘅參考圖就唔會準確。分鏡師根據講戲本寫 Seedance 提示詞，如果講戲裏面嘅動作同運鏡係含糊嘅，提示詞就會偏離意圖。

成條流水線嘅精度，由呢度開始。

IV — 參考圖已見原則：一條規則重新定義提示詞應該寫咩

而家講呢套系統裏面最重要嘅一條設計原則。

Seedance 2.0 有一個能力，被絕大多數人忽略咗：佢可以「見到」你通過 @引用傳入去嘅參考圖。

唔係「參考一下大概嘅意思」，係真係見到——人物嘅五官、髮型、衫紋理、體態氣質，場景嘅空間佈局、光線方向、色調質感，佢全部可以識別。

呢個能力徹底改變咗提示詞應該寫咩。

如果 Seedance 已經見咗林書白嘅參考圖，你喺提示詞裏面再寫「一個着素色長衫嘅年輕男子，黑色短髮，面容清秀」——呢啲全部係廢話。你喺重複佢已經知嘅信息，唔單止冇幫助，反而霸咗提示詞有效嘅空間。

參考圖已見原則講嘅係：參考圖負責承載靜態信息，提示詞淨係負責描述「變化」——動作、運鏡、情緒轉變、光影變化。

呢條原則係成套系統分工邏輯嘅根基。

因為有咗呢條原則，服化道呢個角色就必須獨立存在。靜態視覺信息需要高質量嘅參考圖嚟承載，參考圖嘅質量直接影響 Seedance 嘅生成效果。如果你嘅角色參考圖畫得唔清楚——例如側面嘅特徵冇展示出嚟，或者服裝細節模糊——咁 Seedance 喺生成影片嘅時候就只能靠估，結果自然不可控。

服化道嘅工作就係確保每一張參考圖都係高質量嘅——角色有面部特寫加三視圖，Seedance 唔理由邊個角度生成都有參考；場景有完整嘅空間佈局同光影信息，運鏡點樣轉都唔會穿崩。

因為有咗呢條原則，分鏡師就可以將全部精力集中喺動態描述上。佢唔需要喺提示詞裏面浪費字數描述角色係咩樣、場景咩氛圍，佢只需要寫：呢個角色做咗咩動作，鏡頭點樣運動，情緒由咩狀態變成咩狀態。

信息密度直接提高咗一倍唔止。

一條冇參考圖嘅提示詞，可能 60% 嘅內容喺描述靜態信息，40% 喺描述動態內容。一條基於參考圖已見原則寫嘅提示詞，100% 嘅內容都喺描述動態內容。你覺得邊條提示詞生成出嚟嘅影片好啲？

將啱嘅信息放喺啱嘅載體上。呢個就係呢條原則嘅本質。

V — 敍事描述式：點解用講故仔嘅方式寫提示詞

確定咗「提示詞淨係寫變化」之後，下一個問題係：點樣寫呢啲變化？

我嘅答案係敍事描述式——用完整嘅段落、連貫嘅敍述，好似寫電影腳本咁描述畫面由頭到尾發生咗啲咩。

唔係關鍵詞堆疊。唔係「中景, 冷色調, 緩慢推鏡, 緊張氛圍」。

呢個唔係風格偏好。呢個係一個技術選擇。

Seedance 2.0 嘅底層係一個理解自然語言嘅模型。佢最擅長嘅嘢，係理解一段連貫嘅敍事——邊個做咗咩，然後發生咗咩，與此同時鏡頭點樣運動。佢最唔擅長嘅嘢，係由一堆離散嘅標籤推斷出佢哋之間嘅關係同優先級。

你畀佢「中景, 冷色調, 緩慢推鏡」，佢需要自己去估：冷色調係一開始就有定逐漸變冷？推鏡係先推定後推？推鏡嘅同時人物喺做緊咩？標籤之間嘅關係係空白嘅，Seedance 必須自己填空，結果自然不可控。

你畀佢一段敍事——「灰藍色嘅清晨微光由左側窗口斜射入昏暗嘅室內，鏡頭由人物臉部側面特寫開始，佢猛然睜開雙眼，額頭滲出汗珠，鏡頭緩緩向後拉開，佢坐喺木牀上，胸口起伏逐漸平穩」——所有嘅信息都喺一條連貫嘅時間線上，先後關係、因果關係、同步關係一目瞭然。

敍事描述式仲有一個被低估嘅好處：佢天然帶有節奏。

「鏡頭由側面特寫開始」——慢。「佢猛然睜開雙眼」——快。「額頭滲出汗珠」——細節停頓。「鏡頭緩緩向後拉開」——又慢返。呢種快慢交替嘅節奏感，會直接影響 Seedance 生成影片嘅節奏。而關鍵詞堆疊係冇節奏嘅，所有信息平鋪，Seedance 只能生成一種均勻、冇起伏嘅畫面。

所以喺我嘅系統裏面，由導演講戲、到服化道設計參考圖提示詞、到分鏡師寫最終嘅 Seedance 提示詞，全鏈路都使用敍事描述式。唔係某一個環節用，係所有環節都用。因為上游嘅敍事風格會傳遞到下游——導演用敍事風格講戲，分鏡師讀到嘅就係一個有畫面感嘅敍述，佢翻譯成 Seedance 提示詞嘅時候自然都會保持呢種風格。

VI — Skill 嘅設計哲學：唔係同佢講「你係導演」就夠

到呢度，你已經知道咗系統嘅角色分工同核心原則。而家我要講一個容易被忽略但極其關鍵嘅層面：Skill 嘅設計。

你可能覺得，同一個 AI Agent 講「你係一個資深導演，去分析呢個劇本」就夠。

唔夠。差好遠。

「你係一個導演」只係話咗畀 AI 知佢嘅身份，冇話畀佢知點樣做、做到咩標準、咩可以做咩唔可以做。AI 會根據佢訓練數據裏面對「導演」嘅理解去執行，但呢個理解係泛泛嘅、冇邊界嘅。佢可能講出一段好文學性嘅戲但完全唔能夠轉化成影片提示詞，佢可能漏咗光影描述因為「導演唔一定要講光影」。

所以每一個 Skill 都包含四個組件。呢個唔係隨便定嘅，係反覆測試之後確定嘅最小必要結構。

方法論——定義「咩係啱嘅」。

以分鏡師嘅 seedance-prompt-methodology 為例。佢唔係教分鏡師點樣寫提示詞，而係劃定邊界：參考圖已見原則（唔好重複靜態內容）、敍事描述式（唔好關鍵詞堆疊）、節拍密度約束（1拍≈2.5秒）、頭尾安全區（前後0.5秒唔放關鍵內容）、@引用必須指定用途、唔可以用否定句。

方法論解決嘅問題係：令 AI 知道咩係好，咩係唔允許。冇方法論嘅 Agent 會憑「直覺」行事，質量完全不可預測。

模板——定義「輸出係咩樣」。

導演嘅產出模板 director-analysis-template 定義咗講戲本嘅格式：每個劇情點包含人物、場景、鏡頭組、時長建議、導演闡述。服化道嘅產出模板 art-design-template 定義咗人物提示詞格式（左特寫+右三視圖+白色背景）同場景提示詞格式（宮格佈局+視覺規範+逐格描述）。分鏡師嘅產出模板 seedance-prompts-template 定義咗素材對應表同每個劇情點嘅提示詞結構。

模板唔係形式主義。模板係信息傳遞嘅接口。

導演嘅產出格式決定咗服化道能夠讀到咩——人物清單裏面有外觀關鍵詞，服化道先知道角色應該係咩樣。服化道嘅產出格式決定咗分鏡師能夠引用咩——場景按宮格編號獨立存儲，分鏡師先可以喺 @引用裏面精確關聯。如果上游嘅輸出格式唔統一，下游就要花大量精力去解析同猜測，效率同準確性都會下降。

成條流水線能夠行得通，靠嘅就係模板之間嚴格嘅對接。

示例——定義「好嘅標準係咩樣」。

呢個係最容易被低估嘅組件。

你同 AI 講「人物提示詞要詳細、具體、有畫面感」，佢會生成一段佢認為「詳細具體有畫面感」嘅文字。但佢認為嘅好同你認為嘅好，往往差好遠。

但如果你畀佢睇一個 9 分嘅人物提示詞係咩樣——具體到每一條髮絲嘅走向、每一條衫褶皺嘅材質、鞋嘅款式同跟高、配飾嘅位置同數量——佢直接就知咗「詳細」意味住咩精度。

character-prompt-examples 裏面嘅示例，每一條都係完整可用嘅提示詞，直接複製到文生圖工具就可以生成。唔係抽象嘅指南，係實打實嘅標杆。seedance-prompt-examples 係 Seedance 2.0 官方團隊自己寫嘅模板，代表咗平台方認為最優嘅提示詞風格——呢個係最權威嘅參考基準。

AI 對具體示例嘅理解能力遠強於對抽象規則嘅理解能力。呢一點我測試過好多次，結論非常明確。

審核標準——定義「點樣判斷夠唔夠好」。

每個階段有自己嘅業務審核 Skill，維度完全唔同。

導演自審用 script-analysis-review-skill，檢查嘅係講戲質量：畫面感清唔清晰、動作鏈完唔完整、節拍密度合唔合理、鏡頭能唔能夠連續實現、光影描述夠唔夠具體、情緒傳達準唔準確、前後銜接自唔自然。

服化道審核用 art-direction-review-skill，檢查嘅係設計質量：人物造型同導演描述一唔一致、角色辨識度夠唔夠、描述有冇歧義（「清秀」會唔會被理解成女性化？）、場景氛圍同講戲本匹唔匹配、宮格之間風格統唔統一。

分鏡審核用 seedance-prompt-review-skill，檢查嘅係提示詞質量：忠實度、畫面還原度、動作可執行性、鏡頭可實現性、Seedance 友好度、音頻設計、情緒準確性。

點解唔可以用同一套標準審核所有階段？因為每個階段產出嘅嘢性質完全唔同——講戲本係畫面描述，參考圖提示詞係視覺設計，Seedance 提示詞係動態指令——判斷「好唔好」嘅維度自然唔同。

但合規審核得一個——compliance-review-skill。因為平台紅線係通用嘅。唔理係講戲本定設計提示詞定 Seedance 提示詞，真人肖像就係唔用得，版權 IP 就係唔可以掂，暴力色情就係唔可以有。同一套規則適用於所有階段，所以只需要一個 Skill。

方法論話畀 AI 知做嘅邊界喺邊，模板話畀佢知輸出係咩樣，示例話畀佢知好嘅標準係咩，審核標準話畀佢知點樣判斷夠唔夠好。呢四個組件缺任何一個，Agent 嘅表現都會明顯下降。

VII — 節拍密度同安全區：寫入規則嘅物理限制

AI 影片生成有物理限制。

唔係模型嘅限制，唔係平台嘅限制，係「喺有限時間內能夠表達幾多內容」嘅物理限制。你唔可能喺一秒鐘內講完一段說話，Seedance 2.0 亦都唔可能喺兩秒鐘內完成三個複雜動作。

我反覆生成、逐幀比對咗幾百條影片之後，總結出一條底層規律：

每個連續鏡頭內，1 拍大約等於 2.5 秒屏幕時間。

一個物理動作算一拍——「站起身」係 1 拍，「站起身 → 行到門前 → 推開門」係 3 拍。一次鏡頭運動算一拍——推鏡、拉鏡、環繞，各算 1 拍。一句短對白（10 字以內）算一拍，超過 10 字按 2 拍。同時發生嘅事合併——「猛然睜眼，額頭滲汗」發生喺同一刻，算 1 拍。

如果你喺一個 5 秒嘅單鏡頭裏面塞咗 4 拍動作，生成出嚟嘅畫面就會模糊、跳、唔自然。每個動作分到嘅時間太短，AI 嚟唔切將過渡做清楚。

但節拍密度約束只作用於每個連續鏡頭內部。

如果你嘅段落係多鏡頭結構——例如一段 15 秒嘅蒙太奇，包含 5 個子畫面，每個子畫面 2-3 秒——咁每個子畫面各自遵守密度約束就得，總嘅節拍數可以遠遠超過單鏡頭嘅上限。就好似電影裏面嘅快速剪輯：每個鏡頭內容簡單，但鏡頭之間切換好快，總信息量好大。

除咗節拍密度，仲有頭尾安全區。

Seedance 每次生成嘅前 0.5 秒同後 0.5 秒，畫面嘅穩定性同質量唔及中間段。如果你將關鍵動作放喺開頭嘅第一幀，好可能被截斷或者變形。如果你將收尾動作卡喺最後一幀，剪輯嘅時候冇餘地。

所以規則係：開頭畀環境或者主體一個靜態建立，等畫面先穩定落嚟。結尾等動作自然收住，或者保持一個可以銜接嘅姿態。

呢啲規律唔係經驗之談，唔係「我覺得大概係咁」。係一幀一幀睇咗幾百條生成結果之後總結出嚟嘅硬性規律。

關鍵在於：我將呢啲規律寫咗入方法論同審核標準裏面，而唔係作為一條建議貼喺某個地方。分鏡師寫提示詞嘅時候，方法論裏面明確規定咗節拍密度約束同安全區規則。導演審核提示詞嘅時候，審核 Skill 裏面有專門嘅「動作可執行性」維度，會逐條檢查每個連續鏡頭內嘅節拍密度係咪合理。

唔合格嘅提示詞會被打回頭重寫。唔係建議，係硬性規則。

VIII — 雙重審核同評分制：點樣喺生成之前發現問題

審核環節係我喺呢套系統裏面花最多心思嘅部分。

一個基本事實：AI 生成嘅內容，唔理模型有幾強，唔可能第一次就完美。創作本身唔係一次成型嘅過程。但如果冇系統化嘅審核機制，你就只能靠「生成→睇效果→唔滿意→換個提示詞再試」嘅隨機試錯。

我嘅做法係喺系統內部建審核閉環。每個階段完成之後，導演做兩步審核。

第一步，業務審核。

呢一步用嘅係階段專屬嘅審核 Skill——審導演自己嘅講戲用 script-analysis-review-skill，審服化道嘅設計用 art-direction-review-skill，審分鏡師嘅提示詞用 seedance-prompt-review-skill。每個維度單獨打分，1 到 10 分。

通過條件係：平均分 ≥ 8，而且任何單項唔低過 6。

點解用評分制而唔係簡單嘅通過/唔通過？

因為通過/唔通過嘅顆粒度太粗。AI 做審核嘅時候，如果只需要畀一個「通過」或「唔通過」，佢好容易放水——「差唔多就得啦」。但如果要求佢對每一個維度單獨打分，佢就必須逐個維度做判斷，冇得含糊過去。

點解係「平均≥8 且單項唔低過6」？平均≥8 保證整體質量。單項唔低過6 防止木桶效應——一條提示詞可能忠實度 9 分、畫面還原 9 分，但音頻設計得 3 分，因為分鏡師完全唔記得寫背景音樂同環境音效。如果淨係睇平均分，呢條提示詞可能仲係過關，但生成出嚟嘅影片會係靜音嘅。

第二步，合規審核。

用 compliance-review-skill，檢查內容有冇觸碰平台紅線：真人肖像限制、版權 IP 限制、政治敏感、宗教、色情暴力、未成年人保護、仇恨歧視。呢一步唔打分，只有通過或者唔通過。

兩步審核都通過，先可以進入下一階段。任何一步唔通過，所有問題會合併成一份修改清單，一次性發返畀對應嘅 Agent 修改。

點解業務同合規要分開做，而唔係合成一步？

因為呢兩個維度嘅判斷邏輯完全唔同。業務審核睇嘅係專業質量——講戲嘅畫面感夠唔夠、設計嘅辨識度高唔高、提示詞嘅運鏡合唔合理。合規審核睇嘅係紅線——有冇觸碰平台唔允許嘅內容。一個係程度判斷（好唔好），一個係邊界判斷（得唔得）。撈埋一齊容易顧此失彼。

但分開審核嘅問題係效率——如果業務審核通過咗、合規審核冇通過，改完合規再返轉頭改業務，來來回回。所以我嘅設計係先做業務、再做合規，兩輪嘅問題合併成一份清單，Agent 一次性修改所有問題，修改完再重新行兩步審核。一次過拎曬所有問題，一次過改曬。

審核環節裏面最精妙嘅方法論叫「腦內預演」。

導演審核分鏡師提示詞嘅時候，唔係淨係睇文字——「嗯，格式啱，@引用寫咗，敍事描述式用咗，通過。」佢做嘅係：合埋眼，想像將呢條提示詞掉入 Seedance 2.0，生成出嚟嘅影片畫面係乜樣。然後將呢個諗像出嚟嘅畫面，同自己當初講戲時腦裏面嘅畫面做比對。一致就通過，唔一致就打返去，而且講清楚邊度唔一致、點解唔一致、應該點樣改。

呢個係唯一能夠喺實際生成之前發現問題嘅方法。等你真係掉咗入 Seedance 生成咗先發現唔啱，時間同算力已經使咗。

IX — 素材對應表同 @引用：視覺信息嘅系統化組織

到分鏡師呢一步，所有上游產物要被融合成一條可以直接複製到 Seedance 2.0 嘅提示詞。

呢度有一個你可能覺得瑣碎但其實極其關鍵嘅設計：素材對應表。

分鏡師要做嘅第一件事，唔係開始寫提示詞，而係建一張表。呢張表將每個 @引用編號同具體嘅素材一一對應——@圖片1 係林書白嘅角色參考圖，@圖片2 係幼年林書白，@圖片3 係楚講師，@圖片5 係簡陋住處，@圖片6 係青雲文院大門。編號順序係先人物再場景，按照 character-prompts 同 scene-prompts 裏面嘅出場順序排列。

點解需要呢張表？

因為一個項目嘅素材數量可以好多。一集可能會有 4 個角色、9 個場景，加埋 13 個素材。分鏡師喺寫唔同劇情點嘅提示詞時，需要反覆引用呢啲素材。如果冇一張統一嘅對應表，每條提示詞裏面嘅 @圖片1 可能指嘅係唔同嘅嘢——呢條裏面 @圖片1 係林書白，嗰條裏面 @圖片1 變咗場景。一旦混亂，Seedance 生成出嚟嘅畫面就會錯。

素材對應表係全文檔嘅總映射，保證每一條提示詞裏面嘅每一個 @引用都指向同一個素材。

呢度有一個容易犯嘅錯誤，我喺審核 Skill 裏面專門標註咗。

場景參考圖係用九宮格一次性生成嘅——一條提示詞掉入 Nano Banana，出嚟一張 3×3 嘅圖，9 個場景全部喺上面。但你實際使用嘅時候，需要將每個格子單獨裁出嚟，一個場景一張圖，分別上傳到 Seedance。所以喺素材對應表裏面，每個場景必須獨立編號為一個 @圖片——唔可以將成張九宮格當成一個 @圖片。

如果分鏡師犯咗呢個錯誤，導演喺審核時會直接 FAIL，因為 seedance-prompt-review-skill 裏面明確寫咗呢條檢查規則。

建好對應表之後，分鏡師喺每條提示詞嘅開頭聲明素材引用。呢度有另一條硬性要求：每個 @引用必須明確說明用途。

唔可以寫「參考 @圖片1」。太模糊。Seedance 唔知你要佢參考呢張圖嘅咩——人物形象？服裝？姿態？構圖？

必須寫「以 @圖片1 中嘅人物形象為主角」或者「場景參考 @圖片5 嘅空間佈局同光線氛圍」。用途越明確，Seedance 嘅理解越準確。

呢套 @引用系統嘅本質，係將視覺信息系統化咁組織起嚟。人物係人物，場景係場景，動態係動態，各自有各自嘅載體，各自有各自嘅編號，指向關係清清楚楚。

比起「將所有嘢塞入一條提示詞」好喺邊？好喺可複用——同一張角色參考圖可以喺唔同劇情點被唔同提示詞引用，角色嘅視覺一致性自動就保證咗。你唔需要喺每條提示詞裏面重新描述角色係咩樣，亦都唔需要祈求 Seedance 喺唔同提示詞裏面生成嘅同一個角色係一樣樣。參考圖鎖住咗視覺基準，提示詞淨係管描述變化。

X — 由一集到十集：設計資產嘅跨集累積

呢套系統唔係為做一集而設計嘅。

現實項目通常有多集。如果每做一集都由頭設計所有角色同場景，工作量線性增長。但實際上大多數角色同場景係跨集複用嘅——主角每集出現，核心場景前幾集反覆使用。

所以服化道生成嘅設計資產係全局共享、跨集累積嘅。

人物參考提示詞同場景參考提示詞分別存在 assets 文件夾下。做第一集時，服化道為所有新角色同新場景設計提示詞，寫入文件。做第二集時，導演分析完劇本後會喺人物清單同場景清單裏面標註每一項嘅「素材狀態」——新增、複用或者變體。

新增：第一次出場嘅角色或場景，需要服化道設計提示詞。複用：同已有素材完全一致，直接用，跳過設計。變體：同一角色但外觀有變化——例如換咗衫、年齡變化、受傷——需要服化道基於原版設計一個變體版本。

服化道淨係處理新增同變體，追加到文件尾。去到第五集、第十集，你已經積累咗一個完整嘅角色庫同場景庫，每做一集新嘅只需要處理增量。

同跨集累積配合嘅係 Resumable Subagents 嘅作用域設計。

同一集內，所有 Agent 嘅上下文係連續嘅——導演分析完劇本去審核服化道設計，再去審核分鏡提示詞，三次調用恢復同一個對話。佢記得自己講戲時嘅每一個細節設定，審核時唔會遺漏。

跨集時，所有 Agent 嘅狀態重置，重新創建。因為不同集數嘅劇情內容差異大，如果將五集嘅上下文全部累積喺一個 Agent 嘅對話裏面，信息量會溢出，反而影響判斷質量。新一集、新嘅上下文、乾淨嘅起點。

仲有一個設計決策值得講：點解成條流水線中間有一步係手動嘅？

生成參考圖呢一步——攞住服化道寫好嘅提示詞去 Nano Banana Pro 生成圖片——係成條鏈路裏面唯一需要你手動操作嘅環節。

呢個唔係冇得自動化。而係喺當前階段，文生圖嘅質量需要人眼把關。AI 能夠寫出好嘅提示詞，但生成出嚟嘅圖係咪「對味」——角色嘅氣質啱唔啱、場景嘅氛圍準唔準、某個細節需唔需要調整——只有你自己可以判斷。呢一步留畀人，係刻意嘅。

最後

回過頭睇呢套系統，佢做嘅嘢其實可以用一句話概括：將專業影視前期嘅工作流程翻譯成 AI 可以執行嘅協作系統。

四個角色各司其職，三次翻譯層層遞進。參考圖已見原則重新定義咗提示詞應該寫咩。敍事描述式匹配咗 Seedance 2.0 嘅理解方式。節拍密度同安全區將物理限制變成硬性規則。方法論、模板、示例、審核標準四個組件確保每一個 Agent 唔係憑直覺行事，而係喺一套專業規範內執行。雙重審核加評分制保證質量下限。跨集累積同 Resumable Subagents 解決咗由一集到十集嘅擴展性。

每一個決策都唔係拍拍個腦就定嘅。每一條規則背後都有一個「點解」。

工具會一直變。Seedance 2.0 之後會有 3.0，Nano Banana 之後會有新嘅模型。但將一個複雜任務拆解成專業分工、用規範約束質量、用審核閉環迭代優化嘅呢套思路——呢個唔會變。

希望你睇完呢篇文章見到嘅唔止係一套系統，而係系統背後嘅設計邏輯。因為如果你真正理解咗呢啲邏輯，你可以用同樣嘅方法論，去設計你哋自己嘅系統。

👑 呢篇文章裏面講解嘅 Seedance 2.0 分鏡師團隊嘅完整配置文件係付費內容，已經整理打包好放咗喺廢才俱樂部裏面。

原創唔易，由架構設計到方法論提煉到實戰迭代，呢套系統係我用真金白銀嘅 token 一篇一篇文章跑出嚟嘅。

多謝支持。歡迎加入廢才俱樂部。

從劇本到視頻：一套 Seedance 2.0 的分解方案

我搭了一套 AI 視頻分鏡系統。

你給它一個劇本，它幫你一路生成到 Seedance 2.0 可以直接用的視頻提示詞——中間的角色參考圖、場景參考圖這些設計資產的提示詞也一併搞定。

如果你想看完整的實操演示，下面這個視頻從頭到尾走了一遍全流程。

這篇文章講的是視頻裏沒有展開的東西——這套系統背後的設計邏輯。每一個角色為什麼存在，每一個技能包為什麼這樣配，每一條規則為什麼這樣定。

內容會比較密，建議你找個安靜的時間讀。

I — 四個角色，三次翻譯

從一個劇本到一條 Seedance 2.0 的視頻提示詞，中間發生了什麼？

大多數人的答案是"寫提示詞"。他們覺得這是一步——讀完劇本，腦子裏想一個畫面，然後用文字描述出來，丟給 Seedance 生成。

但如果你仔細拆解這個過程，你會發現中間其實有三次本質完全不同的"翻譯"。

第一次翻譯：從文字到畫面意圖。劇本寫的是"林書白在簡陋住處猛然驚醒"，但這句話對應的畫面是什麼？是什麼景別？鏡頭從哪個角度切進來？他醒來的第一個動作是什麼？房間的光是怎樣的？這些東西劇本里沒寫，需要有人補上。這是導演乾的事。

第二次翻譯：從畫面意圖到靜態視覺資產。導演說"林書白穿着素色長衫，黑色短髮，清秀但沉穩"，但這只是文字描述。Seedance 需要看到一張具體的圖才知道"林書白"到底長什麼樣。你還需要一張簡陋住處的場景參考圖，讓 Seedance 知道這個房間的佈局、光線、質感。這些靜態的視覺資產，需要有人設計出來。這是服化道乾的事。

第三次翻譯：從畫面意圖加上靜態資產，到動態視頻指令。導演講清楚了這場戲要拍什麼，服化道把角色和場景的參考圖都準備好了，現在需要有人把這一切融合成一條 Seedance 2.0 能理解的提示詞——@引用哪些素材，描述什麼動作、什麼運鏡、什麼情緒變化。這是分鏡師乾的事。

三次翻譯，三種完全不同的思維模式。

第一次是敍事思維——怎麼把故事拆成可執行的畫面段落。第二次是視覺設計思維——怎麼把文字描述轉化為精確的視覺形象。第三次是技術翻譯思維——怎麼用 Seedance 能理解的語言描述一段動態畫面。

你讓一個 Agent 同時做這三件事，結果就是每件事都做到六七十分。不是因為模型能力不夠，而是因為三種思維模式混在一起，互相干擾。導演在想怎麼拆故事的時候，不應該同時操心提示詞格式；分鏡師在寫運鏡的時候，不應該還要分心去設計角色的衣服紋理。

所以這套系統有四個角色。製片人是主 Agent，它自己不翻譯，只負責調度——讓導演、服化道、分鏡師在正確的時間做正確的事，然後確保每一步的交付質量。

不是為了讓系統看起來複雜。是為了讓每一步都乾淨。

II — 導演：唯一貫穿全流程的角色

三個 Sub-Agent 裏面，導演是最特殊的。

看一下他們的配置就知道了。服化道有 1 個技能包——art-design-skill，負責設計人物和場景提示詞。分鏡師有 1 個技能包——seedance-storyboard-skill，負責編寫 Seedance 提示詞。

導演有 5 個。

director-skill，負責劇本分析、劇情拆解、講戲。script-analysis-review-skill，負責審核自己的講戲質量。art-direction-review-skill，負責審核服化道的設計質量。seedance-prompt-review-skill，負責審核分鏡師的提示詞質量。compliance-review-skill，負責審核所有階段的內容合規性。

你可能會問：為什麼不單獨設一個審核 Agent？為什麼讓導演一個人幹創作又幹審核？

因為審核需要創作意圖的上下文。

導演在講戲的時候，腦子裏有一個非常具體的畫面——他知道這場戲的核心情緒是什麼，他知道這個鏡頭為什麼要從側面切進來而不是正面，他知道光應該從左邊打還是右邊打。這些細微的意圖，只有他自己最清楚。

如果你讓一個獨立的審核 Agent 來做質量把控，它沒有這些上下文。它只能看到規則和產出，判斷產出是否符合規則。但"符合規則"和"忠實於導演意圖"是兩回事。一條提示詞可以完美符合所有格式要求，但跟導演想要的畫面差了十萬八千里。

讓導演自己審自己的講戲、審服化道的設計、審分鏡師的提示詞，他每一次審核都是在拿產出跟自己腦子裏的畫面做比對。他知道"對不對"，因為"對"的標準就在他自己的上下文裏。

這也是為什麼我用了 Resumable Subagents 機制——導演第一次被調用時分析劇本講戲，系統記錄他的唯一 ID。後面再調用他審核服化道、審核分鏡師，恢復的是同一個對話上下文。他還記得自己當初講戲時每一個細節的設定。

導演是這套系統裏唯一一個從頭到尾都在場的角色。他既是創意的源頭，也是質量的守門人。

III — 講戲：把文字變成畫面指令

導演做的最核心的事叫"講戲"。

這個概念直接來自傳統影視。片場開拍之前，導演會把演員叫到一邊，從頭到尾把這場戲講一遍：你從這裏進畫面，先看一眼窗外，然後轉身走向桌子，說台詞的時候語氣要剋制，鏡頭會從你的側臉推到你手上的信，光從你左邊的窗户打進來。

講戲不是在複述劇本。劇本寫的是"他得知了真相"，導演講的是"他拆開信封，目光從左掃到右，手指逐漸收緊，信紙的褶皺被捏出來，嘴唇微微顫抖但沒有說話"。

在我的 director-skill 裏，講戲必須覆蓋五個維度：

畫面內容——誰在哪裏，環境是什麼樣。人物動作——具體的肢體動作、走位、表情變化。台詞聲音——說了什麼話、什麼語氣、有什麼環境音。鏡頭感覺——什麼景別、鏡頭怎麼運動、從哪到哪。光影氛圍——什麼光源、什麼色調、什麼情緒。

但這五個維度不是分條列舉的。

這一點非常關鍵。講戲的輸出是一段自然流暢的敍述，五個維度融合在一起，就像導演真的在跟你說話一樣。

為什麼不分條？因為分條列舉會讓信息碎片化。分鏡師拿到一個分條列舉的講戲——"動作：站起身走向門口。鏡頭：中景推到近景。光影：冷藍色調。"——他需要自己去重組這些碎片，想象它們合在一起是什麼畫面。這個重組過程中，維度之間的關聯很容易丟失——鏡頭的推進和人物的走動是同步的還是有先後？光線變化是在動作之前還是之後？

融合敍述不存在這個問題。"他緩緩站起身，鏡頭從他側臉的特寫開始向後拉開，冷藍色的微光從窗口斜射進來，在他轉身走向門口的過程中，光線逐漸從臉上滑落到背影上。"——所有維度在同一條時間線上，關係一目瞭然。

還有一條硬性原則：用具體物理動作，不用抽象概念。

"她很疲憊"——Seedance 不理解疲憊是什麼畫面。"她揉了揉太陽穴，目光從屏幕移開，靠向椅背"——這是 Seedance 能直接執行的動作。"氣氛緊張"——沒有畫面。"兩人面對面站立，一個身體前傾咬緊下巴，另一個雙臂交叉面無表情"——這有畫面。

導演講戲的質量，直接決定了後面所有環節的上限。服化道根據講戲本設計角色和場景，如果講戲裏的外觀描述是模糊的，設計出來的參考圖就不會準確。分鏡師根據講戲本寫 Seedance 提示詞，如果講戲裏的動作和運鏡是含糊的，提示詞就會偏離意圖。

整條流水線的精度，從這裏開始。

IV — 參考圖已見原則：一條規則重新定義提示詞應該寫什麼

現在講這套系統裏最重要的一條設計原則。

Seedance 2.0 有一個能力，被絕大多數人忽略了：它能"看到"你通過 @引用傳進去的參考圖。

不是"參考一下大概的意思"，是真的看到了——人物的五官、髮型、衣服紋理、體態氣質，場景的空間佈局、光線方向、色調質感，它全都能識別。

這個能力徹底改變了提示詞應該寫什麼。

如果 Seedance 已經看到了林書白的參考圖，你在提示詞裏再寫"一個穿素色長衫的年輕男子，黑色短髮，面容清秀"——這些全是廢話。你在重複它已經知道的信息，不但沒有幫助，反而佔用了提示詞的有效空間。

參考圖已見原則說的是：參考圖負責承載靜態信息，提示詞只負責描述"變化"——動作、運鏡、情緒轉變、光影變化。

這條原則是整套系統分工邏輯的根基。

因為有了這條原則，服化道這個角色就必須獨立存在。靜態視覺信息需要高質量的參考圖來承載，參考圖的質量直接影響 Seedance 的生成效果。如果你的角色參考圖畫得不清楚——比如側面的特徵沒展示出來，或者服裝細節模糊——那 Seedance 在生成視頻的時候就只能靠猜，結果自然不可控。

服化道的工作就是確保每一張參考圖都是高質量的——角色有面部特寫加三視圖，Seedance 不管從什麼角度生成都有參考；場景有完整的空間佈局和光影信息，運鏡怎麼轉都不會穿幫。

因為有了這條原則，分鏡師就可以把全部精力集中在動態描述上。他不需要在提示詞裏浪費字數描述角色長什麼樣、場景什麼氛圍，他只需要寫：這個角色做了什麼動作，鏡頭怎麼運動，情緒從什麼狀態變成什麼狀態。

信息密度直接提高了一倍不止。

一條沒有參考圖的提示詞，可能 60% 的內容在描述靜態信息，40% 在描述動態內容。一條基於參考圖已見原則寫的提示詞，100% 的內容都在描述動態內容。你覺得哪條提示詞生成出來的視頻更好？

把對的信息放在對的載體上。這就是這條原則的本質。

V — 敍事描述式：為什麼用講故事的方式寫提示詞

確定了"提示詞只寫變化"之後，下一個問題是：怎麼寫這些變化？

我的答案是敍事描述式——用完整的段落、連貫的敍述，像寫電影腳本一樣描述畫面從頭到尾發生了什麼。

不是關鍵詞堆疊。不是"中景, 冷色調, 緩慢推鏡, 緊張氛圍"。

這不是風格偏好。這是一個技術選擇。

Seedance 2.0 的底層是一個理解自然語言的模型。它最擅長的事情，是理解一段連貫的敍事——誰做了什麼，然後發生了什麼，與此同時鏡頭怎麼運動。它最不擅長的事情，是從一堆離散的標籤裏推斷出它們之間的關係和優先級。

你給它"中景, 冷色調, 緩慢推鏡"，它需要自己去猜：冷色調是從一開始就有還是逐漸變冷？推鏡是先推還是後推？推鏡的同時人物在做什麼？標籤之間的關係是空白的，Seedance 必須自己填空，結果自然不可控。

你給它一段敍事——"灰藍色的清晨微光從左側窗口斜射入昏暗的室內，鏡頭從人物臉部側面特寫開始，他猛然睜開雙眼，額頭滲出汗珠，鏡頭緩緩向後拉開，他坐在木牀上，胸口起伏逐漸平穩"——所有的信息都在一條連貫的時間線上，先後關係、因果關係、同步關係一目瞭然。

敍事描述式還有一個被低估的好處：它天然帶有節奏。

"鏡頭從側面特寫開始"——慢。"他猛然睜開雙眼"——快。"額頭滲出汗珠"——細節停頓。"鏡頭緩緩向後拉開"——又慢下來。這種快慢交替的節奏感，會直接影響 Seedance 生成視頻的節奏。而關鍵詞堆疊是沒有節奏的，所有信息平鋪，Seedance 只能生成一種均勻的、沒有起伏的畫面。

所以在我的系統裏，從導演講戲、到服化道設計參考圖提示詞、到分鏡師寫最終的 Seedance 提示詞，全鏈路都使用敍事描述式。不是某一個環節用，是所有環節都用。因為上游的敍事風格會傳遞到下游——導演用敍事風格講戲，分鏡師讀到的就是一個有畫面感的敍述，他翻譯成 Seedance 提示詞的時候自然也會保持這種風格。

VI — Skill 的設計哲學：不是告訴它"你是導演"就夠了

到這裏，你已經知道了系統的角色分工和核心原則。現在我要講一個容易被忽略但極其關鍵的層面：Skill 的設計。

你可能覺得，給一個 AI Agent 說"你是一個資深導演，去分析這個劇本"就夠了。

不夠。差遠了。

"你是一個導演"只告訴了 AI 它的身份，沒有告訴它怎麼做、做到什麼標準、什麼可以做什麼不可以做。AI 會根據它訓練數據裏對"導演"的理解去執行，但這個理解是泛泛的、沒有邊界的。它可能講出一段很文學的戲但完全不能轉化成視頻提示詞，它可能遺漏了光影描述因為"導演不一定要講光影"。

所以每一個 Skill 都包含四個組件。這不是隨便定的，是反覆測試之後確定的最小必要結構。

方法論——定義"什麼是對的"。

以分鏡師的 seedance-prompt-methodology 為例。它不是在教分鏡師怎麼寫提示詞，而是在劃定邊界：參考圖已見原則（不要重複靜態內容）、敍事描述式（不要關鍵詞堆疊）、節拍密度約束（1拍≈2.5秒）、頭尾安全區（前後0.5秒不放關鍵內容）、@引用必須指定用途、不能使用否定句。

方法論解決的問題是：讓 AI 知道什麼是好的，什麼是不允許的。沒有方法論的 Agent 會憑"直覺"行事，質量完全不可預測。

模板——定義"輸出長什麼樣"。

導演的產出模板 director-analysis-template 定義了講戲本的格式：每個劇情點包含人物、場景、鏡頭組、時長建議、導演闡述。服化道的產出模板 art-design-template 定義了人物提示詞格式（左特寫+右三視圖+白色背景）和場景提示詞格式（宮格佈局+視覺規範+逐格描述）。分鏡師的產出模板 seedance-prompts-template 定義了素材對應表和每個劇情點的提示詞結構。

模板不是形式主義。模板是信息傳遞的接口。

導演的產出格式決定了服化道能讀到什麼——人物清單裏有外觀關鍵詞，服化道才知道角色應該長什麼樣。服化道的產出格式決定了分鏡師能引用什麼——場景按宮格編號獨立存儲，分鏡師才能在 @引用裏精確關聯。如果上游的輸出格式不統一，下游就要花大量精力去解析和猜測，效率和準確性都會下降。

整條流水線能跑通，靠的就是模板之間的嚴格對接。

示例——定義"好的標準長什麼樣"。

這是最容易被低估的組件。

你告訴 AI"人物提示詞要詳細、具體、有畫面感"，它會生成一段它認為"詳細具體有畫面感"的文字。但它認為的好和你認為的好，往往差很遠。

但如果你給它看一個 9 分的人物提示詞長什麼樣——具體到每一根髮絲的走向、每一條服裝褶皺的材質、鞋子的款式和跟高、配飾的位置和數量——它直接就知道了"詳細"意味着什麼精度。

character-prompt-examples 裏的示例，每一條都是完整可用的提示詞，直接複製到文生圖工具就能生成。不是抽象的指南，是實打實的標杆。seedance-prompt-examples 是 Seedance 2.0 官方團隊自己寫的模板，代表了平台方認為最優的提示詞風格——這是最權威的參考基準。

AI 對具體示例的理解能力遠強於對抽象規則的理解能力。這一點我測試過很多次，結論非常明確。

審核標準——定義"怎麼判斷夠不夠好"。

每個階段有自己的業務審核 Skill，維度完全不同。

導演自審用 script-analysis-review-skill，檢查的是講戲質量：畫面感清不清晰、動作鏈完不完整、節拍密度合不合理、鏡頭能不能連續實現、光影描述夠不夠具體、情緒傳達準不準確、前後銜接自不自然。

服化道審核用 art-direction-review-skill，檢查的是設計質量：人物造型跟導演描述一不一致、角色辨識度夠不夠、描述有沒有歧義（"清秀"會不會被理解成女性化？）、場景氛圍跟講戲本匹不匹配、宮格之間風格統不統一。

分鏡審核用 seedance-prompt-review-skill，檢查的是提示詞質量：忠實度、畫面還原度、動作可執行性、鏡頭可實現性、Seedance 友好度、音頻設計、情緒準確性。

為什麼不能用同一套標準審核所有階段？因為每個階段產出的東西性質完全不同——講戲本是畫面描述，參考圖提示詞是視覺設計，Seedance 提示詞是動態指令——判斷"好不好"的維度自然不同。

但合規審核只有一個——compliance-review-skill。因為平台紅線是通用的。不管是講戲本還是設計提示詞還是 Seedance 提示詞，真人肖像就是不能用，版權 IP 就是不能碰，暴力色情就是不能有。同一套規則適用於所有階段，所以只需要一個 Skill。

方法論告訴 AI 做的邊界在哪，模板告訴它輸出長什麼樣，示例告訴它好的標準是什麼，審核標準告訴它怎麼判斷夠不夠好。這四個組件缺任何一個，Agent 的表現都會明顯下降。

VII — 節拍密度和安全區：寫進規則的物理限制

AI 視頻生成有物理限制。

不是模型的限制，不是平台的限制，是"在有限時間內能表達多少內容"的物理限制。你不可能在一秒鐘內說完一段話，Seedance 2.0 也不可能在兩秒鐘內完成三個複雜動作。

我反覆生成、逐幀比對了幾百條視頻之後，總結出一條底層規律：

每個連續鏡頭內，1 拍大約等於 2.5 秒屏幕時間。

一個物理動作算一拍——"站起身"是 1 拍，"站起身 → 走到門前 → 推開門"是 3 拍。一次鏡頭運動算一拍——推鏡、拉鏡、環繞，各算 1 拍。一句短台詞（10 字以內）算一拍，超過 10 字按 2 拍。同時發生的事合併——"猛然睜眼，額頭滲汗"發生在同一時刻，算 1 拍。

如果你在一個 5 秒的單鏡頭裏塞了 4 拍動作，生成出來的畫面就會糊、跳、不自然。每個動作分到的時間太短，AI 來不及把過渡做清楚。

但節拍密度約束只作用於每個連續鏡頭內部。

如果你的段落是多鏡頭結構——比如一段 15 秒的蒙太奇，包含 5 個子畫面，每個子畫面 2-3 秒——那每個子畫面各自遵守密度約束就好，總的節拍數可以遠超單鏡頭的上限。就像電影裏的快速剪輯：每個鏡頭內容簡單，但鏡頭之間切換很快，總信息量很大。

除了節拍密度，還有頭尾安全區。

Seedance 每次生成的前 0.5 秒和後 0.5 秒，畫面的穩定性和質量不如中間段。如果你把關鍵動作放在開頭的第一幀，很可能被截斷或者變形。如果你把收尾動作卡在最後一幀，剪輯的時候沒有餘地。

所以規則是：開頭給環境或主體一個靜態建立，讓畫面先穩住。結尾讓動作自然收住，或者保持一個可銜接的姿態。

這些規律不是經驗之談，不是"我覺得大概是這樣"。是一幀一幀看了幾百條生成結果之後總結出來的硬性規律。

關鍵在於：我把這些規律寫進了方法論和審核標準裏，而不是作為一條建議貼在某個地方。分鏡師寫提示詞的時候，方法論裏明確規定了節拍密度約束和安全區規則。導演審核提示詞的時候，審核 Skill 裏有專門的"動作可執行性"維度，會逐條檢查每個連續鏡頭內的節拍密度是否合理。

不合格的提示詞會被打回重寫。不是建議，是硬性規則。

VIII — 雙重審核和評分制：怎麼在生成之前發現問題

審核環節是我在這套系統裏花心思最多的部分。

一個基本事實：AI 生成的內容，不管模型多強，不可能第一次就完美。創作本身就不是一次成型的過程。但如果沒有系統化的審核機制，你就只能靠"生成→看效果→不滿意→換個提示詞再試"的隨機試錯。

我的做法是在系統內部建審核閉環。每個階段完成後，導演做兩步審核。

第一步，業務審核。

這一步用的是階段專屬的審核 Skill——審導演自己的講戲用 script-analysis-review-skill，審服化道的設計用 art-direction-review-skill，審分鏡師的提示詞用 seedance-prompt-review-skill。每個維度單獨打分，1 到 10 分。

通過條件是：平均分 ≥ 8，且任何單項不低於 6。

為什麼用評分制而不是簡單的通過/不通過？

因為通過/不通過的顆粒度太粗。AI 做審核的時候，如果只需要給一個"通過"或"不通過"，它很容易放水——"差不多就行了"。但如果要求它對每一個維度單獨打分，它就必須逐個維度做判斷，不能含糊過去。

為什麼是"平均≥8 且單項不低於6"？平均≥8 保證整體質量。單項不低於 6 防止木桶效應——一條提示詞可能忠實度 9 分、畫面還原 9 分，但音頻設計只有 3 分，因為分鏡師完全忘了寫背景音樂和環境音效。如果只看平均分，這條提示詞可能還是過了，但生成出來的視頻會是啞的。

第二步，合規審核。

用 compliance-review-skill，檢查內容有沒有觸碰平台紅線：真人肖像限制、版權 IP 限制、政治敏感、宗教、色情暴力、未成年人保護、仇恨歧視。這一步不打分，只有通過或不通過。

兩步審核都通過，才能進入下一階段。任何一步不通過，所有問題會被合併成一份修改清單，一次性發回給對應的 Agent 修改。

為什麼業務和合規要分開做，而不是合成一步？

因為這兩個維度的判斷邏輯完全不同。業務審核看的是專業質量——講戲的畫面感夠不夠、設計的辨識度高不高、提示詞的運鏡合不合理。合規審核看的是紅線——有沒有觸碰平台不允許的內容。一個是程度判斷（好不好），一個是邊界判斷（行不行）。混在一起容易顧此失彼。

但分開審核的問題是效率——如果業務審核通過了、合規審核沒通過，改完合規再回來改業務，來回折騰。所以我的設計是先做業務、再做合規，兩輪的問題合併成一份清單，Agent 一次性修改所有問題，修改完再重新走兩步審核。一次拿到所有問題，一次改完。

審核環節裏最精妙的方法論叫"腦內預演"。

導演審核分鏡師提示詞的時候，不是在看文字——"嗯，格式對了，@引用寫了，敍事描述式用了，通過。"他做的是：閉上眼，想象把這條提示詞丟進 Seedance 2.0，生成出來的視頻畫面是什麼樣的。然後拿這個想象出來的畫面，跟自己當初講戲時腦子裏的畫面做比對。一致就通過，不一致就打回去，並且說清楚哪裏不一致、為什麼不一致、應該怎麼改。

這是唯一能在實際生成之前發現問題的方法。等你真的丟進 Seedance 生成了再發現不對，時間和算力已經花出去了。

IX — 素材對應表和 @引用：視覺信息的系統化組織

到分鏡師這一步，所有上游產物要被融合成一條可以直接複製到 Seedance 2.0 的提示詞。

這裏面有一個你可能覺得瑣碎但其實極其關鍵的設計：素材對應表。

分鏡師要做的第一件事，不是開始寫提示詞，而是建一張表。這張表把每個 @引用編號跟具體的素材一一對應——@圖片1 是林書白的角色參考圖，@圖片2 是幼年林書白，@圖片3 是楚講師，@圖片5 是簡陋住處，@圖片6 是青雲文院大門。編號順序是先人物再場景，按照 character-prompts 和 scene-prompts 裏的出場順序排列。

為什麼需要這張表？

因為一個項目的素材數量可以很多。一集可能有 4 個角色、9 個場景，加起來 13 個素材。分鏡師在寫不同劇情點的提示詞時，需要反覆引用這些素材。如果沒有一張統一的對應表，每條提示詞裏的 @圖片1 可能指的是不同的東西——這條裏 @圖片1 是林書白，那條裏 @圖片1 變成了場景。一旦混亂，Seedance 生成出來的畫面就會錯。

素材對應表是全文檔的總映射，保證每一條提示詞裏的每一個 @引用都指向同一個素材。

這裏有一個容易犯的錯誤，我在審核 Skill 裏專門標註了。

場景參考圖是用九宮格一次性生成的——一條提示詞丟進 Nano Banana，出來一張 3×3 的圖，9 個場景全在上面。但你實際使用的時候，需要把每個格子單獨裁出來，一個場景一張圖，分別上傳到 Seedance。所以在素材對應表裏，每個場景必須獨立編號為一個 @圖片——不能把整張九宮格當成一個 @圖片。

如果分鏡師犯了這個錯誤，導演在審核時會直接 FAIL，因為 seedance-prompt-review-skill 裏明確寫了這條檢查規則。

建好對應表之後，分鏡師在每條提示詞的開頭聲明素材引用。這裏有另一條硬性要求：每個 @引用必須明確說明用途。

不能寫"參考 @圖片1"。太模糊。Seedance 不知道你要它參考這張圖的什麼——人物形象？服裝？姿態？構圖？

必須寫"以 @圖片1 中的人物形象為主角"或者"場景參考 @圖片5 的空間佈局和光線氛圍"。用途越明確，Seedance 的理解越準確。

這套 @引用系統的本質，是把視覺信息系統化地組織起來。人物是人物，場景是場景，動態是動態，各自有各自的載體，各自有各自的編號，指向關係清清楚楚。

比"把所有東西塞進一條提示詞"好在哪？好在可複用——同一張角色參考圖可以在不同劇情點被不同提示詞引用，角色的視覺一致性自動就保證了。你不需要在每條提示詞裏重新描述角色長什麼樣，也不需要祈禱 Seedance 在不同提示詞裏生成的同一個角色長得一樣。參考圖鎖住了視覺基準，提示詞只管描述變化。

X — 從一集到十集：設計資產的跨集累積

這套系統不是為做一集而設計的。

現實項目通常有多集。如果每做一集都從頭設計所有角色和場景，工作量線性增長。但實際上大多數角色和場景是跨集複用的——主角每集出現，核心場景前幾集反覆使用。

所以服化道生成的設計資產是全局共享、跨集累積的。

人物參考提示詞和場景參考提示詞分別存在 assets 文件夾下。做第一集時，服化道為所有新角色和新場景設計提示詞，寫入文件。做第二集時，導演分析完劇本後會在人物清單和場景清單裏標註每項的"素材狀態"——新增、複用還是變體。

新增：第一次出場的角色或場景，需要服化道設計提示詞。複用：跟已有素材完全一致，直接用，跳過設計。變體：同一角色但外觀有變化——比如換了衣服、年齡變化、受傷——需要服化道基於原版設計一個變體版本。

服化道只處理新增和變體，追加到文件末尾。到了第五集、第十集，你已經積累了一個完整的角色庫和場景庫，每做一集新的只需要處理增量。

與跨集累積配合的是 Resumable Subagents 的作用域設計。

同一集內，所有 Agent 的上下文是連續的——導演分析完劇本去審核服化道設計，再去審核分鏡提示詞，三次調用恢復同一個對話。他記得自己講戲時的每一個細節設定，審核時不會遺漏。

跨集時，所有 Agent 的狀態重置，重新創建。因為不同集數的劇情內容差異大，如果把五集的上下文全累積在一個 Agent 的對話裏，信息量會溢出，反而影響判斷質量。新一集、新的上下文、乾淨的起點。

還有一個設計決策值得說：為什麼整條流水線中間有一步是手動的？

生成參考圖這一步——拿着服化道寫好的提示詞去 Nano Banana Pro 生成圖片——是整條鏈路裏唯一需要你手動操作的環節。

這不是沒法自動化。而是在當前階段，文生圖的質量需要人眼把關。AI 能寫出好的提示詞，但生成出來的圖是否"對味"——角色的氣質對不對、場景的氛圍準不準、某個細節需不需要調整——只有你自己能判斷。這一步留給人，是刻意的。

最後

回過頭看這套系統，它做的事情其實可以用一句話概括：把專業影視前期的工作流程翻譯成了 AI 可以執行的協作系統。

四個角色各司其職，三次翻譯層層遞進。參考圖已見原則重新定義了提示詞應該寫什麼。敍事描述式匹配了 Seedance 2.0 的理解方式。節拍密度和安全區把物理限制變成了硬性規則。方法論、模板、示例、審核標準四個組件確保每一個 Agent 不是在憑直覺行事，而是在一套專業規範內執行。雙重審核加評分制保證質量下限。跨集累積和 Resumable Subagents 解決了從一集到十集的擴展性。

每一個決策都不是拍腦袋定的。每一條規則背後都有一個"為什麼"。

工具會一直在變。Seedance 2.0 之後會有 3.0，Nano Banana 之後會有新的模型。但把一個複雜任務拆解成專業分工、用規範約束質量、用審核閉環迭代優化的這套思路——這個不會變。

希望這篇文章讓你看到的不只是一套系統，而是系統背後的設計邏輯。因為如果你真正理解了這些邏輯，你可以用同樣的方法論，去設計你自己的系統。

👑 這篇文章裏講解的 Seedance 2.0 分鏡師團隊的完整配置文件屬於付費內容，已整理打包放在廢才俱樂部中。

原創不易，從架構設計到方法論提煉到實戰迭代，這套系統是我用真金白銀的 token 一篇一篇文章跑出來的。

感謝支持。歡迎加入廢才俱樂部。