AI短劇Skill開源啦!如何用GPT-Image-2+SeeDance2.0製作AI短劇

作者:Draco正在VibeCoding
日期:2026年5月4日 下午12:48
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI短劇Skill開源!用GPT-Image-2Seedance2.0自動化製作短劇,關鍵在於穩定嘅參考素材

整理版摘要

呢篇文章係由開發者DracoHu分享佢開源嘅AI短劇生產線Skill,整合GPT-Image-2Seedance2.0,基於飛書多維表格自動化生成短劇。作者嘅目的係降低AI短劇製作門檻,令有基本技術背景嘅用戶都可以快速產出穩定嘅迷你劇。整體結論係:要成功運行呢個pipeline,關鍵係準備好高質量嘅參考素材——人物參考(CRS或官方形象庫asset ID)、場景參考(SES)、服飾參考(WR),同埋格式化嘅腳本。只要呢啲準備充足,pipeline就可以全自動生成視頻。

文章詳細講解咗前置條件:需要GPT-Image-2生成素材,Seedance2.0 API生成視頻,Hermes Agent加飛書做基建,同埋公網可訪問嘅存儲桶放參考文件。作者特別強調Seedance2.0嘅參考能力好強大,支援最多9張圖、3段視頻、3段音頻做參考,所以只要俾出穩定嘅參考,視頻一致性好高。佢提供咗CRS同SES嘅具體Prompt模板,教大家點樣生成專業級嘅角色設定表同場景環境圖。

另外,文章仲講解咗腳本格式:支援單幕同多幕輸入,導演模塊會自動根據對白生成逐秒導演稿,確保角色動作、鏡頭、空間關係一致。多幕模式下每個幕獨立生成視頻,最後用ffmpeg拼接,可以製作超過30秒嘅短劇。作者亦提醒用戶,雖然pipeline自動化,但都要理解背後流程,咁樣先可以喺出錯嗰陣有效除錯。

  • 結論:開源嘅Skill整合GPT-Image-2Seedance2.0,可自動化生成AI短劇,大幅降低製作門檻。
  • 方法:需要準備穩定嘅人物參考(CRS或官方asset ID)、場景參考(SES)、服飾參考(WR),同埋格式化嘅腳本。
  • 差異:相比直接Prompt生成,呢個pipeline透過多種參考圖鎖定角色同場景一致性,顯著提升視頻穩定性同連貫性。
  • 啟發Seedance2.0嘅參考機制好強大,善用圖、視頻、音頻參考可以精準控制人物、環境、動作節奏。
  • 可行動點:用戶可以fork GitHub倉庫,按文章指引配置飛書CLIAPI,跟住範本生成CRS同腳本,即可開始製作短劇。
值得記低
連結 github.com

GitHub 倉庫

DracoHu 開源嘅 Skill 倉庫,包含飛書 pipeline 同完整使用說明。

Prompt

Character Reference Sheet (CRS) 模板

用嚟生成多視圖角色設定表,包括表情、姿勢、手勢等,確保Seedance人物一致。

Prompt

Scene Environment Settings (SES) 模板

用嚟生成單一連貫嘅電影級場景參考圖,鎖定環境背景。

整理重點

前置條件同工具準備

要運行呢個Skill,首先要準備好圖像生成、視頻生成、自動化平台同存儲基建。作者用咗Hermes Agent配合Codex Auth登錄獲取GPT-Image-2工具,如果唔係呢個方式,就需要改用OpenRouter API或者其他圖像生成工具,但效果可能會有差異。

公網存儲桶係必備基建,否則參考圖無法被Seedance訪問。

  • 圖像生成GPT-Image-2(建議用Hermes Agent方式)或Nano Banana Pro/2、SeeDream5.0
  • 視頻生成SeeDance2.0Fast版,建議用火山引擎官方API或即夢CLI
  • 自動化平台Hermes + 飛書多維表格(或者其他支持飛書Agent嘅gateway)
  • 雲端存儲:需要公網可訪問嘅存儲桶放參考圖、視頻、音頻檔案

如果唔用Hermes Agent方式,就要改用API,但可能需要調試Prompt。

另外,需要登錄飛書CLI,因為整個產線係基於飛書多維表格。其他類似工具(如企微智能表格)都可以用,但要額外調試。

整理重點

Seedance2.0 能力同參考素材

Seedance2.0除咗文字Prompt,仲支援最多9張圖片、3段視頻、3段音頻做參考。API主體結構如下:

Seedance2.0 API 示例 json
{
 "model":"doubao-seedance-2-0-260128",
 "content":[
 {
 "type":"text",
 "text":"完整 Prompt"
 },
 {
 "type":"image_url",
 "image_url":{
 "url":"https://example.com/ref1.png"
 },
 "role":"reference_image"
 },
 {
 "type":"video_url",
 "video_url":{
 "url":"https://example.com/ref_video.mp4"
 },
 "role":"reference_video"
 },
 {
 "type":"audio_url",
 "audio_url":{
 "url":"https://example.com/ref_audio.mp3"
 },
 "role":"reference_audio"
 }
 ],
 "ratio":"16:9",
 "duration":12,
 "generate_audio":true,
 "watermark":false
}

Seedance API支援最多9張圖、3段視頻、3段音頻參考。

喺呢個Skill中,主要用圖片做參考,分為三類:

  • Character Reference Sheet (CRS):角色多視圖設定表,確保人物外觀一致。作者提供咗詳細Prompt模板,包括表情、手勢等。
  • Scene Environment Settings (SES):場景環境參考圖,鎖定背景。Prompt同樣好詳細,例如要求邵氏電影風格酒樓。
  • Wardrobe Reference (WR):服飾參考圖,用人物形象庫時需要用WR鎖定衣着(如果無用形象庫,CRS已包含衣着)。

官方形象庫asset ID可以取代CRS,但需要額外WR鎖定衣着。

跟參考能力係Seedance最大優勢,一定要善用。

如果使用真人形象,可以喺火山引擎官方虛擬人像庫揀人像並複製asset ID,然後喺API payload中填入。咁樣就可以唔使CRS,直接用WR鎖定衣着。

整理重點

腳本格式同導演模塊

腳本可以係單幕或者多幕。作者示範咗兩個版本:第一個係單幕土味情話,第二個係兩幕故事(包括A-Ling化妝同睇書場景)。

導演模塊會根據腳本自動生成給Seedance嘅詳細Prompt,包含「對白鎖定」同「逐秒導演稿」。

對白鎖定:8句對白必須逐字出現,順序、文字、標點完全唔可以改。

逐秒導演稿:每秒定義鏡頭構圖、角色動作、空間錨點、道具狀態、對白同音效。

多幕模式下,每幕獨立提交任務,完成後用ffmpeg拼接。咁樣就可以製作更長、更複雜嘅短劇。

多幕模式下,每幕獨立生成,避免互相干擾。

ffmpeg拼接係最後一步,確保流暢過渡。

整理重點

小結同實戰建議

總括嚟講,呢個Skill將複雜嘅AI短劇製作流程自動化,但關鍵仲係在於準備好穩定嘅參考素材。作者建議用戶親自讀完文章,理解背後邏輯,咁樣先可以順利除錯。

穩定嘅人物參考(CRS或asset ID)同場景參考(SES)係成個pipeline嘅根基。

Seedance2.0跟參考能力好強,唔好低估參考圖嘅重要性。

另外,可以試下更極端嘅玩法:直接用GPT-Image-2生成9格或16格分鏡,然後餵俾Seedance直出全片。不過如果想做穩定嘅短劇,鎖死人物、服、化、道、環境先係正道。

除錯時要先檢查導演模塊輸出嘅Prompt係咪符合預期。

你好大可能睇過呢個「臭貓」土味情話系列嘅視頻,或者再之前嘅「醬板鴨」反轉系列,呢幾日我將類似嘅迷你劇/短劇生產線封裝成咗skill,今日開源俾大家玩:






skill倉庫地址:

https://github.com/dracohu2025-cloud/draco-skills-collection/tree/main/feishu-seedance-video-pipeline

歡迎使用,順便俾個Star~


雖然話係個skill,但為咗保證pipeline嘅穩定,其實內部流程都幾複雜(完善)嘅:

image

前置條件/生產工具/環境準備

1.
所有圖片素材/物料:GPT-Image-2

我用嘅係Hermes Agent採用Codex Auth登錄下獲得嘅image_generate工具,如果你都用相同模式,咁恭喜你,呢個skill唔使改造你就可以直接用;但如果你冇辦法用呢種方式,你就需要用其他方式獲取GPT-Image-2,例如OpenRouter上嘅API,或者某啲中轉站嘅API;都可以用Nano Banana Pro/2或者SeeDream5.0,但效果可能會有差異,你可能需要做唔少Prompt嘅調試工作...

2.
所有視頻生產:SeeDance2.0(或SeeDance2.0 Fast,當然,Fast模式穩定性會弱少少,但係都平啲)

我係直接採用火山引擎SeeDance2.0嘅API,你可以用即夢CLI,或者小云雀嘅API,或者其他有SeeDance2.0接口嘅中轉站

3.
基建:Hermes+飛書(或OpenClaw、或其他gateway可以打通飛書Agent)
4.
已登錄飛書CLI

因為成條產線係靠飛書多維表格嘅(如下圖),所以最好係打通咗飛書CLI嘅環境;其他類似多維表格嘅文檔工具都得(例如企微智能表格),但你都可能需要做啲額外調試

image
5.
雲端存儲/圖牀/存儲桶

由於SeeDance2.0接收嘅圖片、視頻、音頻等素材都係用URL/URI形式,所以你要確保所有作為參考輸入俾SeeDance嘅素材都需要係公網可訪問嘅連結形式;

產線拆解

知其然,知其所以然。

等我哋先了解下Seedance2.0嘅能力,方便之後講解。

Seedance2.0除咗大家最熟悉嘅文本Prompt之外,重支持:

最多9張圖片作為「reference image」
最多3段視頻作為「reference video」
最多3段音頻作為「reference audio」

API主體示意如下:

{ 
  
"model":"doubao-seedance-2-0-260128",
  
"content":[
    
{
      
"type":"text",
      
"text":"完整 Prompt。可寫:[圖1]是角色,[圖2]是場景,第一個 reference_video 是動作節奏參考,第一個 reference_audio 是語氣參考。"
    
},
 

    
{
      
"type":"image_url",
      
"image_url":{
        
"url":"https://example.com/ref1.png"
      
},
      
"role":"reference_image"
    
},
 

    
{
      
"type":"video_url",
      
"video_url":{
        
"url":"https://example.com/ref_video.mp4"
      
},
      
"role":"reference_video"
    
},
 

    
{
      
"type":"audio_url",
      
"audio_url":{
        
"url":"https://example.com/ref_audio.mp3"
      
},
      
"role":"reference_audio"
    
}
  
],
  
"ratio":"16:9",
  
"duration":12,
  
"generate_audio":true,
  
"watermark":false
}

以一個參考圖為例,可以見到:輸入俾Seedance2.0嘅參考圖需要係公網可訪問嘅連結形式!音頻同視頻都係咁。


  "type": "image_url", 
  "image_url": { 
    "url": "https://example.com/ref1.png" 
  }, 
  "role": "reference_image" 
}

在我封裝嘅skill/pipeline入面主要採用圖片作為Reference,主要分為以下幾類:

Character Reference Sheet(簡稱CRS):即係輸入俾SeeDance2.0嘅人物參考圖
image
image

參考Prompt template如下(呢個模板對Seedance嚟講好穩定,建議直接用):

生成一張專業電影角色設定表:CHARACTER REFERENCE SHEET。只畫一隻黑白 tuxedo 家貓 Hei-Bai 的多視圖參考。白底技術設定表,無任何環境背景。
重點:底部必須清楚出現一個獨立大區塊,英文標題必須是 HAND / PAW GESTURES。這個區塊中必須有 5 個分格,分別畫貓前爪動作:relaxed paw、tense paw、pointing paw、gripping sleeve、subtle paw near face。每格必須能看見肉墊、爪形、抓握或指向動作。不要把這個區塊省略,不要只畫袖口。
完整版式必須包含:
- Top row left: CHARACTER REFERENCE SHEET title + horizontal info block: Name Hei-Bai, Alias Tuxedo Trickster, Role Comic Tavern Guest, Age Adult Cat, Personality sly stubborn nervous funny, Core Theme unlucky tough-talking diner, Speech Accent streetwise Hong Kong cadence.
- Top row right: COLOR PALETTE, 6-8 clean swatches.
- Center largest section: MAIN IDENTITY + SCALE SHEET. Same subject only. Show Front, 3/4 View, Side, Back over subtle measurement guide lines. Include SILHOUETTE GUIDE.
- Right column: EXPRESSION PROGRESSION with 8 panels: Neutral, Curious, Worried, Surprised, Afraid, Sad, Determined, Relieved. MICRO EXPRESSIONS with 5 panels. HEAD DETAIL SHEET with 5 angles. NEUTRAL BASELINE. POSTURE VARIATION with relaxed, tense, confident. CLOSE-UP POSE with pure white background.
- Bottom row: WARDROBE / ACCESSORIES DETAILS exactly 4 callouts; PROP exactly 1 isolated small wooden tavern stool; HAND / PAW GESTURES exactly 5 paw gesture panels.

你可以根據呢個template加其他要求

Scene Environment Settings(簡稱SES):即係故事發生喺咩場景
image
image

呢部分冇特定template,下面嘅Prompt僅供參考,你完全可以用語言描述任何你想要嘅場景:

生成一張單一連貫的電影級 Scene, Environment, and Settings reference image(場景、環境與設定參考圖),用於後續視頻生成鎖定同一酒樓空間。
核心目標:邵氏電影寫實風格的古風酒樓內景,畫面中心是一張完全空的圓形木質餐桌。整個場景只保留大塊穩定結構,不要任何小器皿、小罐子、杯碗盤筷、食物或櫃枱雜物。
畫面必須這樣構成:
- 16:9 橫屏電影畫面,中廣角建立鏡頭。
- 最大視覺錨點:一張圓形木質餐桌,嚴格居中,桌面完全為空。
- 桌面上不能有任何東西:沒有雞、沒有菜、沒有盤子、沒有碗、沒有筷子、沒有杯子、沒有酒壺、沒有托盤、沒有罐子、沒有食物殘渣。
- 圓桌左側一張低木凳,右側一張低木凳,凳子清楚但不要太多。
- 右後方有空的布簾入口,作為服務員入場動線。
- 左側地面和桌邊留出乾淨空位,右側凳子後方也留出乾淨空位。
- 背景用大塊木牆、木柱、窗格、布簾、燈籠、木地板來構成,不要酒櫃,不要貨架,不要櫃枱陳列,不要瓶罐,不要茶壺,不要餐具架。

視覺風格:邵氏電影寫實風格,1970年代香港古裝武俠棚拍酒樓,暖琥珀燈籠光,深色木樑木柱,暗紅布簾,輕微煙霧,真實電影感,膠片顆粒,市井喜劇氣氛。
空間要求:圓桌居中、左右凳子清楚、後方入口動線清楚、左右動作空間清楚。畫面不能太擁擠,背景乾淨,所有穩定道具必須大而清晰。
嚴格禁止:沒有人物,沒有貓,沒有動物,沒有角色剪影,沒有人影,沒有手腳身體局部;沒有雞,沒有菜,沒有盤子,沒有碗,沒有筷子,沒有杯子,沒有酒壺,沒有托盤,沒有瓶罐,沒有小器皿,沒有食物,沒有櫃枱陳列物;沒有文字,沒有中文字符,沒有可讀招牌,沒有標籤,沒有字幕,沒有標題,沒有 UI,沒有 logo,沒有 watermark,沒有箭頭,沒有圖表,沒有分鏡邊框,沒有多宮格;沒有現代物品,沒有霓虹燈,沒有塑料傢俱。
輸出:一張乾淨、可複用、餐桌為中心的邵氏電影古風酒樓場景環境設定參考圖。
Wardrobe Reference(簡稱WR)

如果你係直接採用火山引擎提供嘅人像素材庫(即係話,人臉本身一定係穩定嘅),咁你就冇需要提供人物嘅CRS;但係人除咗臉重有服飾都需要保持穩定,呢度就需要WR作為參考...

image

WR嘅template如下,僅供參考:

Create a clean Wardrobe Reference image for later AI video generation. It should show ONE consistent outfit only, designed for an adult female character in a 1970s-1980s Shaw Brothers style bedroom comedy short film: a tasteful small floral camisole top and matching short floral skirt, vintage warm colors, light fabric, same pattern and colors across every view. Layout like a fashion design reference sheet: front view, side view, back view on neutral faceless mannequin or dress form, plus close-up panels for fabric pattern, neckline/strap detail, skirt hem detail, and overall silhouette. No face, no identifiable person, no character identity, no text, no labels, no arrows, no logo, no watermark, no extra outfits, no modern fashion styling, no nudity, no lingerie look. Plain neutral studio background. High-quality realistic fashion reference sheet, consistent wardrobe across all views.

如何使用真人面容-官方形象庫

火山引擎SeeDance2.0嘅API接口唔接受真人形象,想用真人形象就要用官方提供嘅虛擬人像庫。

你需要先打開官方虛擬人像庫嘅素材權限:

https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement

image

然後再去虛擬人像庫,揀你鍾意嘅人像,撳右上角將人像嘅asset ID複製出嚟;得到asset ID之後,你需要將呢個ID話俾你嘅Agent知,叫佢按照迷你劇skill入面嘅格式將呢個ID填入API payload入面;

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision

image

當你搞掂以上內容之後,恭喜你,你可以喺Seedance生成視頻嘅過程中擁有穩定嘅環境場景同人物形象。

跟住,你只要俾呢個pipeline/skill輸入故事劇本就得。

劇本劇本🌟🌟🌟

故事劇本冇一定嘅規則,以下只係我比較隨意嘅版本,僅供參考:

## 人物:
女主角A-Ling:
資產ID:asset-20260320095733-gx8rw
特徵:金色長直髮
穿着:碎花吊帶,碎花短裙
奶牛貓Hei-Bai:
特徵:黑白相間的奶牛貓
衣着:無需穿人類的衣着

## 故事情節:
A-Ling正在吃麪,Hei-Bai突然跳上桌子跟A-Ling說:“主人,我最近總是犯困”。
A-Ling問:“你是不是總熬夜啊?”
Hei-Bai一臉色眯眯的看着A-Ling,回答:“其實我沒有,我是為你所困~”
A-Ling面色微紅,嬌嗔的拍了Hei-Bai一巴掌(但是心裏是開心的),說“壞貓,油嘴滑舌!”
Hei-Bai接着跟A-Ling說:“主人,我想喝點東西~”
A-Ling問:“好啊,你想喝什麼?”
Hei-Bai接着一臉認真的說:“呵護你!”
A-Ling一撅嘴怒道:“你這都從哪學的!臭貓!”,同時伸出大長腿把Hei-Bai給踢飛了!

## 聲音:
Hei-Bai的聲音酷似周星馳的國語配音
A-Ling的聲音甜美可愛

## 風格和環境:
邵氏電影風格,七八十年代的普通人家的卧室;

Pipeline/Skill入面嘅Director模組會自動判斷視頻時長(短:6s-8s;中:8s-12s;長:12s-15s)

呢個Director模組都支持分為「多幕」嘅劇本輸入,例如:

## 人物:
女主角A-Ling:
資產ID:asset-20260320095351-q975r
特徵:黑色柔順長髮及腰,空氣劉海
穿着:碎花吊帶,碎花短裙
奶牛貓Hei-Bai:
特徵:黑白相間的奶牛貓
衣着:無需穿人類的衣着
三花貓San-Hua:
特徵:黑白黃三花貓
衣着:無需穿人類的衣着

##故事情節:
### 第一幕:
A-Ling正在化妝,Hei-Bai突然跳到A-Ling腿上說:“主人,你猜我是喜歡南京還是北京?”
A-Ling略作思考,回答說:“南京!”
Hei-Bai說:“錯!我喜歡你的眼睛!” ;邊說邊把臉湊到A-Ling的眼前;
A-Ling微笑着說:“壞貓,油嘴滑舌!”
Hei-Bai接着說:“那你猜我喜歡機械錶還是電子錶?”
A-Ling回答說:“機械錶!”
Hei-Bai說:“錯!是你美麗的外表!”
A-Ling嬌嗔的說:“你這都從哪學的!臭貓!”,同時伸出大長腿把Hei-Bai給踢飛了!

### 第二幕:
A-Ling正在看書,Hei-Bai和San-Hua分別卧在A-Ling的腿兩側;
San-Hua突然跳到A-Ling腿上說,“主人,我突然感覺頭疼!”
A-Ling放下書,親了親San-Hua的頭,然後摸了摸San-Hua的頭,温柔的說:“還疼麼?”
San-Hua說“不疼了。 不過,我覺得我的手又有點疼!”
A-Ling又握住San-Hua的爪子親了親,然後問“還疼麼?”
San-Hua回答“都不疼了”,然後可愛的在A-Ling的腿上打滾,露出肚子讓A-Ling撓。
Hei-Bai一直在旁邊看着。這時突然說“那個......主人......我最疼”
A-Ling怒道:“臭貓!”,同時伸出大長腿把Hei-Bai給踢飛了!

## 聲音:
Hei-Bai的聲音酷似周星馳的國語配音石班瑜的聲音
A-Ling的聲音甜美可愛

## 風格和環境:
邵氏電影風格,七八十年代的普通人家的卧室;


<hr />

## 請基於以上腳本生成視頻,要求:
每一幕應該是單獨的一條Seedance任務;
不同的“幕”共享相同人物的CRS和SES;
最後需要用ffmpeg把不同幕的視頻拼接成一條完整的視頻;

注意:

喺「多幕」模式下,每一幕都會單獨作為一條seedance任務提交俾火山引擎;
當每條都完成之後,pipeline/skill會調用ffmpeg將多條視頻進行拼接;

所以,邏輯上呢個pipeline唔單止支持15秒以內嘅迷你劇,重支持更長、多場景、多人物嘅短劇;由於時間有限,我只測試咗30秒以內嘅情況,基本穩定。

此外,我建議你瞭解下「Director模組」拆分並寫俾Seedance嘅Prompt結構類似下面咁樣:

【Dialogue Lock|對白鎖定】
以下8句對白必須逐字出現,順序、文字、標點、語氣詞、波浪號完全不變;不得改寫、合併、移動、補台詞或刪台詞:
1. Hei-Bai:“主人,我最近總是犯困”
2. A-Ling:“你是不是總熬夜啊?”
3. Hei-Bai:“其實我沒有,我是為你所困~”
4. A-Ling:“壞貓,油嘴滑舌!”
5. Hei-Bai:“主人,我想喝點東西~”
6. A-Ling:“好啊,你想喝什麼?”
7. Hei-Bai:“呵護你!”
8. A-Ling:“你這都從哪學的!臭貓!”

【整體風格與硬約束】
整體採用邵氏電影風格,七八十年代的普通人家的卧室,暖琥珀燈光、木牀、舊櫃子、小方桌、一碗麪、輕微棚拍煙霧,真實電影質感。全片可見角色固定為2名:A-Ling女主角、Hei-Bai黑白相間奶牛貓。不得出現額外人、額外貓、背景貓、鏡中複製角色或第三隻動物。
A-Ling是成人女性,使用官方預置人像資產保持臉型、金色長直髮、年齡感、體態和自然真實表情;服裝必須替換為碎花吊帶上衣和碎花短裙,健康棚拍喜劇風,不裸露、不色情化,不沿用官方資產默認服裝。Hei-Bai必須保持胖乎乎黑白相間奶牛貓/燕尾服家貓外觀,真實貓身體,沒有牛角、牛鼻、牛蹄、牛身體、衣服或擬人化身體。
【參考圖使用方式】
content[] 中第1個 reference_image 項是 A-Ling 官方虛擬人像資產 asset-20260320095733-gx8rw,只用於臉型、金色長直髮、年齡感、體態、表情和身份連續性;服裝按本文本改為碎花吊帶上衣和碎花短裙。
content[] 中第2個 reference_image 項是 Hei-Bai 的 Character Reference Sheet,所有面板都是同一只Hei-Bai,只用於黑白奶牛貓花紋、圓胖體型、貓臉、表情範圍和真實貓動作,禁止復現設定表版式、英文標籤、分區線或生成多隻貓。
content[] 中第3個 reference_image 項是 Scene, Environment, and Settings reference image,只用於七八十年代卧室佈局、小方桌、麪碗、木牀、舊傢俱、暖燈光和材質;不要繼承場景圖中的任何文字、圖表、人物、貓或額外食物。
【空間關係硬約束】
小方桌始終是畫面中心偏左最大空間錨點,桌上只有一碗麪和一雙筷子。A-Ling始終在畫面右側或桌子右側坐着吃麪,最後從右向左伸腿踢出。Hei-Bai從左側或左下方跳上小方桌,主要停在桌面左側或中左側,最後被A-Ling從右向左踢向左側畫外。牀始終在右後方作為卧室錨點。禁止反打跨軸導致左右互換,禁止角色瞬移,禁止A-Ling跑到左側,禁止Hei-Bai出現在右側,禁止多隻Hei-Bai。
【道具與狀態硬約束】
全片只有一碗麪作為主要食物道具。A-Ling開場正在吃麪,筷子在右手或碗邊,麪碗始終在小方桌上。不要出現多碗麪、額外菜餚、可讀文字、手機、電視、現代電子產品、字幕、對白氣泡、水印或屏幕內文字。土味情話只作為對白,不要實體化成文字或圖案。
【音頻與聲音】
生成中文對白音頻。A-Ling聲音甜美可愛、輕柔少女感,但保持成人女性自然表演。Hei-Bai聲音是酷似港片無厘頭誇張國語配音男聲,尖亮、拖腔、節奏欠揍、喜劇感強。對白必須清楚,環境音輕微:筷子碰碗、貓跳上桌、輕拍、最後踢飛的喜劇音效。不要生成字幕。
【逐秒導演稿】
[0-2秒] 鏡頭構圖與運鏡:中廣角建立鏡頭,七八十年代普通卧室內,小方桌中心偏左,A-Ling坐在桌右側吃麪,鏡頭輕輕推近。角色動作:A-Ling用筷子吃麪,表情放鬆。空間錨點/道具連續性:一碗麪固定在桌上,木牀在右後方。對白/音效:筷子輕碰碗,無對白。
[2-3.5秒] 鏡頭構圖與運鏡:鏡頭保持桌面中景,左下方Hei-Bai跳上桌子,落在桌面左側。角色動作:Hei-Bai抬頭看A-Ling,認真又有點撒嬌。空間錨點/道具連續性:A-Ling仍在右側,貓在左側,不跨軸。對白/音效:Hei-Bai說:“主人,我最近總是犯困”。
[3.5-5秒] 鏡頭構圖與運鏡:切到A-Ling中近景,鏡頭從碗邊緩慢推到臉。角色動作:A-Ling停下筷子,疑惑又關心地看向桌左側。空間錨點/道具連續性:桌面和麪碗仍在前景。對白/音效:A-Ling問:“你是不是總熬夜啊?”。
[5-7秒] 鏡頭構圖與運鏡:切回Hei-Bai桌面近景,輕微低機位增強喜劇感。角色動作:Hei-Bai一臉曖昧壞笑地看着A-Ling,尾巴輕甩,語氣拖腔。空間錨點/道具連續性:Hei-Bai仍在桌面左側。對白/音效:Hei-Bai回答:“其實我沒有,我是為你所困~”。
[7-8.5秒] 鏡頭構圖與運鏡:雙人中景,A-Ling在右、Hei-Bai在左,鏡頭微微搖晃製造邵氏喜劇節奏。角色動作:A-Ling面色微紅,嬌嗔地輕拍Hei-Bai一巴掌,但心裏開心,動作是喜劇輕拍不能傷害。空間錨點/道具連續性:麪碗不翻倒。對白/音效:A-Ling說:“壞貓,油嘴滑舌!”。輕拍音效。
[8.5-10秒] 鏡頭構圖與運鏡:桌面中近景,Hei-Bai被輕拍後立刻恢復認真臉,身體前傾。角色動作:Hei-Bai繼續盯着A-Ling,像在鋪第二個梗。空間錨點/道具連續性:貓仍在左側,A-Ling右側入畫。對白/音效:Hei-Bai說:“主人,我想喝點東西~”。
[10-11.5秒] 鏡頭構圖與運鏡:切到A-Ling右側中近景,暖光打臉,保留桌邊和貓的局部輪廓。角色動作:A-Ling好奇地歪頭,語氣温柔。空間錨點/道具連續性:她仍坐在桌右側。對白/音效:A-Ling問:“好啊,你想喝什麼?”。
[11.5-12.8秒] 鏡頭構圖與運鏡:切回Hei-Bai正面近景,輕微推近到貓臉。角色動作:Hei-Bai忽然一臉認真,停頓半拍後說出包袱。空間錨點/道具連續性:不要出現文字。對白/音效:Hei-Bai說:“呵護你!”。
[12.8-15秒] 鏡頭構圖與運鏡:快速切回雙人中景再輕微拉遠,保留桌面、牀、舊傢俱。角色動作:A-Ling一撅嘴怒道,右腿從右向左伸出,把Hei-Bai喜劇化踢飛到左側畫外;動作誇張但卡通安全,不血腥不受傷。Hei-Bai飛出時四爪張開,保持黑白奶牛貓身份。空間錨點/道具連續性:桌子、麪碗、牀位置不變,貓從左側畫外飛走,禁止多貓。對白/音效:A-Ling怒道:“你這都從哪學的!臭貓!”。隨後是誇張喜劇飛走音效。
【負面約束】
不要字幕、不要文字、不要對白氣泡、不要分鏡格、不要Logo、不要水印、不要現代物件、不要額外角色、不要額外貓、不要把Hei-Bai變成人、牛或穿衣服、不要把A-Ling服裝改成非碎花吊帶和碎花短裙、不要改變左右站位、不要改寫對白。

邏輯上呢部分係唔使你寫嘅,但係如果你發現視頻質量好差,咁你可以喺多維表格入面揾到對應嘅項,反查係咪Director模組跑飛咗,寫咗錯嘅或者低質量嘅Prompt。


小結

邏輯上,當你準備好前置條件,以及輸入劇本之後,呢個skill/pipeline就可以全自動將一條迷你劇/短劇跑出嚟。

但係,鑑於大模型嘅能力唔同,前置條件可能都會有差異,我建議你喺將skill同呢篇文章餵俾你嘅Agent同時,自己都要讀完呢篇文,否則,後續debug會比較困難。


OK,等我哋再提煉同昇華一下:

由於seedance喺跟隨參考圖片/音頻/視頻嘅能力上異常強大,所以你需要做嘅就係俾出【穩定嘅、高質量嘅參考】!

穩定嘅人物形象:

如果係真人形象,就用官方嘅虛擬人像庫嘅asset ID; 
額外提供WR(Wardrobe Reference)嚟鎖定衣着;
如果唔係真人形象,就生成人物嘅CRS(Character Reference Sheet)圖;

穩定嘅環境:

SES(Scene Environment Settings)圖

P.S.

其實,我重見到一種更極端嘅邪修:

就係用GPT-Image-2直接生成9格或者16格嘅分鏡,然後餵俾Seedance2.0直出全片!

image
image

你有興趣都可以試下~

不過,如果要做短劇,可能都係需要鎖死人物/服/化/道/環境等,先係一個穩定嘅產線掛。

Have fun~

你大概率看過這個“臭貓”土味情話系列的視頻,或者再之前的“醬板鴨”反轉系列,這幾天我把類似的迷你劇/短劇生產線封裝成了skill,今天開源出來給大家玩耍:






skill倉庫地址:

https://github.com/dracohu2025-cloud/draco-skills-collection/tree/main/feishu-seedance-video-pipeline

歡迎使用,並順手給個Star~


雖說是個skill,但為了保證pipeline的穩定,其實內部流程還蠻複雜(完善)的:

image

前置條件/生產工具/環境準備

1.
所有圖片素材/物料:GPT-Image-2

我用的是Hermes Agent採取Codex Auth登錄下獲得的image_generate工具,如果你也採用相同模式,那恭喜你,這個skill無需改造你就可以直接用了;但如果你無法採用這種方式,你就需要用其他方式獲取GPT-Image-2,比如OpenRouter上的API,或者某些中轉站的API;也可以採用Nano Banana Pro/2或者SeeDream5.0,但效果可能會有差異,你估計需要做不少Prompt的調試工作...

2.
所有視頻生產:SeeDance2.0(或SeeDance2.0 Fast,當然,Fast模式穩定性會弱那麼一丟丟的,但也便宜一丟丟)

我是直接採用的火山引擎SeeDance2.0的API,你也可以採用即夢CLI,或者小云雀的API,或其他擁有SeeDance2.0接口的中轉站

3.
基建:Hermes+飛書(或OpenClaw、或其他gateway可以打通飛書Agent)
4.
已登錄飛書CLI

由於整個產線是依託于飛書多維表格的(如下圖),因此最好是打通了飛書CLI的環境;其他類似多維表格的文檔工具也可以用(比如企微智能表格),但你也需要做一些額外調試

image
5.
雲端存儲/圖牀/存儲桶

由於SeeDance2.0接收的圖片、視頻、音頻等素材等都採用URL/URI形式,因此,你需要確保所有作為參考的輸入給SeeDance的素材都需要是公網可訪問的連結形式;

產線拆解

知其然,知其所以然。

讓我們先了解一下Seedance2.0的能力,有利於後續的講解。

Seedance2.0除了大家最熟悉的文本Prompt之外,還支持:

最多9張圖片作為“reference image”
最多3段視頻作為“reference video”
最多3段音頻作為“reference audio”

API主體示意如下所示:

{ 
  
"model":"doubao-seedance-2-0-260128",
  
"content":[
    
{
      
"type":"text",
      
"text":"完整 Prompt。可寫:[圖1]是角色,[圖2]是場景,第一個 reference_video 是動作節奏參考,第一個 reference_audio 是語氣參考。"
    
},
 

    
{
      
"type":"image_url",
      
"image_url":{
        
"url":"https://example.com/ref1.png"
      
},
      
"role":"reference_image"
    
},
 

    
{
      
"type":"video_url",
      
"video_url":{
        
"url":"https://example.com/ref_video.mp4"
      
},
      
"role":"reference_video"
    
},
 

    
{
      
"type":"audio_url",
      
"audio_url":{
        
"url":"https://example.com/ref_audio.mp3"
      
},
      
"role":"reference_audio"
    
}
  
],
  
"ratio":"16:9",
  
"duration":12,
  
"generate_audio":true,
  
"watermark":false
}

以一個參考圖為例,可以看到:輸入給Seedance2.0的參考圖需要是公網可訪問的連結形式!音頻和視頻也是如此。


  "type": "image_url", 
  "image_url": { 
    "url": "https://example.com/ref1.png" 
  }, 
  "role": "reference_image" 
}

在我封裝的skill/pipeline中主要採用了圖片作為Reference,主要分為以下幾類:

Character Reference Sheet(簡稱CRS):也就是輸入給SeeDance2.0的人物參考圖
image
image

參考Prompt template如下(這個模板對於Seedance來說很穩,建議直接採用):

生成一張專業電影角色設定表:CHARACTER REFERENCE SHEET。只畫一隻黑白 tuxedo 家貓 Hei-Bai 的多視圖參考。白底技術設定表,無任何環境背景。
重點:底部必須清楚出現一個獨立大區塊,英文標題必須是 HAND / PAW GESTURES。這個區塊中必須有 5 個分格,分別畫貓前爪動作:relaxed paw、tense paw、pointing paw、gripping sleeve、subtle paw near face。每格必須能看見肉墊、爪形、抓握或指向動作。不要把這個區塊省略,不要只畫袖口。
完整版式必須包含:
- Top row left: CHARACTER REFERENCE SHEET title + horizontal info block: Name Hei-Bai, Alias Tuxedo Trickster, Role Comic Tavern Guest, Age Adult Cat, Personality sly stubborn nervous funny, Core Theme unlucky tough-talking diner, Speech Accent streetwise Hong Kong cadence.
- Top row right: COLOR PALETTE, 6-8 clean swatches.
- Center largest section: MAIN IDENTITY + SCALE SHEET. Same subject only. Show Front, 3/4 View, Side, Back over subtle measurement guide lines. Include SILHOUETTE GUIDE.
- Right column: EXPRESSION PROGRESSION with 8 panels: Neutral, Curious, Worried, Surprised, Afraid, Sad, Determined, Relieved. MICRO EXPRESSIONS with 5 panels. HEAD DETAIL SHEET with 5 angles. NEUTRAL BASELINE. POSTURE VARIATION with relaxed, tense, confident. CLOSE-UP POSE with pure white background.
- Bottom row: WARDROBE / ACCESSORIES DETAILS exactly 4 callouts; PROP exactly 1 isolated small wooden tavern stool; HAND / PAW GESTURES exactly 5 paw gesture panels.

你可以基於這個template添加其他的要求

Scene Environment Settings(簡稱SES):也就是故事發生在什麼場景
image
image

這個部分沒有特定的template,下面的Prompt僅作參考,你完全可以用語言描述你想要的任何場景:

生成一張單一連貫的電影級 Scene, Environment, and Settings reference image(場景、環境與設定參考圖),用於後續視頻生成鎖定同一酒樓空間。
核心目標:邵氏電影寫實風格的古風酒樓內景,畫面中心是一張完全空的圓形木質餐桌。整個場景只保留大塊穩定結構,不要任何小器皿、小罐子、杯碗盤筷、食物或櫃枱雜物。
畫面必須這樣構成:
- 16:9 橫屏電影畫面,中廣角建立鏡頭。
- 最大視覺錨點:一張圓形木質餐桌,嚴格居中,桌面完全為空。
- 桌面上不能有任何東西:沒有雞、沒有菜、沒有盤子、沒有碗、沒有筷子、沒有杯子、沒有酒壺、沒有托盤、沒有罐子、沒有食物殘渣。
- 圓桌左側一張低木凳,右側一張低木凳,凳子清楚但不要太多。
- 右後方有空的布簾入口,作為服務員入場動線。
- 左側地面和桌邊留出乾淨空位,右側凳子後方也留出乾淨空位。
- 背景用大塊木牆、木柱、窗格、布簾、燈籠、木地板來構成,不要酒櫃,不要貨架,不要櫃枱陳列,不要瓶罐,不要茶壺,不要餐具架。

視覺風格:邵氏電影寫實風格,1970年代香港古裝武俠棚拍酒樓,暖琥珀燈籠光,深色木樑木柱,暗紅布簾,輕微煙霧,真實電影感,膠片顆粒,市井喜劇氣氛。
空間要求:圓桌居中、左右凳子清楚、後方入口動線清楚、左右動作空間清楚。畫面不能太擁擠,背景乾淨,所有穩定道具必須大而清晰。
嚴格禁止:沒有人物,沒有貓,沒有動物,沒有角色剪影,沒有人影,沒有手腳身體局部;沒有雞,沒有菜,沒有盤子,沒有碗,沒有筷子,沒有杯子,沒有酒壺,沒有托盤,沒有瓶罐,沒有小器皿,沒有食物,沒有櫃枱陳列物;沒有文字,沒有中文字符,沒有可讀招牌,沒有標籤,沒有字幕,沒有標題,沒有 UI,沒有 logo,沒有 watermark,沒有箭頭,沒有圖表,沒有分鏡邊框,沒有多宮格;沒有現代物品,沒有霓虹燈,沒有塑料傢俱。
輸出:一張乾淨、可複用、餐桌為中心的邵氏電影古風酒樓場景環境設定參考圖。
Wardrobe Reference(簡稱WR)

如果你是直接採用火山引擎提供的人像素材庫(也就是說,人臉本身一定是穩定的),那麼你無需提供人物的CRS;但是,人除了臉還有服飾也需要保持穩定,這裏就需要WR作為參考了...

image

WR的template如下,僅供參考:

Create a clean Wardrobe Reference image for later AI video generation. It should show ONE consistent outfit only, designed for an adult female character in a 1970s-1980s Shaw Brothers style bedroom comedy short film: a tasteful small floral camisole top and matching short floral skirt, vintage warm colors, light fabric, same pattern and colors across every view. Layout like a fashion design reference sheet: front view, side view, back view on neutral faceless mannequin or dress form, plus close-up panels for fabric pattern, neckline/strap detail, skirt hem detail, and overall silhouette. No face, no identifiable person, no character identity, no text, no labels, no arrows, no logo, no watermark, no extra outfits, no modern fashion styling, no nudity, no lingerie look. Plain neutral studio background. High-quality realistic fashion reference sheet, consistent wardrobe across all views.

如何使用真人面容-官方形象庫

火山引擎SeeDance2.0的API接口不接受真人形象,想用真人形象就得使用官方提供的虛擬人像庫。

你需要先打開官方虛擬人像庫的素材權限:

https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement

image

然後再去虛擬人像庫,選擇你喜歡的人像,點擊右上角把人像的asset ID複製出來;得到asset ID之後,你需要將這個ID告知你的Agent,讓它按照迷你劇skill中的格式將這個ID填入API payload中;

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision

image

當你搞定以上內容之後,恭喜你,你可以在Seedance生成視頻的過程中擁有穩定的環境場景和人物形象了。

接下來,你只要給這個pipeline/skill輸入故事腳本即可。

腳本腳本🌟🌟🌟

故事腳本沒有一定之規,以下只是我比較隨意的版本,僅供參考:

## 人物:
女主角A-Ling:
資產ID:asset-20260320095733-gx8rw
特徵:金色長直髮
穿着:碎花吊帶,碎花短裙
奶牛貓Hei-Bai:
特徵:黑白相間的奶牛貓
衣着:無需穿人類的衣着

## 故事情節:
A-Ling正在吃麪,Hei-Bai突然跳上桌子跟A-Ling說:“主人,我最近總是犯困”。
A-Ling問:“你是不是總熬夜啊?”
Hei-Bai一臉色眯眯的看着A-Ling,回答:“其實我沒有,我是為你所困~”
A-Ling面色微紅,嬌嗔的拍了Hei-Bai一巴掌(但是心裏是開心的),說“壞貓,油嘴滑舌!”
Hei-Bai接着跟A-Ling說:“主人,我想喝點東西~”
A-Ling問:“好啊,你想喝什麼?”
Hei-Bai接着一臉認真的說:“呵護你!”
A-Ling一撅嘴怒道:“你這都從哪學的!臭貓!”,同時伸出大長腿把Hei-Bai給踢飛了!

## 聲音:
Hei-Bai的聲音酷似周星馳的國語配音
A-Ling的聲音甜美可愛

## 風格和環境:
邵氏電影風格,七八十年代的普通人家的卧室;

Pipeline/Skill中的Director模塊會自動判斷視頻時長(短:6s-8s;中:8s-12s;長:12s-15s)

這個Director模塊也支持分為“多幕”的腳本輸入,例如:

## 人物:
女主角A-Ling:
資產ID:asset-20260320095351-q975r
特徵:黑色柔順長髮及腰,空氣劉海
穿着:碎花吊帶,碎花短裙
奶牛貓Hei-Bai:
特徵:黑白相間的奶牛貓
衣着:無需穿人類的衣着
三花貓San-Hua:
特徵:黑白黃三花貓
衣着:無需穿人類的衣着

##故事情節:
### 第一幕:
A-Ling正在化妝,Hei-Bai突然跳到A-Ling腿上說:“主人,你猜我是喜歡南京還是北京?”
A-Ling略作思考,回答說:“南京!”
Hei-Bai說:“錯!我喜歡你的眼睛!” ;邊說邊把臉湊到A-Ling的眼前;
A-Ling微笑着說:“壞貓,油嘴滑舌!”
Hei-Bai接着說:“那你猜我喜歡機械錶還是電子錶?”
A-Ling回答說:“機械錶!”
Hei-Bai說:“錯!是你美麗的外表!”
A-Ling嬌嗔的說:“你這都從哪學的!臭貓!”,同時伸出大長腿把Hei-Bai給踢飛了!

### 第二幕:
A-Ling正在看書,Hei-Bai和San-Hua分別卧在A-Ling的腿兩側;
San-Hua突然跳到A-Ling腿上說,“主人,我突然感覺頭疼!”
A-Ling放下書,親了親San-Hua的頭,然後摸了摸San-Hua的頭,温柔的說:“還疼麼?”
San-Hua說“不疼了。 不過,我覺得我的手又有點疼!”
A-Ling又握住San-Hua的爪子親了親,然後問“還疼麼?”
San-Hua回答“都不疼了”,然後可愛的在A-Ling的腿上打滾,露出肚子讓A-Ling撓。
Hei-Bai一直在旁邊看着。這時突然說“那個......主人......我最疼”
A-Ling怒道:“臭貓!”,同時伸出大長腿把Hei-Bai給踢飛了!

## 聲音:
Hei-Bai的聲音酷似周星馳的國語配音石班瑜的聲音
A-Ling的聲音甜美可愛

## 風格和環境:
邵氏電影風格,七八十年代的普通人家的卧室;


<hr />

## 請基於以上腳本生成視頻,要求:
每一幕應該是單獨的一條Seedance任務;
不同的“幕”共享相同人物的CRS和SES;
最後需要用ffmpeg把不同幕的視頻拼接成一條完整的視頻;

注意:

在“多幕”模式下,每一幕都會單獨作為一條seedance任務提交給火山引擎;
當每條都完成之後,pipeline/skill會調用ffmpeg將多條視頻進行拼接;

因此,邏輯上這個pipeline不僅支持15秒以內的的迷你劇,也支持更長的、多場景、多人物的短劇;由於時間有限,我只測試了30秒及以內的情況,基本穩定。

此外,我建議你瞭解一下“Director模塊”拆分並撰寫給Seedance的Prompt結構類似下面這樣:

【Dialogue Lock|對白鎖定】
以下8句對白必須逐字出現,順序、文字、標點、語氣詞、波浪號完全不變;不得改寫、合併、移動、補台詞或刪台詞:
1. Hei-Bai:“主人,我最近總是犯困”
2. A-Ling:“你是不是總熬夜啊?”
3. Hei-Bai:“其實我沒有,我是為你所困~”
4. A-Ling:“壞貓,油嘴滑舌!”
5. Hei-Bai:“主人,我想喝點東西~”
6. A-Ling:“好啊,你想喝什麼?”
7. Hei-Bai:“呵護你!”
8. A-Ling:“你這都從哪學的!臭貓!”

【整體風格與硬約束】
整體採用邵氏電影風格,七八十年代的普通人家的卧室,暖琥珀燈光、木牀、舊櫃子、小方桌、一碗麪、輕微棚拍煙霧,真實電影質感。全片可見角色固定為2名:A-Ling女主角、Hei-Bai黑白相間奶牛貓。不得出現額外人、額外貓、背景貓、鏡中複製角色或第三隻動物。
A-Ling是成人女性,使用官方預置人像資產保持臉型、金色長直髮、年齡感、體態和自然真實表情;服裝必須替換為碎花吊帶上衣和碎花短裙,健康棚拍喜劇風,不裸露、不色情化,不沿用官方資產默認服裝。Hei-Bai必須保持胖乎乎黑白相間奶牛貓/燕尾服家貓外觀,真實貓身體,沒有牛角、牛鼻、牛蹄、牛身體、衣服或擬人化身體。
【參考圖使用方式】
content[] 中第1個 reference_image 項是 A-Ling 官方虛擬人像資產 asset-20260320095733-gx8rw,只用於臉型、金色長直髮、年齡感、體態、表情和身份連續性;服裝按本文本改為碎花吊帶上衣和碎花短裙。
content[] 中第2個 reference_image 項是 Hei-Bai 的 Character Reference Sheet,所有面板都是同一只Hei-Bai,只用於黑白奶牛貓花紋、圓胖體型、貓臉、表情範圍和真實貓動作,禁止復現設定表版式、英文標籤、分區線或生成多隻貓。
content[] 中第3個 reference_image 項是 Scene, Environment, and Settings reference image,只用於七八十年代卧室佈局、小方桌、麪碗、木牀、舊傢俱、暖燈光和材質;不要繼承場景圖中的任何文字、圖表、人物、貓或額外食物。
【空間關係硬約束】
小方桌始終是畫面中心偏左最大空間錨點,桌上只有一碗麪和一雙筷子。A-Ling始終在畫面右側或桌子右側坐着吃麪,最後從右向左伸腿踢出。Hei-Bai從左側或左下方跳上小方桌,主要停在桌面左側或中左側,最後被A-Ling從右向左踢向左側畫外。牀始終在右後方作為卧室錨點。禁止反打跨軸導致左右互換,禁止角色瞬移,禁止A-Ling跑到左側,禁止Hei-Bai出現在右側,禁止多隻Hei-Bai。
【道具與狀態硬約束】
全片只有一碗麪作為主要食物道具。A-Ling開場正在吃麪,筷子在右手或碗邊,麪碗始終在小方桌上。不要出現多碗麪、額外菜餚、可讀文字、手機、電視、現代電子產品、字幕、對白氣泡、水印或屏幕內文字。土味情話只作為對白,不要實體化成文字或圖案。
【音頻與聲音】
生成中文對白音頻。A-Ling聲音甜美可愛、輕柔少女感,但保持成人女性自然表演。Hei-Bai聲音是酷似港片無厘頭誇張國語配音男聲,尖亮、拖腔、節奏欠揍、喜劇感強。對白必須清楚,環境音輕微:筷子碰碗、貓跳上桌、輕拍、最後踢飛的喜劇音效。不要生成字幕。
【逐秒導演稿】
[0-2秒] 鏡頭構圖與運鏡:中廣角建立鏡頭,七八十年代普通卧室內,小方桌中心偏左,A-Ling坐在桌右側吃麪,鏡頭輕輕推近。角色動作:A-Ling用筷子吃麪,表情放鬆。空間錨點/道具連續性:一碗麪固定在桌上,木牀在右後方。對白/音效:筷子輕碰碗,無對白。
[2-3.5秒] 鏡頭構圖與運鏡:鏡頭保持桌面中景,左下方Hei-Bai跳上桌子,落在桌面左側。角色動作:Hei-Bai抬頭看A-Ling,認真又有點撒嬌。空間錨點/道具連續性:A-Ling仍在右側,貓在左側,不跨軸。對白/音效:Hei-Bai說:“主人,我最近總是犯困”。
[3.5-5秒] 鏡頭構圖與運鏡:切到A-Ling中近景,鏡頭從碗邊緩慢推到臉。角色動作:A-Ling停下筷子,疑惑又關心地看向桌左側。空間錨點/道具連續性:桌面和麪碗仍在前景。對白/音效:A-Ling問:“你是不是總熬夜啊?”。
[5-7秒] 鏡頭構圖與運鏡:切回Hei-Bai桌面近景,輕微低機位增強喜劇感。角色動作:Hei-Bai一臉曖昧壞笑地看着A-Ling,尾巴輕甩,語氣拖腔。空間錨點/道具連續性:Hei-Bai仍在桌面左側。對白/音效:Hei-Bai回答:“其實我沒有,我是為你所困~”。
[7-8.5秒] 鏡頭構圖與運鏡:雙人中景,A-Ling在右、Hei-Bai在左,鏡頭微微搖晃製造邵氏喜劇節奏。角色動作:A-Ling面色微紅,嬌嗔地輕拍Hei-Bai一巴掌,但心裏開心,動作是喜劇輕拍不能傷害。空間錨點/道具連續性:麪碗不翻倒。對白/音效:A-Ling說:“壞貓,油嘴滑舌!”。輕拍音效。
[8.5-10秒] 鏡頭構圖與運鏡:桌面中近景,Hei-Bai被輕拍後立刻恢復認真臉,身體前傾。角色動作:Hei-Bai繼續盯着A-Ling,像在鋪第二個梗。空間錨點/道具連續性:貓仍在左側,A-Ling右側入畫。對白/音效:Hei-Bai說:“主人,我想喝點東西~”。
[10-11.5秒] 鏡頭構圖與運鏡:切到A-Ling右側中近景,暖光打臉,保留桌邊和貓的局部輪廓。角色動作:A-Ling好奇地歪頭,語氣温柔。空間錨點/道具連續性:她仍坐在桌右側。對白/音效:A-Ling問:“好啊,你想喝什麼?”。
[11.5-12.8秒] 鏡頭構圖與運鏡:切回Hei-Bai正面近景,輕微推近到貓臉。角色動作:Hei-Bai忽然一臉認真,停頓半拍後說出包袱。空間錨點/道具連續性:不要出現文字。對白/音效:Hei-Bai說:“呵護你!”。
[12.8-15秒] 鏡頭構圖與運鏡:快速切回雙人中景再輕微拉遠,保留桌面、牀、舊傢俱。角色動作:A-Ling一撅嘴怒道,右腿從右向左伸出,把Hei-Bai喜劇化踢飛到左側畫外;動作誇張但卡通安全,不血腥不受傷。Hei-Bai飛出時四爪張開,保持黑白奶牛貓身份。空間錨點/道具連續性:桌子、麪碗、牀位置不變,貓從左側畫外飛走,禁止多貓。對白/音效:A-Ling怒道:“你這都從哪學的!臭貓!”。隨後是誇張喜劇飛走音效。
【負面約束】
不要字幕、不要文字、不要對白氣泡、不要分鏡格、不要Logo、不要水印、不要現代物件、不要額外角色、不要額外貓、不要把Hei-Bai變成人、牛或穿衣服、不要把A-Ling服裝改成非碎花吊帶和碎花短裙、不要改變左右站位、不要改寫對白。

邏輯上這個部分是不需要你寫的,但是如果你發現視頻質量很差,那麼,你可以在多維表格中找到對應的項,來反查是不是Director模塊跑飛了,寫出了錯誤的或者低質量的Prompt。


小結

邏輯上,當你準備好前置條件,以及輸入劇本之後,這個skill/pipeline就可以全自動把一條迷你劇/短劇跑出來。

但是,鑑於大模型的能力不同,前置條件可能也會出現差異,我建議你在將skill和這篇文章餵給你的Agent同時,自己也要讀完這此文,否則,後續debug會比較困難。


OK,讓我們再提煉和昇華一下:

由於seedance在跟隨參考圖片/音頻/視頻的能力上異常強大,因此,你需要做的就是給出【穩定的、高質量的參考】!

穩定的人物形象:

如果是真人形象,就用官方的虛擬人像庫的asset ID; 
額外提供WR(Wardrobe Reference)來鎖定衣着;
如果不是真人形象,就生成人物的CRS(Character Reference Sheet)圖;

穩定的環境:

SES(Scene Environment Settings)圖

P.S.

其實,我還看到一種更極端的邪修:

就是用GPT-Image-2直接生成9格或者16格的分鏡,然後餵給Seedance2.0直出全片!

image
image

你有興趣也可以試一下~

不過,如果要做短劇,可能還是需要鎖死人物/服/化/道/環境等,才是個穩定的產線吧。

Have fun~