GPT-Image-2+Seedance 2.0，輕鬆還原太和殿建造過程，入門級三維建模這麼玩

作者：惡人筆記

日期：2026年5月1日上午2:00

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

GPT-Image-2+Seedance 2.0：用AI輕鬆還原太和殿建造過程，入門級三維建模新玩法

整理版摘要

呢篇文章係一位創作者分享佢點樣用 OpenAI 最新嘅 GPT-Image-2 同字節跳動嘅 Seedance 2.0，將故宮太和殿由地基到金鑾殿嘅建造過程整成一段 15 秒動畫。佢嘅目的係展示一個低門檻嘅 AI 三維建模玩法，等普通人唔使專業技能都可以快速產出視覺化內容。

成個玩法分兩步：先用 GPT-Image-2 生成一系列參考圖（建築完整模型、結構拆解圖、材料構件圖同 8 格建造流程圖），再將呢啲圖餵俾 Seedance 2.0 生成動畫。作者強調參考圖嘅質量係關鍵，圖愈清晰結構癒合理，最後嘅動畫就愈順暢。佢自己嘅成品效果相當唔錯，基礎平台升起、紅柱豎立、樑架疊加、屋頂封頂，流暢度幾高。

不過作者都坦承呢個玩法仲有侷限。專業建築師指出太和殿嘅比例、開間數同結構細節有偏差，中國古建築嘅模數制、斗拱、榫卯呢啲精準規制 AI 好難完全還原。所以呢個玩法更適合藝術表達或者概念演示，唔可以用嚟做考據級復原。總括嚟講，AI 係強大嘅工具，但人仍然係核心，高質量輸出要靠提示詞工程同人工迭代。

用 GPT-Image-2 生成建築參考圖（完整模型、結構拆解、材料構件、建造流程），再以 Seedance 2.0 合成動畫，係一個低門檻嘅三維建模玩法。
參考圖嘅質量直接決定動畫一致性：圖愈清晰、結構愈準確，影片邏輯愈好。
呢個玩法雖然效果驚豔，但專業準確性有限：太和殿嘅比例、斗拱、榫卯等古建規制 AI 容易出錯。
優化方法包括加入真實數據、分階段迭代、用真實圖片做強參考，同埋人工修正。
AI 適合快速原型同概念展示，唔應該取代專業建築設計或文物保護；人機協作先係最佳路徑。

值得記低

連結 x.com

原帖參考：Creator @Saccc_c 示範太和殿建造動畫

X 平台帖子連結，展示 GPT-Image-2 + Seedance 2.0 生成嘅太和殿建造動畫。

結構示例

內容片段

內容片段 text

請生成一張「建築名稱」的單體建築完整模型圖。畫面只展示該建築主體及其近距離基礎環境，不展示無關建築、大片空地、城市背景或複雜周邊。請突出建築本身的體量、正面結構、屋頂/頂部形式、入口、立面、台基或基礎部分。視角為等距偏俯視，構圖居中、對稱、清晰，像展示一棟獨立建築模型。建築主體佔據畫面 70% 以上視覺面積。畫面適合作為後續“建築從地基到完成”的 AI 建造動畫參考圖。不要出現人物、車輛、現代機械、文字標識、廣告牌或無關元素。

整理重點

玩法拆解：兩步做出建造動畫

呢個玩法嘅核心係先用 GPT-Image-2 生成一系列高質參考圖，再用 Seedance 2.0 將佢哋合成動畫。作者將過程分為兩大步：第一步係準備圖像，第二步係生成影片。

1 用 GPT-Image-2 生成建築完整模型圖：確定主體外觀、鏡頭角度同構圖。
2 生成結構拆解圖（爆炸圖）：將建築按地基、台基、柱網、樑架、屋頂等層級上下分離。
3 生成材料構件圖：像施工清單咁列出所有主要材料同關鍵構件。
4 生成 8 格建造流程圖：用故事板表現從空地基到完整建築嘅連續階段。
5 將以上所有參考圖上傳到 Seedance 2.0（最多 9 張），加上文字提示，生成約 15 秒嘅建造動畫。

整理重點

分析：AI 強大但專業性唔夠

呢個玩法確實好有創意，極大降低咗視覺化內容嘅門檻。但作者都留意到幾個明顯嘅侷限，尤其係準確性問題。

準確性問題：AI 生成結果更適合藝術表達或概念演示，唔係考據級復原。
一致性與邏輯：多參考圖雖然有幫助，但複雜裝配過程仍可能出現構件「穿模」或運動唔自然。
創意 vs. 效率：高質量輸出仍然高度依賴提示詞工程同人工迭代，真正優秀嘅作品係人+AI 協同嘅結果。

整理重點

優化建議：令結果更專業更準確

如果想玩得更好，可以從以下幾個方向入手。作者提出咗具體嘅改進方法，包括強化參考、分階段生成、進階提示詞同人工修正。

1 強化參考準確性：喺提示詞加入真實數據，例如「太和殿面闊11間、進深5間，重檐廡殿頂」，同時上傳真實參考圖片。
2 分階段迭代生成：先整短片段（地基→柱網、樑架→屋頂），再用 Seedance 嘅擴展功能拼合成完整 15 秒。
3 進階提示詞工程：強調「真實物理模擬」「構件按真實建造順序裝配」「斗拱層層出挑、榫卯連接自然」。
4 結合人工修正：生成後用視頻軟件微調節奏，或用圖像工具修正明顯比例錯誤。
5 擴展應用場景：唔止太和殿，可以試其他古建、現代建築甚至科幻建築概念。

整理重點

結論：AI 係工具，人先係核心

呢個案例再次證明 AI 正在重塑內容創作流程。佢令複雜視覺化變得觸手可及，降低咗門檻，同時激發咗更多人嘅創意。

呢篇文章俾到嘅啟發係：即使係入門級嘅 AI 工具，只要用得好，都可以做到唔錯嘅效果；但專業領域仍然需要人把關。

琴日見到一個幾好玩嘅AI玩法，有位創作者用 GPT-Image-2（OpenAI最新嘅圖像生成模型）同 Seedance 2.0（字節跳動推出嘅多模態影片生成工具），還原咗故宮太和殿由地基到金鑾殿嘅完整建造過程。條片得15秒，但係呈現出流暢嘅建造動畫，基礎平台慢慢升起、紅柱逐支豎起、複雜樑架層層疊加，最後金色琉璃瓦屋頂完美封頂，整體效果都幾好。

完整玩法：一步步教你重現

以下係完整流程（提示詞只係參考，實際用嗰陣要根據生成結果微調）：

第一步：用GPT-Image-2生成一系列參考圖

1. 建築嘅完整模型

首先要確定主體係咩樣、鏡頭角度同構圖範圍。[提示詞參考]：

請生成一張「建築名稱」的單體建築完整模型圖。
畫面只展示該建築主體及其近距離基礎環境，不展示無關建築、大片空地、城市背景或複雜周邊。請突出建築本身的體量、正面結構、屋頂/頂部形式、入口、立面、台基或基礎部分。
視角為等距偏俯視，構圖居中、對稱、清晰，像展示一棟獨立建築模型。建築主體佔據畫面 70% 以上視覺面積。畫面適合作為後續“建築從地基到完成”的 AI 建造動畫參考圖。
不要出現人物、車輛、現代機械、文字標識、廣告牌或無關元素。

2. 結構拆解圖

將建築按建造層級拆開，例如地基、台基、柱網、樑架、屋頂、外立面等。[提示詞參考]：

基於這張「建築名稱」單體建築參考圖，生成一張建築結構拆解圖 / 爆炸圖。
請保持同樣的等距偏俯視視角和構圖，將建築按照建造層級上下分離展示，清晰表現各層結構的裝配關係。
請根據該建築自身特點拆分為合理層級，例如：
1. 地基或底部基礎
2. 台基、平台、樓板或基礎層
3. 柱子、牆體、門窗或主體框架
4. 樑架、承重結構或中間結構層
5. 外立面、裝飾構件或細部結構
6. 屋頂、頂部結構或上部覆蓋層
7. 最終外部裝飾和收口構件
畫面像高質量建築說明圖，每一層上下錯開但保持中軸線或主體結構對齊。每一層都要清楚、乾淨、可辨認，適合作為後續 AI 建造動畫參考圖。
不要出現人物、現代機械、腳手架、臨時支撐架、文字標註、廣告牌或無關建築。

3. 材料構件圖

好似施工材料清單咁，將主要材料同關鍵構件單獨擺出嚟。[提示詞參考]：

基於前面的「建築名稱」完整模型圖和結構拆解圖，生成一張建築材料與構件展示圖。
請像施工材料清單一樣，將建造該建築所需的主要材料和關鍵構件整齊排列在畫面中。每一種材料或構件都以清晰的實物小樣或獨立構件模型展示。
請根據該建築自身特點，包含以下類型：
1. 地基、台基、平台或基礎構件
2. 牆體、柱子或主體框架構件
3. 門、窗、欄杆、樓梯或入口構件
4. 梁、架、支撐結構或承重構件
5. 屋頂、頂部覆蓋層或屋面構件
6. 外立面材料、裝飾件和收口構件
7. 該建築最有辨識度的特色構件
畫面為乾淨的材料展示板，等距視角或正交視角，所有構件分組清楚、排列整齊、質感真實。整體色彩和材料風格必須符合「建築名稱」本身。
不要出現人物、現代機械、施工腳手架、文字標籤、廣告牌、隨機雜物或無關建築。

4. 建造流程圖

用6-8格故事板表現由空地基到完整建築嘅過程。[提示詞參考]：

基於前面的「建築名稱」完整模型圖、結構拆解圖和材料構件圖，生成一張 8 格建造流程圖。
主題：「建築名稱」從空地基到完整建築的建造過程。
請使用統一的等距偏俯視視角、統一構圖、統一光照，保持建築始終居中。畫面只展示該建築主體及必要的近距離基礎環境，不展示無關建築、大片空地、人物、車輛或複雜背景。
8 格順序請根據該建築自身結構合理生成，基本邏輯為：
1. 空地基或底部基礎出現
2. 基礎層、平台、台基或樓板形成
3. 樓梯、欄杆、邊界、入口或基礎細節完成
4. 柱子、牆體、門窗或主體框架豎立
5. 樑架、承重結構、樓層結構或中間結構安裝
6. 屋頂骨架、頂部結構或主要外形完成
7. 屋面、外立面、裝飾件和關鍵特色構件逐步完成
8. 完整建築最終呈現
每一格都像同一個鏡頭下的連續建造階段，階段之間必須有明顯遞進關係。不要讓第 7 格和第 8 格過於相似，第 7 格應是接近完成但仍未完全收口，第 8 格是完整成片。
不要添加文字編號、文字標籤、箭頭、人物、現代機械、腳手架、臨時支撐架、廣告牌或現代無關元素。

第二步：將所有參考圖俾Seedance 2.0生成動畫

• 將完整模型、拆解圖、構件圖同流程故事板作為參考圖像上傳（Seedance 2.0支援多圖像參考，最多可以9張圖像+其他模態）。
• 加文字提示，描述「太和殿按照建造流程逐步生長/裝配，由地基開始，15秒內完成建造，鏡頭平穩、運動自然、光影真實」。
• 設定時長約15秒，調整運動強度、相機路徑等參數，生成影片。

成個過程核心在於參考圖嘅質素，GPT-Image-2生成嘅圖越結構清晰、比例合理，後續影片嘅一致性同邏輯性就越好。作者生成嘅太和殿影片正正因為參考圖準備充足，先呈現到絲滑嘅建造過程。

分析：AI好強大，雖然仲未夠專業

呢個玩法確實好型，可以極大降低創意門檻，令普通人快速產出視覺化內容。但係都要睇到侷限：

• 準確性問題：有建築師喺評論中指出，原片中太和殿嘅比例、開間數同部分結構細節存在偏差。中國古建築講究嚴格嘅模數制，太和殿面闊11間、進深5間，體現「九五至尊」，立面比例符合「天圓地方」理念（高度與局部比例接近√2），重檐廡殿頂、斗拱、榫卯結構都有精準規制。AI目前喺嚴謹歷史/建築復原上仍然容易「露餡」，生成結果更適合藝術表達或概念演示，而唔係考據級復原。
• 一致性同邏輯：多張參考圖可以顯著提升一致性，但複雜裝配過程仍然可能出現構件「穿模」或者運動唔自然嘅情況。Seedance 2.0喺運動連貫性同光影上表現優秀，但對於極精細嘅古建邏輯理解仍然有提升空間。
• 創意 vs. 效率：AI令「一個人頂一個團隊」成為可能，但高質素輸出仍然高度依賴提示詞工程同人工迭代。真正優秀嘅作品，往往係人+AI嘅協同結果。

總括嚟講，呢個代表咗當前AIGC喺建築可視化、歷史科普、教育內容領域嘅實用價值：適合快速原型、短影片內容、概念展示，而唔係取代專業建築設計或者文物保護等工作。

優化建議：令結果更專業、更準確

想將呢個玩法玩得更好，可以由以下幾點著手優化：

1. 強化參考準確性

◦ 喺提示詞中明確加入真實數據：「太和殿面闊11間、進深5間，重檐廡殿頂，台基三層，嚴格遵循明清官式建築規制，比例準確。」
◦ 上傳真實參考圖片（例如故宮官方照片、建築測繪圖、結構剖面圖）作為強參考，引導AI貼近歷史真實。

2. 分階段迭代生成

◦ 先生成短片段（地基→柱網、樑架→屋頂），再用Seedance嘅影片擴展或銜接功能拼合成完整15秒，避免一次性生成太長導致邏輯崩壞。
◦ 多生成幾個版本，人手挑選最佳片段後期合成。

3. 提示詞工程進階

◦ 強調「真實物理模擬」「構件按真實建造順序裝配」「光影隨時間自然變化」「相機緩慢推拉或環繞」。
◦ 對於古建特色，加入「斗拱層層出挑、榫卯連接自然、琉璃瓦反光真實」等細節描述。

4. 結合人手修正

◦ 生成之後用影片編輯軟件微調節奏，或者用圖像編輯工具修正明顯嘅比例錯誤。
◦ 如果目標係科普內容，可以喺影片中疊加文字說明或者同建築師合作校正。

5. 擴展應用場景

◦ 唔止太和殿，可以嘗試其他古建（例如天壇、蘇州園林）、現代建築生長動畫、甚至科幻建築概念影片。
◦ 結合音頻（背景音樂、古建解說）進一步提升沉浸感。

AI係工具，人仍然係核心

用GPT-Image-2 + Seedance 2.0「造」太和殿嘅案例，再次證明AI正在重塑內容創作流程。佢令複雜視覺化變得觸手可及，降低咗門檻，亦激發咗更多人嘅創意。但同時，我哋都要保持理性，技術目前喺藝術表現上好驚豔，喺專業準確性上仍然有差距。

未來，隨住模型對領域知識（例如中國古建文化）嘅理解加深，呢類玩法會越來越強大。建議大家多嘗試、多迭代，同時尊重專業知識：將AI當作高效助手，而唔係完全取代。

參考資料：https://x.com/Saccc_c/status/2049769037660360897

昨天看到一個有意思的AI玩法，一位創作者用 GPT-Image-2（OpenAI的最新圖像生成模型）和 Seedance 2.0（字節跳動推出的多模態視頻生成工具），還原了故宮太和殿從地基到金鑾殿的完整建造過程。視頻只有15秒，卻呈現出流暢的建造動畫，基礎平台緩緩升起、紅柱依次豎立、複雜樑架層層疊加，最終金色琉璃瓦屋頂完美封頂，整體效果還不錯。

完整玩法：一步步教你復現

以下是完整流程（提示詞為參考，實際使用時需根據生成結果微調）：

第一步：用GPT-Image-2生成系列參考圖

1. 建築完整模型

先確定主體長什麼樣、鏡頭角度和構圖範圍。[提示詞參考]：

請生成一張「建築名稱」的單體建築完整模型圖。
畫面只展示該建築主體及其近距離基礎環境，不展示無關建築、大片空地、城市背景或複雜周邊。請突出建築本身的體量、正面結構、屋頂/頂部形式、入口、立面、台基或基礎部分。
視角為等距偏俯視，構圖居中、對稱、清晰，像展示一棟獨立建築模型。建築主體佔據畫面 70% 以上視覺面積。畫面適合作為後續“建築從地基到完成”的 AI 建造動畫參考圖。
不要出現人物、車輛、現代機械、文字標識、廣告牌或無關元素。

2. 結構拆解圖

把建築按建造層級拆開，比如地基、台基、柱網、樑架、屋頂、外立面等。[提示詞參考]：

基於這張「建築名稱」單體建築參考圖，生成一張建築結構拆解圖 / 爆炸圖。
請保持同樣的等距偏俯視視角和構圖，將建築按照建造層級上下分離展示，清晰表現各層結構的裝配關係。
請根據該建築自身特點拆分為合理層級，例如：
1. 地基或底部基礎
2. 台基、平台、樓板或基礎層
3. 柱子、牆體、門窗或主體框架
4. 樑架、承重結構或中間結構層
5. 外立面、裝飾構件或細部結構
6. 屋頂、頂部結構或上部覆蓋層
7. 最終外部裝飾和收口構件
畫面像高質量建築說明圖，每一層上下錯開但保持中軸線或主體結構對齊。每一層都要清楚、乾淨、可辨認，適合作為後續 AI 建造動畫參考圖。
不要出現人物、現代機械、腳手架、臨時支撐架、文字標註、廣告牌或無關建築。

3. 材料構件圖

像施工材料清單一樣，把主要材料和關鍵構件單獨擺出來。[提示詞參考]：

基於前面的「建築名稱」完整模型圖和結構拆解圖，生成一張建築材料與構件展示圖。
請像施工材料清單一樣，將建造該建築所需的主要材料和關鍵構件整齊排列在畫面中。每一種材料或構件都以清晰的實物小樣或獨立構件模型展示。
請根據該建築自身特點，包含以下類型：
1. 地基、台基、平台或基礎構件
2. 牆體、柱子或主體框架構件
3. 門、窗、欄杆、樓梯或入口構件
4. 梁、架、支撐結構或承重構件
5. 屋頂、頂部覆蓋層或屋面構件
6. 外立面材料、裝飾件和收口構件
7. 該建築最有辨識度的特色構件
畫面為乾淨的材料展示板，等距視角或正交視角，所有構件分組清楚、排列整齊、質感真實。整體色彩和材料風格必須符合「建築名稱」本身。
不要出現人物、現代機械、施工腳手架、文字標籤、廣告牌、隨機雜物或無關建築。

4. 建造流程圖

用6-8格故事板表現從空地基到完整建築的過程。[提示詞參考]：

基於前面的「建築名稱」完整模型圖、結構拆解圖和材料構件圖，生成一張 8 格建造流程圖。
主題：「建築名稱」從空地基到完整建築的建造過程。
請使用統一的等距偏俯視視角、統一構圖、統一光照，保持建築始終居中。畫面只展示該建築主體及必要的近距離基礎環境，不展示無關建築、大片空地、人物、車輛或複雜背景。
8 格順序請根據該建築自身結構合理生成，基本邏輯為：
1. 空地基或底部基礎出現
2. 基礎層、平台、台基或樓板形成
3. 樓梯、欄杆、邊界、入口或基礎細節完成
4. 柱子、牆體、門窗或主體框架豎立
5. 樑架、承重結構、樓層結構或中間結構安裝
6. 屋頂骨架、頂部結構或主要外形完成
7. 屋面、外立面、裝飾件和關鍵特色構件逐步完成
8. 完整建築最終呈現
每一格都像同一個鏡頭下的連續建造階段，階段之間必須有明顯遞進關係。不要讓第 7 格和第 8 格過於相似，第 7 格應是接近完成但仍未完全收口，第 8 格是完整成片。
不要添加文字編號、文字標籤、箭頭、人物、現代機械、腳手架、臨時支撐架、廣告牌或現代無關元素。

第二步：把所有參考圖餵給Seedance 2.0生成動畫

• 將完整模型、拆解圖、構件圖和流程故事板作為參考圖像上傳（Seedance 2.0支持多圖像參考，最多可達9張圖像+其他模態）。
• 添加文字提示，描述“太和殿按照建造流程逐步生長/裝配，從地基開始，15秒內完成建造，鏡頭平穩、運動自然、光影真實”。
• 設置時長約15秒，調整運動強度、相機路徑等參數，生成視頻。

整個過程核心在於參考圖的質量,GPT-Image-2生成的圖越結構清晰、比例合理，後續視頻的一致性和邏輯性就越好。作者生成的太和殿視頻正是因為參考圖準備充分，才呈現出絲滑的建造過程。

分析：AI強大，雖然還不夠專業

這個玩法確實酷炫，能極大降低創意門檻，讓普通人快速產出視覺化內容。但也要看到侷限：

• 準確性問題：有建築師在評論中指出，原視頻中太和殿的比例、開間數和部分結構細節存在偏差。中國古建築講究嚴格的模數制，太和殿面闊11間、進深5間，體現“九五至尊”，立面比例符合“天圓地方”理念（高度與局部比例接近√2），重檐廡殿頂、斗拱、榫卯結構都有精準規制。AI目前在嚴謹歷史/建築復原上仍易“露餡”，生成結果更適合藝術表達或概念演示，而非考據級復原。
• 一致性與邏輯：多參考圖能顯著提升一致性，但複雜裝配過程仍可能出現構件“穿模”或運動不自然的情況。Seedance 2.0在運動連貫性和光影上表現優秀，但對極精細的古建邏輯理解仍有提升空間。
• 創意 vs. 效率：AI讓“一個人頂一個團隊”成為可能，但高質量輸出仍高度依賴提示詞工程和人工迭代。真正優秀的作品，往往是人+AI的協同結果。

總體來說，這代表了當前AIGC在建築可視化、歷史科普、教育內容領域的實用價值：適合快速原型、短視頻內容、概念展示，而非替代專業建築設計或文物保護等工作。

優化建議：讓結果更專業、更準確

想把這個玩法玩得更好，可以從以下幾點優化：

1. 強化參考準確性

◦ 在提示詞中明確加入真實數據：“太和殿面闊11間、進深5間，重檐廡殿頂，台基三層，嚴格遵循明清官式建築規制，比例準確。”
◦ 上傳真實參考圖片（如故宮官方照片、建築測繪圖、結構剖面圖）作為強參考，引導AI貼近歷史真實。

2. 分階段迭代生成

◦ 先生成短片段（地基→柱網、樑架→屋頂），再用Seedance的視頻擴展或銜接功能拼合成完整15秒，避免一次性生成過長導致邏輯崩壞。
◦ 多生成幾版，人工挑選最佳片段後期合成。

3. 提示詞工程進階

◦ 強調“真實物理模擬”“構件按真實建造順序裝配”“光影隨時間自然變化”“相機緩慢推拉或環繞”。
◦ 對於古建特色，添加“斗拱層層出挑、榫卯連接自然、琉璃瓦反光真實”等細節描述。

4. 結合人工修正

◦ 生成後用視頻編輯軟件微調節奏，或用圖像編輯工具修正明顯比例錯誤。
◦ 如果目標是科普內容，可在視頻中疊加文字說明或與建築師合作校正。

5. 擴展應用場景

◦ 不止太和殿，可嘗試其他古建（如天壇、蘇州園林）、現代建築生長動畫、甚至科幻建築概念視頻。
◦ 結合音頻（背景音樂、古建解說）進一步提升沉浸感。

AI是工具，人仍是核心

用GPT-Image-2 + Seedance 2.0“造”太和殿的案例，再次證明AI正在重塑內容創作流程。它讓複雜視覺化變得觸手可及，降低了門檻，也激發了更多人的創意。但同時，我們也要保持理性，技術目前在藝術表現上驚豔，在專業準確性上仍有差距。

未來，隨着模型對領域知識（比如中國古建文化）的理解加深，這類玩法會越來越強大。建議大家多嘗試、多迭代，同時尊重專業知識：把AI當作高效助手，而不是完全替代。

參考資料：https://x.com/Saccc_c/status/2049769037660360897