【實操乾貨分享】Codex搭建AI視頻製作工作流

作者：嬌姐話AI圈

日期：2026年6月18日上午11:30

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用 Codex 搭一套 AI 影片製作系統，唔係單靠提示詞，係成條生產鏈

整理版摘要

呢篇文章係嬌姐——一位 40+ 前榮耀員工、而家專注 AI 效率工具嘅 IT 從業者——分享佢點樣用 Codex 搭建 AI 影片製作工作流嘅實戰經驗。嬌姐發現好多人問「呢條片點樣做」，但佢覺得核心唔係剪輯或者 AI 生圖，而係一套「可持續生產內容嘅系統」。佢嘅結論係：AI 影片嘅競爭力唔係識唔識生成，係你有冇能力將內容組織清楚、將畫面設計穩定、將流程持續迭代。

嬌姐詳細拆解咗由內容拆解、口播分鏡、HTML 畫面、視覺 DNA、模板庫、動效節奏到手機端檢查嘅九個步驟。佢強調畫面唔係第一步，內容結構先係；HTML/CSS 比 AI 生圖更可控；視覺 DNA 確保帳號統一性；模板庫要有變體避免重複；動效要跟口播節奏對齊；手機端檢查比電腦更重要。最後佢提供咗一個低配版工作流方向，同埋自家套裝（OpenClaw + Hermes + Codex + Claude）推廣資訊。

影片製作本質係一套內容生產工作流，唔係單靠 AI 生圖或剪輯，而係要將選題、口播、分鏡、畫面、配音、字幕、動效、質檢串成一條自動化系統。
第一步係拆內容結構，唔係直接生成畫面；預生產稿要定義觀眾、衝突、關鍵信息同每段口播對應嘅畫面任務，咁樣先避免口播同畫面「各說各話」。
用 HTML/CSS 生成畫面比 AI 生圖更穩定：文字準確、排版可控、手機端適配好、風格統一，而且可以複用迭代，係「可編程嘅 PPT 頁面」。
視覺 DNA 系統幫帳號建立統一識別度，唔同內容類型（教程、開源項目、讀書、觀點、數據）對應唔同子風格，例如 AI 教程用 Tech Manual 風格，開源項目用 Product Lab 風格。
手機端檢查比電腦更重要：字體夠大、字幕安全區、對比度、關鍵內容避開底部，真係高清係設計上適合手機閲讀，唔係單純睇解析度。

值得記低

筆記

低配版工作流步驟

1. 用AI拆文章成口播和分鏡；2. 每個分鏡標畫面類型；3. 定視覺風格（色系、字體、安全區）；4. 做5-8個常用模板（大數字、對比、步驟、截圖、總結）；5. 用HTML/Figma/PPT/Canva造頁面；6. TTS配音；7. 切字幕；8. 合成視頻；9. 手機檢查；10. 迭代模板。之後逐步自動化。

連結

嬌姐嘅 OpenClaw + Hermes 全套資料包

包含OpenClaw入門到精通、Agent 102案例、避坑手冊、Skill包、Hermes實戰文檔、Codex手冊、Claude教程等。

整理重點

第一步：拆清內容結構，唔好一嚟就整畫面

好多人做 AI 影片第一時間諗「用咩工具生圖」，但嬌姐話第一步係內容結構。例如做開源項目推薦，唔可以就咁掉篇文章畀 AI 生成，否則畫面會好散。正確做法係叫 Agent 出「預生產稿」，入面要講明：呢個選題講畀邊個聽、觀眾點解會停低、核心衝突係咩、觀眾要記住邊句、邊啲數字/產品名/URL 一定要出現、每一段口播對應咩畫面。

影片唔係將文章變成語音，而係將內容重新拆成一屏一屏嘅觀看理由。

一屏只負責一個任務：大數字頁製造衝擊感，Before/After 頁講清楚變化，步驟頁讓人跟住做，截圖講解頁令人相信係真，總結頁令人記住觀點。

整理重點

第二步：將口播轉成分鏡，確保畫面同步

Agent 會將文章先拆成口播，再將口播拆成分鏡，每個分鏡有清楚字段：呢一屏講咩口播、完成咩畫面任務、必須出現嘅關鍵詞、適合邊種畫面類型、係咪有截圖價值、字幕會唔會擋住核心內容。

口播講一套，畫面演另一套—呢個係 AI 影片最易出事嘅位。

例如口播提到 GitHub 地址，畫面就要有 URL；口播話「720 個人物、1812 條關係」，畫面就要用數字卡呈現，唔可以淨係一個抽象科技背景。重要信息（產品名、URL、數字、方法論）要由 HTML 或後期貼片保證準確，唔可以靠 AI 生圖自由發揮。

整理重點

第三步：用 HTML 做畫面，唔依賴 AI 生圖

嬌姐試過 AI 生圖，發現有幾個問題：文字容易錯、URL 容易錯、中文排版唔穩定、風格唔統一、手機端睇唔清。所以改用 HTML/CSS 生成畫面，好處係文字準確、字號統一、佈局可控、顏色間距穩定、可以複用迭代。

HTML 係「可編程嘅 PPT 頁面」，唔係網頁，而係一張可以精準控制嘅豎屏影片幀。

整理重點

第四步：建立視覺 DNA，唔好條條片唔同風格

如果每條片都畀 AI 臨時設計畫面，結果會越來越亂：今日科技藍，明日紫色漸變，後日賽博朋克，帳號冇自己嘅識別度。嬌姐加咗一層「視覺 DNA 系統」，Agent 會先分析內容適合咩視覺系統——係 AI 教程定開源項目推薦、數據解讀定係觀點表達——然後生成視覺策略，定義色彩系統、字體風格、版面語言、常用符號、動效風格同禁止事項。

視覺 DNA 確保帳號統一，但唔會令每條片變同一模板。

1 AI 教程 → Tech Manual（技術手冊風格）
2 開源項目推薦 → Product Lab / Data Story（突出項目、數據同證據）
3 讀書內容 → Reading Journal（讀書筆記同批註）
4 觀點視頻 → Editorial Opinion（雜誌版面）
5 數據內容 → Data Story（大數字同證據卡片）

整理重點

第五步：模板庫決定效率，模板變體決定不死板

雖然有視覺風格，但仲需要模板庫。常見畫面類型包括：大數字證據頁、Before/After 對比頁、步驟清單頁、產品截圖講解頁、方法論框架頁、讀書批註頁、總結金句頁、數據故事頁。每個模板族要有變體，例如 A 版信息最清晰、B 版視覺衝擊最強、C 版最適合截圖收藏。

Agent 根據內容語義匹配模板，唔係隨機揀：講「點解錯」用對比或風險模板，講「點樣做」用步驟或清單模板。

同時要做反重複控制：連續幾頁唔可以用同一種構圖，一條片要有主視覺頁、信息頁、對比頁、證據頁、總結頁嘅節奏變化。真正穩定嘅系統係 AI 負責判斷內容，模板負責承載內容。

整理重點

第六步：內容密度決定頁面結構，唔係倒模

一個好嘅畫面系統唔應該只係「套模板」，而要根據內容密度自動調整：內容少嘅時候用大標題、留白、視覺符號，令觀點更有衝擊力；內容中等用卡片、步驟、對比結構；內容多就用證據卡、分區、編號、重點高亮。

內容決定頁面結構，唔係所有內容用同一個版面。

數字多：優先放大數字
產品推薦：突出產品名、URL、核心功能
教程類：步驟編號清楚
讀書類：區分「原書問題」同「我嘅理解」

先關注再睇文，嬌姐唔想冇咗上進嘅你

文末嬌姐整理咗heremes、openclaw嘅所有文章連結

想了解嬌姐就㩒文末連結

今日呢篇係嬌姐開公眾號以嚟嘅第557篇，我係持續堅持日更分享AI實用嘢嘅嬌姐。

最近我出咗幾條 AI 片，好多人問我：「呢條片點樣整㗎？」

一開始我都以為，大家係問用咩剪片軟件、用咩 AI 生圖、用咩配音工具。但真正做落我發現，呢類片嘅核心唔係剪片，亦都唔係就咁揾 AI 生成幾張圖。

佢本質上係一套內容生產工作流。即係話，你唔係喺度「做一條片」，而係喺度搭一個可以持續生產片嘅系統。我呢排就用緊 Codex 搭咗咁樣一套 AI 視頻 Agent。佢嘅目標唔係幫我㩒幾個掣，而係將一篇文章、一個選題、一個開源項目，自動拆成下面呢啲環節：

選題角度、口播劇本、分鏡、畫面設計
HTML 頁面、配音、字幕、動效、成片檢查

今日呢篇就講嚇呢個系統背後嘅思路。唔講太多 code 細節，但會將核心邏輯講清楚。想自己搭類似工作流嘅人，可以跟呢個方向去做。

第一步：首先將內容拆清楚，唔好一開始就做畫面

好多人做 AI 片，一開始就問：「用邊個工具生成畫面？」「用咩提示詞？」「點樣令張圖靚啲？」但我而家嘅經驗係，畫面唔係第一步，第一步係內容結構。

例如我做一個開源項目推薦片，唔可以直接將文章掉畀 AI 叫佢生成片，咁樣出嚟嘅片通常會好散，畫面又唔知想表達咩。正確做法係先叫 Agent 生成一個「預生產稿」。

預生產稿裏面至少要包埋呢啲內容：

呢個選題講畀邊個睇
觀眾點解會停低
呢條片嘅核心衝突係咩
觀眾睇完要記住邊句話
邊啲數字、產品名、URL、方法論一定要出現
每一段口播對應咩畫面
邊啲頁面值得 cap 圖收藏

我而家嘅理解係：片唔係將文章變成語音，而係將內容重新拆成一版一版嘅觀看理由。一版淨係負責一個任務，例如：

大數字版
——負責製造衝擊感。
Before / After 版
——負責講清楚變化。
步驟版
——負責令人跟住做。
Cap 圖講解版
——負責令人相信係真嘅。
總結版
——負責令人記住觀點。

提示：如果前面呢個內容拆解冇做好，後面畫面再靚，都只係包裝。

第二步：將口播拆成分鏡

我嘅 Agent 唔係直接拎原文生成畫面，而係先將文章拆成口播，再將口播拆成分鏡。例如一條片會變成咁嘅結構：

① 開頭鈎

話畀你知點解呢樣嘢值得睇。

② 痛點

解釋原本嘅方法難喺邊。

③ 核心數字

畀出證據。

④ 功能拆解

講佢到底點樣實現。

⑤ 方法論

提煉出可以重複用嘅思路。

⑥ 結尾

話畀你知應該點樣行動。

每個分鏡都會有幾個欄位：

呢版口播講咩
呢版畫面要完成咩任務
呢版一定要出現邊啲關鍵字
呢版適合用咩畫面類型
呢版有冇 cap 圖價值
字幕會唔會遮住核心內容

呢步好關鍵，因為 AI 做片最易出事嘅地方，就係「口播講一套，畫面做另一套」。例如口播提到 GitHub 地址，但畫面冇 URL；口播話有 720 個人物、1812 條關係，但畫面淨係畫咗個抽象科技背景——咁就唔得。

重點：口播裏面重要嘅資訊，畫面一定要有承載。產品名、URL、關鍵數字、方法論名，唔可以只靠 AI 生圖自由發揮，一定要由 HTML 或後期貼片保證準確。

第三步：點解我用 HTML 做畫面，而唔係完全靠 AI 生圖

呢個係成個系統最重要嘅一個決定。一開始我都試過 AI 生圖，但好快發現幾個問題。

問題淨係靠 AI 生圖

文字：容易錯。

URL：容易錯。

排版：中文排版唔穩定。

風格：同一批畫面風格唔統一。

適配：有啲頁面睇落靚，但手機嗰邊根本睇唔清。

方案改用 HTML / CSS 生成畫面

文字：一定準確。

字號：字體大細可以統一控制。

佈局：可以針對視頻號手機端優化。

細節：顏色、間距、字幕安全區可以穩定。

複用：同一套模板可以重用，亦都可以不斷迭代。

你可以將 HTML 理解成「可編程嘅 PPT 頁面」。佢唔係網頁，而係一張可以精準控制嘅直身視頻幀。最後再用瀏覽器將 HTML 渲染成高清 PNG 或動態 MP4 片段，咁就比淨係 AI 生圖穩定好多。

提示：AI 負責理解內容同生成結構，HTML/CSS 負責將內容精準呈現出嚟，模板系統負責保證風格統一。

第四步：畫面設計唔係隨機生成，而係先生成視覺 DNA

呢度係我最近覺得最有價值嘅一點。如果每條片都叫 AI 臨時設計頁面，結果一定會越來越亂——今日一個科技藍，聽日一個紫色漸變，後日一個 cyberpunk 背景，睇落好熱鬧，但賬號冇自己嘅識別度。所以我喺工作流度加咗一層：視覺 DNA 系統。

每條片生成畫面之前，Agent 會先判斷呢條內容適合咩視覺系統，佢會分析呢幾個維度：

呢個係 AI 教程，定係開源項目推薦？
係數據解讀，定係讀書教育？
係觀點表達，定係工具測評？
內容密度高唔高？
有冇 cap 圖素材？
需要偏理性，定係偏温和？
邊啲資訊一定要喺手機度睇得清？

然後生成一個視覺策略，入面會定義：

視覺世界、色彩系統、字體風格
版面語言、常用符號、模板組合
動效風格、禁止事項

例如我而家比較鍾意嘅係牛油果綠 + 奶黃呢一套。佢唔係傳統 AI 片嗰種紫藍漸變，亦唔係成個畫面都係科技感光效，而係更加似一本高級嘅內容手冊，視覺上更温和，亦更適合長期做知識內容。

但同樣係呢套色系，唔同內容唔可以生得一模一樣，所以視覺 DNA 下面仲會有唔同子風格，例如：

內容類型	視覺子風格
AI 教程	偏 Tech Manual，似一份技術手冊
開源項目推薦	偏 Product Lab / Data Story，突出項目、數據同證據
讀書內容	偏 Reading Journal，似讀書筆記同批註
觀點視頻	偏 Editorial Opinion，更加似雜誌版面
數據內容	偏 Data Story，用大數字同證據卡片

提示：呢個就係視覺 DNA 嘅作用——保證賬號統一，但唔會令每條片變成同一個模板。

第五步：模板庫決定效率，模板變體決定唔死板

得視覺風格仲唔夠，仲需要模板庫。我嘅理解係，視頻畫面唔係無限自由設計，而係有啲常見表達類型，例如：

大數字證據版、Before / After 對比版
步驟清單版、產品 cap 圖講解版
方法論框架版、讀書批註版
總結金句版、數據故事版

呢啲都可以做成模板族。但模板唔可以得一個版本，如果唔係每日出片，觀眾一眼就會覺得「又係呢版」。所以我個系統入面每個模板族都要有多個變體，例如：

A 版
：資訊最清晰。
B 版
：視覺衝擊最強。
C 版
：最適合 cap 圖收藏。

Agent 喺匹配畫面嘅時候，唔係隨機揀模板，而係根據內容語義選擇：

講「點解錯」，用對比或風險模板
講「點樣做」，用步驟或清單模板
講「核心機制」，用流程或閉環模板
講「數據證據」，用大數字證據模板
講「界面操作」，用 cap 圖檢查模板

同時仲要做反重複控制，例如連續幾版唔可以都係同一種構圖，一條片入面要有主視覺版、資訊版、對比版、證據版、總結版嘅節奏變化。

重點：真正穩定嘅系統應該係——AI 負責判斷內容，模板負責承載內容。

第六步：每個版會根據內容自動調整

一個好嘅視頻畫面系統，唔應該只係「套模板」，佢要根據內容密度自動調整：

內容少嘅時候，用大標題、留白、視覺符號，令觀點更有衝擊力
內容中等嘅時候，可以用卡片、步驟、對比結構
內容多嘅時候，就要用證據卡、分區、編號、重點 highlight

按內容類型都要做相應調整：

數字好多嘅內容，要優先放大數字
產品推薦，要突出產品名、URL、核心功能
教程類內容，要將步驟編號做清楚
讀書類內容，要將「原書問題」同「我嘅理解」分開

提示：唔係所有內容都用同一個版，而係內容決定版嘅結構。

例如一個開源項目片入面，如果有 GitHub 地址、在線體驗地址、核心數據，版就應該似一張項目檔案；如果係一篇讀書推薦，版就應該似讀書批註同知識卡片；如果係一個 AI 工具教程，版就應該似操作手冊同流程圖。咁樣做出嚟嘅片先唔會死板。

第七步：動效唔係亂閃，而係跟口播節奏出現

我之前踩過一個坑。一開始加動效嘅時候，版會不停閃、不停 loop，睇落好嘈。後來我先確定一個原則：

注意：視頻動效唔係網頁動效。網頁可以 loop 住播，但視頻畫面一定要跟口播節奏對齊。

例如一版有 4 個重點，唔應該同時出現，亦唔應該不停 loop 住閃，而應該似動態 PPT 咁：

① 第 0 秒

主標題出現。

② 第 0.5 秒

第一個重點出現。

③ 第 1.2 秒

第二個重點出現。

④ 第 2 秒

結論 highlight。

最後 30%-40% 嘅時間保持穩定，等觀眾睇清楚。呢個就係我而家用嘅動效邏輯：HTML 版先係一張完整穩定嘅畫面，再透過時間軸控制元素一次性出現，最後停喺最終 hold 幀。唔同模板有唔同動效：

數據頁
：先出大數字，再出證據卡，最後出結論。
對比頁
：先出舊方式，再出新方式，再出現箭頭同結論。
清單頁
：一項一項出現。
截圖頁
：cap 圖主體唔鬱，淨係動 highlight 框同註釋。

提示：咁樣動效先係幫人理解，而唔係炫耀技術。

第八步：手機版檢查比電腦版更重要

視頻號發布之後，我發現一個好現實嘅問題：電腦睇落清楚，手機可能完全唔得。所以之後我將檢查標準改為手機版優先。

發布前至少睇呢啲：

字體夠唔夠大
內容區有冇被字幕遮住
底部有冇被視頻號 UI 遮住
畫面係咪太暗
細字係咪太多
第一版有冇停留理由
最後導出係咪高清

後來我對畫面做咗幾條硬規則：

正文要更大
細字要減少
對比度要更高
底部留出字幕安全區
關鍵內容唔好放喺最底
字幕唔好搶正文
封面同頭 3 秒要一眼睇得明

好多 AI 片睇落「矇」，唔一定係導出分辨率嘅問題，都可能係設計層面嘅細字太多、對比太弱、資訊太逼，所以高清唔係淨係靠 1080P 或 4K。

重點：真正嘅高清，係設計上已經適合手機閲讀。

第九步：成條工作流可以咁樣搭

如果你想自己搭一個低配版，唔一定要一開始就寫好多 code，可以跟呢個流程嚟：

用 AI 幫你將文章拆成口播同分鏡。
畀每個分鏡標註畫面類型。
做一套自己嘅視覺風格，例如固定色系、字體、標題位置、字幕安全區。
先做 5-8 個常用模板：大數字版、對比版、步驟版、cap 圖版、總結版。
用 HTML、Figma、PPT、Canva 都得，先將呢啲版做出嚟。
用 TTS 生成配音。
根據口播剪字幕。
將畫面、配音、字幕合成片。
手機版檢查。
根據問題迭代模板。

等你 run 順咗之後，再逐步自動化，例如叫 Codex 幫你：

自動生成分鏡。
自動匹配模板。
自動生成 HTML 版。
自動導出圖片。
自動生成配音同字幕。
自動合成片。
自動做質檢報告。

呢個就係由「手動做一條片」，升級做「搭一套視頻生產系統」。

最後講一句

重點：AI 片嘅競爭點，唔係識唔識生成，而係你能唔能夠將內容組織清楚，將畫面設計穩定，將流程持續迭代。

AI
負責理解同拆解。
HTML/CSS
負責準確呈現。
模板庫
負責穩定重用。
視覺 DNA
負責賬號識別。
動效
負責幫助理解。
手機版檢查
負責最終質量。

所以我而家越來越覺得：AI 片唔係生成幾張圖，而係將內容變成一 set 可以重用嘅工作流。呢個都係我用 Codex 搭呢套系統嘅原因。

如果你都喺度做 AI 內容，唔好淨係研究提示詞，更加重要嘅係，開始搭自己嘅流程。

寶貝們，7月份加價咗，下面福利到呢個月尾。

想玩得更深入？三揀一

方案 1 自學黨 · 69 元（就快加價到99元）

OpenClaw + Hermes+codex+claude 全套資料包：

OpenClaw入門到精通教程
agent102 個實戰案例
OpenClaw避坑手冊（踩過嘅坑都幫你標好咗）
數百個 Skill 技能包
Hermes 實戰文檔
Hermes123指令詳解
codex入門到精通手冊
claude入門到大師（非常詳細）

適合：想自己琢磨、慢慢啃嘅人。

方案 2 揾人帶 · 99 元（就快加價到169）

資料包全部內容，外加：

羣內實操交流，踩坑有人接
不定期實用嘢分享
一班同頻玩家，互相打氣

適合：想少走彎路、有人陪住一齊玩嘅人。

方案 3 就要呢兩個工具 · 私訊查詢（學習工作提效神器）

直接拎到嬌姐用 OpenClaw + Hermes 摸索咗大半年、調教成熟嘅兩個精華 Hermes Agent：

公眾號訂閲助手：訂閲咗嘅公眾號文章自動下載、自動入 Obsidian 知識庫，以後唔使再手動複製貼上。

微信聊天記錄 AI 助手：微信本地聊天記錄駁 AI，羣組同私訊都支援，將聊天記錄變成可檢索、可分析嘅數據資產，玩法超多。

唔單止係工具，更加係實戰教程：配置方案入面每一步點樣行、點解要咁配都講得清清楚楚，跟住 run 一次，Hermes Agent 點樣搭、點樣調、點樣落地，已經學到手。

適合：就要呢兩個工具、又想喺實戰入面將 Hermes Agent 學明白嘅人。

點樣拎：後台私訊 kekohu，備註你要邊個（資料 / 社羣 / 工具），見到就覆。

hermes系列文章

持續更新，建議每篇認真睇
【唔建議用官方命令】Windows 環境下安裝Hermes及遷移Openclaw嘅實操分享
我用hermes搭咗一個成功日記agent
55 個實測有效AI訂閲源RSS
【私藏分享】抽乾任何內容變成超好用嘅學習筆記
Token :AI 時代,你嘅 API 賬單入面到底買緊啲咩
Hermes嘅123個命令詳解
12家AI同場高考：0.01分定勝負，數學全軍覆沒一道題
【hermes實用乾貨分享】公眾號文章自動訂閲入obsidian知識庫庫
10 分鐘令 Codex 桌面版接上 MiniMax，Windows 用戶都可以白嫖
我今日第一次認真體驗 Codex，最震撼嘅係 Computer Use
兩個月10萬營收，skill設計指南
我寫公眾號嘅完整過程，用咗呢兩個工具
圓桌討論框架：叫AI幫你將問題辯到透
從 GitHub 到 Hermes：200+個AI角色嘅一站式集成實戰
Hermes 多代理協作完全指南：小白嘅第一個AI團隊
我嘅hermes微信助手自己出馬 sell 自己
我用hermes搭咗 YouTube 自動高光剪輯流程
用 AI+QGIS 做咗一張會講嘢嘅歷史地圖視頻
我喺Hermes上面搭咗一個人生導師 Agent，佢幫我生成咗呢套採訪大綱
32.9k Star，GitHub 最火嘅 Claude Code 教程，畀我hermes扒咗個乾淨
【直接抄功課】我嘅hermes運維專家agent配置指南
Hermes Agent 實戰：雙模式字卡，認字 + 親子互動一張搞掂
【家長老師收藏】AI輔助學習全科提示詞寶典
修改呢幾個配置項，令 MiniMax 模型喺 Claude Code 入面發揮到極致
【hermes保姆教程】B站視頻逐字稿自動入obsidian知識庫
告別生圖 API，我用 Hermes Skill 免費出圖無限次
清華大學 MAIC 團隊，GitHub 上已經有 16.5k Star 嘅一個開源項目
分享我自己用緊嘅Hermes嘅Obsidian skill
【保姆教程】我用 Obsidian +hermes 搭咗一個會自己整理嘅知識庫
參考劉小排嘅 BuilderPulse ：我用 Hermes 發現值得睇嘅github項目
Hermes 入門到實操中文文檔
【Hermes整理】OpenClaw 變現項目地圖：6 大賽道
Hermes 裝好之後，我最建議先做嘅 8 個實操動作
我將 OpenClaw 嘅 Agent 無縫遷移咗去 Hermes——就靠呢一份 Skill
參考 Hermes 優化 OpenClaw：令你嘅 AI 學識記、學識覆盤、學識巡檢

openclaw系列文章

持續更新，建議每篇認真睇

配置與理解

徹底搞懂 OpenClaw 配置體系：呢個先係 AI Agent 嘅正確打開方式
【支援一對一諮詢】我用hermes搭咗一個助手，每個人都應該用得着
【唔建議用官方命令】Windows 環境下安裝Hermes及遷移Openclaw嘅實操分享
我嘅個人成長助手Agent罷工咗，Claude max定位總結嘅呢幾點分享畀大家
【今日唔講STBI測試】我用OpenClaw搭咗一個自動抓多個公眾號、AI整理、發飛書嘅Agent，核心就係呢四步
OpenClaw openclaw.json 全量小白教程：一篇講清每個配置項嘅作用
你喺飛書或者微信出咗句「你好」，OpenClaw 到底用咗幾多 Token？
詳細指南微信插件支援OpenClaw
OpenClaw龍蝦點樣自我糾錯 5步自我迭代法
【網友都話好靚】我叫openclaw開發咗一個自己嘅互動式說明書

唔好畀人呃，OpenClaw 可以 24 小時做嘢——但你要先做對呢 6 件事

紅咗三個月嘅「龍蝦」，普通人裝咗真係有用咩？

用 OpenClaw 將 AI 失憶醫好：開關、精簡、外掛三步走
OpenClaw 命令完整手冊
OpenClaw 到底點樣 run？部署方式與玩法全景
點樣申請 Brave Search API 密鑰並配置 OpenClaw
用大白話講清楚OpenClaw嘅記憶術
OpenClaw 長任務必讀：用 Sub-Agent 隔離上下文，token 消耗降低 85%
OpenClaw 慳 Token 實操手冊：八個維度，節省 60–90%
OpenClaw 曲線救國：透過 CLI 後端使用 Claude 模型
飛書同openclaw整合實操教程
【呢篇文係openclaw輸出】OpenClaw超簡單同免費嘅安裝實操教程

多 Agent 與協作

OpnClaw 多 Agent 協作實戰完全教程
OpenClaw 多代理配置指南：叫 AI 團隊幫你同時做多件事

技能與工具

OpenClaw 官方 53 個技能完整指南：功能詳解 + 風險評估 + 安裝建議
【GitHub Skill 】 OpenClaw多Agent交付畀客戶嘅流程Skill
呢個 Skill 太適合「小白摸魚式」情報蒐集：唔使 API Key，直接將 Reddit 變成你嘅選題庫
【免費領取】7套唔同賽道風格公眾號排版Skill（有效果圖）
12類人羣必裝嘅OpenClaw Skills
唔寫 code，點樣令 OpenClaw Agent 學識新技能

實戰與案例

本地部署 OpenClaw 自動發布公眾號：小白完整教程
本地部署 OpenClaw 自動發布小紅書：小白完整教程
我用 OpenClaw，將小朋友學習情況整理成可以長期追蹤嘅學情檔案
【實操分享】OpenClaw多文檔多輸入源筆記整理Agent搭建
【保姆教程】OpenClaw功課錯題分析師，每個家長都可以學起嚟
OpenClaw 完全指南：從零搭建你嘅 AI 員工團隊
睇嚇呢個龍蝦速度，就知道OpenClaw有幾紅，速度跟上
OpenClaw 完全指南：從零搭建你嘅 AI 員工團隊
OpenClaw 實戰：從0到1搭建你嘅雲端AI工作流
我嘅OpenClaw 多Agent 會主動傳嚟「返工打卡」
OpenClaw 實戰操作指南：12大熱門應用案例詳細教程
我嘅openclaw龍蝦開始自己賺錢喇
用咗openclaw，同telegram可以雙向通訊喇

排錯與安全

OpenClaw 排錯指南
OpenClaw 龍蝦玩家嘅安全指南

關於嬌姐

40+ IT 從業者，前榮耀員工，而家專注 AI 效率工具研究同實踐。持續輸出 OpenClaw 同 AI 工具嘅實用教程同落地案例，間中分享職場思考同生活感悟。

高考嘅堅持與感恩：我心中嗰座橋，跨越咗命運

40 + IT女從榮耀離職：揾工碰壁、陪仔焦慮嘅日子，我靠 AI 公眾號揾返自己

先關注後閲讀，嬌姐怕失去上進的你

文末嬌姐整理heremes、openclaw所有文章連結

想了解嬌姐點擊文末連結

今天這篇是嬌姐開公眾號以來的第557篇，我是持續堅持日更分享AI乾貨的嬌姐。

最近我發了幾條 AI 視頻，很多人問我："這個視頻是怎麼做的？"

一開始我也以為，大家問的是用什麼剪輯軟件、用什麼 AI 生圖、用什麼配音工具。但真正做下來我發現，這類視頻的核心並不是剪輯，也不是單純找 AI 生成幾張圖。

它本質上是一套內容生產工作流。也就是說，你不是在"做一個視頻"，而是在搭一個可以持續生產視頻的系統。我這段時間就在用 Codex 搭這樣一套 AI 視頻 Agent。它的目標不是替我點幾個按鈕，而是把一篇文章、一個選題、一個開源項目，自動拆成下面這些環節：

選題角度、口播腳本、分鏡、畫面設計
HTML 頁面、配音、字幕、動效、成片檢查

今天這篇就講講這個系統背後的思路。不講太多代碼細節，但會把核心邏輯講清楚。想自己搭類似工作流的人，可以按這個方向去做。

第一步：先把內容拆清楚，不要一上來做畫面

很多人做 AI 視頻，一上來就問："用哪個工具生成畫面？""用什麼提示詞？""怎麼讓圖更好看？"但我現在的經驗是，畫面不是第一步，第一步是內容結構。

比如我做一個開源項目推薦視頻，不能直接把文章丟給 AI 讓它生成視頻，這樣出來的視頻通常會很散，畫面也不知道該表達什麼。正確的做法是先讓 Agent 生成一個"預生產稿"。

預生產稿裏至少要包括這些內容：

這個選題講給誰看
觀眾為什麼會停下來
這條視頻的核心衝突是什麼
觀眾看完要記住哪句話
哪些數字、產品名、URL、方法論必須出現
每一段口播對應什麼畫面
哪些頁面值得截圖收藏

我現在的理解是：視頻不是文章換成語音，而是把內容重新拆成一屏一屏的觀看理由。一屏只承擔一個任務，比如：

大數字頁面
——負責製造衝擊感。
Before / After 頁面
——負責講清楚變化。
步驟頁面
——負責讓人能照着做。
截圖講解頁面
——負責讓人相信這是真的。
總結頁面
——負責讓人記住觀點。

提示：如果前面這個內容拆解沒做好，後面畫面再漂亮，也只是包裝。

第二步：把口播拆成分鏡

我的 Agent 不是直接拿原文生成畫面，而是先把文章拆成口播，再把口播拆成分鏡。比如一條視頻會變成這樣的結構：

① 開頭鈎子

告訴你為什麼這個東西值得看。

② 痛點

說明原來的方式哪裏難。

③ 核心數字

給出證據。

④ 功能拆解

講它到底怎麼實現。

⑤ 方法論

提煉出可複用的思路。

⑥ 結尾

告訴你應該怎麼行動。

每個分鏡都會有幾個字段：

這一屏口播講什麼
這一屏畫面要完成什麼任務
這一屏必須出現哪些關鍵詞
這一屏適合用什麼畫面類型
這一屏是否具備截圖價值
字幕會不會擋住核心內容

這一步非常關鍵，因為 AI 做視頻最容易出問題的地方，就是"口播說一套，畫面演另一套"。比如口播裏提到 GitHub 地址，但畫面裏沒有 URL；口播說 720 個人物、1812 條關係，但畫面只畫了一個抽象科技背景——這就不行。

重點：口播裏重要的信息，畫面裏必須有承載。產品名、URL、關鍵數字、方法論名，不能只靠 AI 生圖自由發揮，必須由 HTML 或後期貼片保證準確。

第三步：為什麼我用 HTML 做畫面，而不是完全依賴 AI 生圖

這是整個系統裏最重要的一個決策。一開始我也嘗試過 AI 生圖，但很快發現幾個問題。

問題單純依賴 AI 生圖

文字：容易錯。

URL：容易錯。

排版：中文排版不穩定。

風格：同一批畫面風格不統一。

適配：有些頁面看起來漂亮，但手機端根本看不清。

方案改用 HTML / CSS 生成畫面

文字：一定準確。

佈局：可以針對視頻號手機端優化。

細節：顏色、間距、字幕安全區可以穩定。

複用：同一套模板可以複用，也可以不斷迭代。

你可以把 HTML 理解成"可編程的 PPT 頁面"。它不是網頁，而是一張可以精準控制的豎屏視頻幀。最終再用瀏覽器把 HTML 渲染成高清 PNG 或動態 MP4 片段，這就比單純 AI 生圖穩定很多。

提示：AI 負責理解內容和生成結構，HTML/CSS 負責把內容精確呈現出來，模板系統負責保證風格統一。

第四步：畫面設計不是隨機生成，而是先生成視覺 DNA

這裏是我最近覺得最有價值的一點。如果每條視頻都讓 AI 臨時設計頁面，結果一定會越來越亂——今天一個科技藍，明天一個紫色漸變，後天一個賽博朋克背景，看起來很熱鬧，但賬號沒有自己的識別度。所以我在工作流里加了一層：視覺 DNA 系統。

每條視頻生成畫面之前，Agent 會先判斷這條內容適合什麼視覺系統，它會分析這幾個維度：

這是 AI 教程，還是開源項目推薦？
是數據解讀，還是讀書教育？
是觀點表達，還是工具測評？
內容密度高不高？
有沒有截圖素材？
需要偏理性，還是偏温和？
哪些信息必須在手機端看清？

然後生成一個視覺策略，裏面會定義：

視覺世界、色彩系統、字體風格
版面語言、常用符號、模板組合
動效風格、禁止事項

比如我現在比較喜歡的是牛油果綠 + 奶黃這一套。它不是傳統 AI 視頻那種紫藍漸變，也不是滿屏科技感光效，而是更像一本高級的內容手冊，視覺上更温和，也更適合長期做知識內容。

但同樣是這套色系，不同內容也不能長得一模一樣，所以視覺 DNA 下面還會有不同子風格，比如：

內容類型	視覺子風格
AI 教程	偏 Tech Manual，像一份技術手冊
開源項目推薦	偏 Product Lab / Data Story，突出項目、數據和證據
讀書內容	偏 Reading Journal，像讀書筆記和批註
觀點視頻	偏 Editorial Opinion，更像雜誌版面
數據內容	偏 Data Story，用大數字和證據卡片