【實操乾貨分享】Codex搭建AI視頻製作工作流
整理版優先睇
用 Codex 搭一套 AI 影片製作系統,唔係單靠提示詞,係成條生產鏈
呢篇文章係嬌姐——一位 40+ 前榮耀員工、而家專注 AI 效率工具嘅 IT 從業者——分享佢點樣用 Codex 搭建 AI 影片製作工作流嘅實戰經驗。嬌姐發現好多人問「呢條片點樣做」,但佢覺得核心唔係剪輯或者 AI 生圖,而係一套「可持續生產內容嘅系統」。佢嘅結論係:AI 影片嘅競爭力唔係識唔識生成,係你有冇能力將內容組織清楚、將畫面設計穩定、將流程持續迭代。
嬌姐詳細拆解咗由內容拆解、口播分鏡、HTML 畫面、視覺 DNA、模板庫、動效節奏到手機端檢查嘅九個步驟。佢強調畫面唔係第一步,內容結構先係;HTML/CSS 比 AI 生圖更可控;視覺 DNA 確保帳號統一性;模板庫要有變體避免重複;動效要跟口播節奏對齊;手機端檢查比電腦更重要。最後佢提供咗一個低配版工作流方向,同埋自家套裝(OpenClaw + Hermes + Codex + Claude)推廣資訊。
- 影片製作本質係一套內容生產工作流,唔係單靠 AI 生圖或剪輯,而係要將選題、口播、分鏡、畫面、配音、字幕、動效、質檢串成一條自動化系統。
- 第一步係拆內容結構,唔係直接生成畫面;預生產稿要定義觀眾、衝突、關鍵信息同每段口播對應嘅畫面任務,咁樣先避免口播同畫面「各說各話」。
- 用 HTML/CSS 生成畫面比 AI 生圖更穩定:文字準確、排版可控、手機端適配好、風格統一,而且可以複用迭代,係「可編程嘅 PPT 頁面」。
- 視覺 DNA 系統幫帳號建立統一識別度,唔同內容類型(教程、開源項目、讀書、觀點、數據)對應唔同子風格,例如 AI 教程用 Tech Manual 風格,開源項目用 Product Lab 風格。
- 手機端檢查比電腦更重要:字體夠大、字幕安全區、對比度、關鍵內容避開底部,真係高清係設計上適合手機閲讀,唔係單純睇解析度。
低配版工作流步驟
1. 用AI拆文章成口播和分鏡;2. 每個分鏡標畫面類型;3. 定視覺風格(色系、字體、安全區);4. 做5-8個常用模板(大數字、對比、步驟、截圖、總結);5. 用HTML/Figma/PPT/Canva造頁面;6. TTS配音;7. 切字幕;8. 合成視頻;9. 手機檢查;10. 迭代模板。之後逐步自動化。
嬌姐嘅 OpenClaw + Hermes 全套資料包
包含OpenClaw入門到精通、Agent 102案例、避坑手冊、Skill包、Hermes實戰文檔、Codex手冊、Claude教程等。
第一步:拆清內容結構,唔好一嚟就整畫面
好多人做 AI 影片第一時間諗「用咩工具生圖」,但嬌姐話第一步係內容結構。例如做開源項目推薦,唔可以就咁掉篇文章畀 AI 生成,否則畫面會好散。正確做法係叫 Agent 出「預生產稿」,入面要講明:呢個選題講畀邊個聽、觀眾點解會停低、核心衝突係咩、觀眾要記住邊句、邊啲數字/產品名/URL 一定要出現、每一段口播對應咩畫面。
影片唔係將文章變成語音,而係將內容重新拆成一屏一屏嘅觀看理由。
一屏只負責一個任務:大數字頁製造衝擊感,Before/After 頁講清楚變化,步驟頁讓人跟住做,截圖講解頁令人相信係真,總結頁令人記住觀點。
第二步:將口播轉成分鏡,確保畫面同步
Agent 會將文章先拆成口播,再將口播拆成分鏡,每個分鏡有清楚字段:呢一屏講咩口播、完成咩畫面任務、必須出現嘅關鍵詞、適合邊種畫面類型、係咪有截圖價值、字幕會唔會擋住核心內容。
口播講一套,畫面演另一套—呢個係 AI 影片最易出事嘅位。
例如口播提到 GitHub 地址,畫面就要有 URL;口播話「720 個人物、1812 條關係」,畫面就要用數字卡呈現,唔可以淨係一個抽象科技背景。重要信息(產品名、URL、數字、方法論)要由 HTML 或後期貼片保證準確,唔可以靠 AI 生圖自由發揮。
第三步:用 HTML 做畫面,唔依賴 AI 生圖
嬌姐試過 AI 生圖,發現有幾個問題:文字容易錯、URL 容易錯、中文排版唔穩定、風格唔統一、手機端睇唔清。所以改用 HTML/CSS 生成畫面,好處係文字準確、字號統一、佈局可控、顏色間距穩定、可以複用迭代。
HTML 係「可編程嘅 PPT 頁面」,唔係網頁,而係一張可以精準控制嘅豎屏影片幀。
第四步:建立視覺 DNA,唔好條條片唔同風格
如果每條片都畀 AI 臨時設計畫面,結果會越來越亂:今日科技藍,明日紫色漸變,後日賽博朋克,帳號冇自己嘅識別度。嬌姐加咗一層「視覺 DNA 系統」,Agent 會先分析內容適合咩視覺系統——係 AI 教程定開源項目推薦、數據解讀定係觀點表達——然後生成視覺策略,定義色彩系統、字體風格、版面語言、常用符號、動效風格同禁止事項。
視覺 DNA 確保帳號統一,但唔會令每條片變同一模板。
- 1 AI 教程 → Tech Manual(技術手冊風格)
- 2 開源項目推薦 → Product Lab / Data Story(突出項目、數據同證據)
- 3 讀書內容 → Reading Journal(讀書筆記同批註)
- 4 觀點視頻 → Editorial Opinion(雜誌版面)
- 5 數據內容 → Data Story(大數字同證據卡片)
第五步:模板庫決定效率,模板變體決定不死板
雖然有視覺風格,但仲需要模板庫。常見畫面類型包括:大數字證據頁、Before/After 對比頁、步驟清單頁、產品截圖講解頁、方法論框架頁、讀書批註頁、總結金句頁、數據故事頁。每個模板族要有變體,例如 A 版信息最清晰、B 版視覺衝擊最強、C 版最適合截圖收藏。
Agent 根據內容語義匹配模板,唔係隨機揀:講「點解錯」用對比或風險模板,講「點樣做」用步驟或清單模板。
同時要做反重複控制:連續幾頁唔可以用同一種構圖,一條片要有主視覺頁、信息頁、對比頁、證據頁、總結頁嘅節奏變化。真正穩定嘅系統係 AI 負責判斷內容,模板負責承載內容。
第六步:內容密度決定頁面結構,唔係倒模
一個好嘅畫面系統唔應該只係「套模板」,而要根據內容密度自動調整:內容少嘅時候用大標題、留白、視覺符號,令觀點更有衝擊力;內容中等用卡片、步驟、對比結構;內容多就用證據卡、分區、編號、重點高亮。
內容決定頁面結構,唔係所有內容用同一個版面。
- 數字多:優先放大數字
- 產品推薦:突出產品名、URL、核心功能
- 教程類:步驟編號清楚
- 讀書類:區分「原書問題」同「我嘅理解」
先關注再睇文,嬌姐唔想冇咗上進嘅你
文末嬌姐整理咗heremes、openclaw嘅所有文章連結
想了解嬌姐就㩒文末連結
今日呢篇係嬌姐開公眾號以嚟嘅第557篇,我係持續堅持日更分享AI實用嘢嘅嬌姐。
最近我出咗幾條 AI 片,好多人問我:「呢條片點樣整㗎?」
一開始我都以為,大家係問用咩剪片軟件、用咩 AI 生圖、用咩配音工具。但真正做落我發現,呢類片嘅核心唔係剪片,亦都唔係就咁揾 AI 生成幾張圖。
佢本質上係一套內容生產工作流。即係話,你唔係喺度「做一條片」,而係喺度搭一個可以持續生產片嘅系統。我呢排就用緊 Codex 搭咗咁樣一套 AI 視頻 Agent。佢嘅目標唔係幫我㩒幾個掣,而係將一篇文章、一個選題、一個開源項目,自動拆成下面呢啲環節:
選題角度、口播劇本、分鏡、畫面設計 HTML 頁面、配音、字幕、動效、成片檢查
今日呢篇就講嚇呢個系統背後嘅思路。唔講太多 code 細節,但會將核心邏輯講清楚。想自己搭類似工作流嘅人,可以跟呢個方向去做。

第一步:首先將內容拆清楚,唔好一開始就做畫面
好多人做 AI 片,一開始就問:「用邊個工具生成畫面?」「用咩提示詞?」「點樣令張圖靚啲?」但我而家嘅經驗係,畫面唔係第一步,第一步係內容結構。
例如我做一個開源項目推薦片,唔可以直接將文章掉畀 AI 叫佢生成片,咁樣出嚟嘅片通常會好散,畫面又唔知想表達咩。正確做法係先叫 Agent 生成一個「預生產稿」。
預生產稿裏面至少要包埋呢啲內容:
呢個選題講畀邊個睇 觀眾點解會停低 呢條片嘅核心衝突係咩 觀眾睇完要記住邊句話 邊啲數字、產品名、URL、方法論一定要出現 每一段口播對應咩畫面 邊啲頁面值得 cap 圖收藏
我而家嘅理解係:片唔係將文章變成語音,而係將內容重新拆成一版一版嘅觀看理由。一版淨係負責一個任務,例如:
- 大數字版
——負責製造衝擊感。 - Before / After 版
——負責講清楚變化。 - 步驟版
——負責令人跟住做。 - Cap 圖講解版
——負責令人相信係真嘅。 - 總結版
——負責令人記住觀點。
提示:如果前面呢個內容拆解冇做好,後面畫面再靚,都只係包裝。
第二步:將口播拆成分鏡
我嘅 Agent 唔係直接拎原文生成畫面,而係先將文章拆成口播,再將口播拆成分鏡。例如一條片會變成咁嘅結構:
① 開頭鈎
話畀你知點解呢樣嘢值得睇。
② 痛點
解釋原本嘅方法難喺邊。
③ 核心數字
畀出證據。
④ 功能拆解
講佢到底點樣實現。
⑤ 方法論
提煉出可以重複用嘅思路。
⑥ 結尾
話畀你知應該點樣行動。
每個分鏡都會有幾個欄位:
呢版口播講咩 呢版畫面要完成咩任務 呢版一定要出現邊啲關鍵字 呢版適合用咩畫面類型 呢版有冇 cap 圖價值 字幕會唔會遮住核心內容
呢步好關鍵,因為 AI 做片最易出事嘅地方,就係「口播講一套,畫面做另一套」。例如口播提到 GitHub 地址,但畫面冇 URL;口播話有 720 個人物、1812 條關係,但畫面淨係畫咗個抽象科技背景——咁就唔得。
重點:口播裏面重要嘅資訊,畫面一定要有承載。產品名、URL、關鍵數字、方法論名,唔可以只靠 AI 生圖自由發揮,一定要由 HTML 或後期貼片保證準確。
第三步:點解我用 HTML 做畫面,而唔係完全靠 AI 生圖
呢個係成個系統最重要嘅一個決定。一開始我都試過 AI 生圖,但好快發現幾個問題。
問題 淨係靠 AI 生圖
文字:容易錯。
URL:容易錯。
排版:中文排版唔穩定。
風格:同一批畫面風格唔統一。
適配:有啲頁面睇落靚,但手機嗰邊根本睇唔清。
方案 改用 HTML / CSS 生成畫面
文字:一定準確。
字號:字體大細可以統一控制。
佈局:可以針對視頻號手機端優化。
細節:顏色、間距、字幕安全區可以穩定。
複用:同一套模板可以重用,亦都可以不斷迭代。
你可以將 HTML 理解成「可編程嘅 PPT 頁面」。佢唔係網頁,而係一張可以精準控制嘅直身視頻幀。最後再用瀏覽器將 HTML 渲染成高清 PNG 或動態 MP4 片段,咁就比淨係 AI 生圖穩定好多。

提示:AI 負責理解內容同生成結構,HTML/CSS 負責將內容精準呈現出嚟,模板系統負責保證風格統一。
第四步:畫面設計唔係隨機生成,而係先生成視覺 DNA
呢度係我最近覺得最有價值嘅一點。如果每條片都叫 AI 臨時設計頁面,結果一定會越來越亂——今日一個科技藍,聽日一個紫色漸變,後日一個 cyberpunk 背景,睇落好熱鬧,但賬號冇自己嘅識別度。所以我喺工作流度加咗一層:視覺 DNA 系統。
每條片生成畫面之前,Agent 會先判斷呢條內容適合咩視覺系統,佢會分析呢幾個維度:

呢個係 AI 教程,定係開源項目推薦? 係數據解讀,定係讀書教育? 係觀點表達,定係工具測評? 內容密度高唔高? 有冇 cap 圖素材? 需要偏理性,定係偏温和? 邊啲資訊一定要喺手機度睇得清?
然後生成一個視覺策略,入面會定義:
視覺世界、色彩系統、字體風格 版面語言、常用符號、模板組合 動效風格、禁止事項
例如我而家比較鍾意嘅係牛油果綠 + 奶黃呢一套。佢唔係傳統 AI 片嗰種紫藍漸變,亦唔係成個畫面都係科技感光效,而係更加似一本高級嘅內容手冊,視覺上更温和,亦更適合長期做知識內容。
但同樣係呢套色系,唔同內容唔可以生得一模一樣,所以視覺 DNA 下面仲會有唔同子風格,例如:
提示:呢個就係視覺 DNA 嘅作用——保證賬號統一,但唔會令每條片變成同一個模板。
第五步:模板庫決定效率,模板變體決定唔死板
得視覺風格仲唔夠,仲需要模板庫。我嘅理解係,視頻畫面唔係無限自由設計,而係有啲常見表達類型,例如:
大數字證據版、Before / After 對比版 步驟清單版、產品 cap 圖講解版 方法論框架版、讀書批註版 總結金句版、數據故事版
呢啲都可以做成模板族。但模板唔可以得一個版本,如果唔係每日出片,觀眾一眼就會覺得「又係呢版」。所以我個系統入面每個模板族都要有多個變體,例如:
- A 版
:資訊最清晰。 - B 版
:視覺衝擊最強。 - C 版
:最適合 cap 圖收藏。
Agent 喺匹配畫面嘅時候,唔係隨機揀模板,而係根據內容語義選擇:
講「點解錯」,用對比或風險模板 講「點樣做」,用步驟或清單模板 講「核心機制」,用流程或閉環模板 講「數據證據」,用大數字證據模板 講「界面操作」,用 cap 圖檢查模板
同時仲要做反重複控制,例如連續幾版唔可以都係同一種構圖,一條片入面要有主視覺版、資訊版、對比版、證據版、總結版嘅節奏變化。
重點:真正穩定嘅系統應該係——AI 負責判斷內容,模板負責承載內容。
第六步:每個版會根據內容自動調整
一個好嘅視頻畫面系統,唔應該只係「套模板」,佢要根據內容密度自動調整:
內容少嘅時候,用大標題、留白、視覺符號,令觀點更有衝擊力 內容中等嘅時候,可以用卡片、步驟、對比結構 內容多嘅時候,就要用證據卡、分區、編號、重點 highlight
按內容類型都要做相應調整:

數字好多嘅內容,要優先放大數字 產品推薦,要突出產品名、URL、核心功能 教程類內容,要將步驟編號做清楚 讀書類內容,要將「原書問題」同「我嘅理解」分開
提示:唔係所有內容都用同一個版,而係內容決定版嘅結構。
例如一個開源項目片入面,如果有 GitHub 地址、在線體驗地址、核心數據,版就應該似一張項目檔案;如果係一篇讀書推薦,版就應該似讀書批註同知識卡片;如果係一個 AI 工具教程,版就應該似操作手冊同流程圖。咁樣做出嚟嘅片先唔會死板。
第七步:動效唔係亂閃,而係跟口播節奏出現
我之前踩過一個坑。一開始加動效嘅時候,版會不停閃、不停 loop,睇落好嘈。後來我先確定一個原則:
注意:視頻動效唔係網頁動效。網頁可以 loop 住播,但視頻畫面一定要跟口播節奏對齊。
例如一版有 4 個重點,唔應該同時出現,亦唔應該不停 loop 住閃,而應該似動態 PPT 咁:

① 第 0 秒
主標題出現。
② 第 0.5 秒
第一個重點出現。
③ 第 1.2 秒
第二個重點出現。
④ 第 2 秒
結論 highlight。
最後 30%-40% 嘅時間保持穩定,等觀眾睇清楚。呢個就係我而家用嘅動效邏輯:HTML 版先係一張完整穩定嘅畫面,再透過時間軸控制元素一次性出現,最後停喺最終 hold 幀。唔同模板有唔同動效:
- 數據頁
:先出大數字,再出證據卡,最後出結論。 - 對比頁
:先出舊方式,再出新方式,再出現箭頭同結論。 - 清單頁
:一項一項出現。 - 截圖頁
:cap 圖主體唔鬱,淨係動 highlight 框同註釋。
提示:咁樣動效先係幫人理解,而唔係炫耀技術。
第八步:手機版檢查比電腦版更重要
視頻號發布之後,我發現一個好現實嘅問題:電腦睇落清楚,手機可能完全唔得。所以之後我將檢查標準改為手機版優先。

發布前至少睇呢啲:
字體夠唔夠大 內容區有冇被字幕遮住 底部有冇被視頻號 UI 遮住 畫面係咪太暗 細字係咪太多 第一版有冇停留理由 最後導出係咪高清
後來我對畫面做咗幾條硬規則:
正文要更大 細字要減少 對比度要更高 底部留出字幕安全區 關鍵內容唔好放喺最底 字幕唔好搶正文 封面同頭 3 秒要一眼睇得明
好多 AI 片睇落「矇」,唔一定係導出分辨率嘅問題,都可能係設計層面嘅細字太多、對比太弱、資訊太逼,所以高清唔係淨係靠 1080P 或 4K。
重點:真正嘅高清,係設計上已經適合手機閲讀。
第九步:成條工作流可以咁樣搭
如果你想自己搭一個低配版,唔一定要一開始就寫好多 code,可以跟呢個流程嚟:
用 AI 幫你將文章拆成口播同分鏡。 畀每個分鏡標註畫面類型。 做一套自己嘅視覺風格,例如固定色系、字體、標題位置、字幕安全區。 先做 5-8 個常用模板:大數字版、對比版、步驟版、cap 圖版、總結版。 用 HTML、Figma、PPT、Canva 都得,先將呢啲版做出嚟。 用 TTS 生成配音。 根據口播剪字幕。 將畫面、配音、字幕合成片。 手機版檢查。 根據問題迭代模板。
等你 run 順咗之後,再逐步自動化,例如叫 Codex 幫你:
自動生成分鏡。 自動匹配模板。 自動生成 HTML 版。 自動導出圖片。 自動生成配音同字幕。 自動合成片。 自動做質檢報告。
呢個就係由「手動做一條片」,升級做「搭一套視頻生產系統」。
最後講一句
重點:AI 片嘅競爭點,唔係識唔識生成,而係你能唔能夠將內容組織清楚,將畫面設計穩定,將流程持續迭代。
- AI
負責理解同拆解。 - HTML/CSS
負責準確呈現。 - 模板庫
負責穩定重用。 - 視覺 DNA
負責賬號識別。 - 動效
負責幫助理解。 - 手機版檢查
負責最終質量。
所以我而家越來越覺得:AI 片唔係生成幾張圖,而係將內容變成一 set 可以重用嘅工作流。呢個都係我用 Codex 搭呢套系統嘅原因。
如果你都喺度做 AI 內容,唔好淨係研究提示詞,更加重要嘅係,開始搭自己嘅流程。
寶貝們,7月份加價咗,下面福利到呢個月尾。
想玩得更深入?三揀一
方案 1 自學黨 · 69 元(就快加價到99元)
OpenClaw + Hermes+codex+claude 全套資料包:
OpenClaw入門到精通教程 agent102 個實戰案例 OpenClaw避坑手冊(踩過嘅坑都幫你標好咗) 數百個 Skill 技能包 Hermes 實戰文檔 Hermes123指令 詳解 codex入門到精通手冊 claude入門到大師(非常詳細)
適合:想自己琢磨、慢慢啃嘅人。
方案 2 揾人帶 · 99 元(就快加價到169)
資料包全部內容,外加:
羣內實操交流,踩坑有人接 不定期實用嘢分享 一班同頻玩家,互相打氣
適合:想少走彎路、有人陪住一齊玩嘅人。
方案 3 就要呢兩個工具 · 私訊查詢(學習工作提效神器)
直接拎到嬌姐用 OpenClaw + Hermes 摸索咗大半年、調教成熟嘅兩個精華 Hermes Agent:
公眾號訂閲助手:訂閲咗嘅公眾號文章自動下載、自動入 Obsidian 知識庫,以後唔使再手動複製貼上。
微信聊天記錄 AI 助手:微信本地聊天記錄駁 AI,羣組同私訊都支援,將聊天記錄變成可檢索、可分析嘅數據資產,玩法超多。
唔單止係工具,更加係實戰教程:配置方案入面每一步點樣行、點解要咁配都講得清清楚楚,跟住 run 一次,Hermes Agent 點樣搭、點樣調、點樣落地,已經學到手。
適合:就要呢兩個工具、又想喺實戰入面將 Hermes Agent 學明白嘅人。
點樣拎:後台私訊
kekohu,備註你要邊個(資料 / 社羣 / 工具),見到就覆。
hermes系列文章
持續更新,建議每篇認真睇
【唔建議用官方命令】Windows 環境下安裝Hermes及遷移Openclaw嘅實操分享
Token :AI 時代,你嘅 API 賬單入面到底買緊啲咩
【hermes實用乾貨分享】公眾號文章自動訂閲入obsidian知識庫庫
10 分鐘令 Codex 桌面版接上 MiniMax,Windows 用戶都可以白嫖
我今日第一次認真體驗 Codex,最震撼嘅係 Computer Use
從 GitHub 到 Hermes:200+個AI角色嘅一站式集成實戰
我喺Hermes上面搭咗一個人生導師 Agent,佢幫我生成咗呢套採訪大綱
32.9k Star,GitHub 最火嘅 Claude Code 教程,畀我hermes扒咗個乾淨
Hermes Agent 實戰:雙模式字卡,認字 + 親子互動一張搞掂
修改呢幾個配置項,令 MiniMax 模型喺 Claude Code 入面發揮到極致
【hermes保姆教程】B站視頻逐字稿自動入obsidian知識庫
告別生圖 API,我用 Hermes Skill 免費出圖無限次
清華大學 MAIC 團隊,GitHub 上已經有 16.5k Star 嘅一個開源項目
【保姆教程】我用 Obsidian +hermes 搭咗一個會自己整理嘅知識庫
參考劉小排嘅 BuilderPulse :我用 Hermes 發現值得睇嘅github項目
【Hermes整理】OpenClaw 變現項目地圖:6 大賽道
持續更新,建議每篇認真睇
【唔建議用官方命令】Windows 環境下安裝Hermes及遷移Openclaw嘅實操分享
Token :AI 時代,你嘅 API 賬單入面到底買緊啲咩
【hermes實用乾貨分享】公眾號文章自動訂閲入obsidian知識庫庫
10 分鐘令 Codex 桌面版接上 MiniMax,Windows 用戶都可以白嫖
我今日第一次認真體驗 Codex,最震撼嘅係 Computer Use
從 GitHub 到 Hermes:200+個AI角色嘅一站式集成實戰
我喺Hermes上面搭咗一個人生導師 Agent,佢幫我生成咗呢套採訪大綱
32.9k Star,GitHub 最火嘅 Claude Code 教程,畀我hermes扒咗個乾淨
Hermes Agent 實戰:雙模式字卡,認字 + 親子互動一張搞掂
修改呢幾個配置項,令 MiniMax 模型喺 Claude Code 入面發揮到極致
【hermes保姆教程】B站視頻逐字稿自動入obsidian知識庫
告別生圖 API,我用 Hermes Skill 免費出圖無限次
清華大學 MAIC 團隊,GitHub 上已經有 16.5k Star 嘅一個開源項目
【保姆教程】我用 Obsidian +hermes 搭咗一個會自己整理嘅知識庫
參考劉小排嘅 BuilderPulse :我用 Hermes 發現值得睇嘅github項目
【Hermes整理】OpenClaw 變現項目地圖:6 大賽道
openclaw系列文章
持續更新,建議每篇認真睇
持續更新,建議每篇認真睇
配置與理解
徹底搞懂 OpenClaw 配置體系:呢個先係 AI Agent 嘅正確打開方式 【支援一對一諮詢】我用hermes搭咗一個助手,每個人都應該用得着 【唔建議用官方命令】Windows 環境下安裝Hermes及遷移Openclaw嘅實操分享 我嘅個人成長助手Agent罷工咗,Claude max定位總結嘅呢幾點分享畀大家 【今日唔講STBI測試】我用OpenClaw搭咗一個自動抓多個公眾號、AI整理、發飛書嘅Agent,核心就係呢四步 OpenClaw openclaw.json 全量小白教程:一篇講清每個配置項嘅作用 你喺飛書或者微信出咗句「你好」,OpenClaw 到底用咗幾多 Token? 詳細指南 微信插件支援OpenClaw OpenClaw龍蝦點樣自我糾錯 5步自我迭代法 【網友都話好靚】我叫openclaw開發咗一個自己嘅互動式說明書
唔好畀人呃,OpenClaw 可以 24 小時做嘢——但你要先做對呢 6 件事
紅咗三個月嘅「龍蝦」,普通人裝咗真係有用咩?
用 OpenClaw 將 AI 失憶醫好:開關、精簡、外掛三步走OpenClaw 命令完整手冊 OpenClaw 到底點樣 run?部署方式與玩法全景 點樣申請 Brave Search API 密鑰並配置 OpenClaw 用大白話講清楚OpenClaw嘅記憶術 OpenClaw 長任務必讀:用 Sub-Agent 隔離上下文,token 消耗降低 85% OpenClaw 慳 Token 實操手冊:八個維度,節省 60–90% OpenClaw 曲線救國:透過 CLI 後端使用 Claude 模型 飛書同openclaw整合實操教程 【呢篇文係openclaw輸出】OpenClaw超簡單同免費嘅安裝實操教程
多 Agent 與協作
OpnClaw 多 Agent 協作實戰完全教程 OpenClaw 多代理配置指南:叫 AI 團隊幫你同時做多件事
技能與工具
OpenClaw 官方 53 個技能完整指南:功能詳解 + 風險評估 + 安裝建議 【GitHub Skill 】 OpenClaw多Agent交付畀客戶嘅流程Skill 呢個 Skill 太適合「小白摸魚式」情報蒐集:唔使 API Key,直接將 Reddit 變成你嘅選題庫 【免費領取】7套唔同賽道風格公眾號排版Skill(有效果圖) 12類人羣必裝嘅OpenClaw Skills 唔寫 code,點樣令 OpenClaw Agent 學識新技能
實戰與案例
本地部署 OpenClaw 自動發布公眾號:小白完整教程 本地部署 OpenClaw 自動發布小紅書:小白完整教程 我用 OpenClaw,將小朋友學習情況整理成可以長期追蹤嘅學情檔案 【實操分享】OpenClaw多文檔多輸入源筆記整理Agent搭建 【保姆教程】OpenClaw功課錯題分析師,每個家長都可以學起嚟 OpenClaw 完全指南:從零搭建你嘅 AI 員工團隊 睇嚇呢個龍蝦速度,就知道OpenClaw有幾紅,速度跟上 OpenClaw 完全指南:從零搭建你嘅 AI 員工團隊 OpenClaw 實戰:從0到1搭建你嘅雲端AI工作流 我嘅OpenClaw 多Agent 會主動傳嚟「返工打卡」 OpenClaw 實戰操作指南:12大熱門應用案例詳細教程 我嘅openclaw龍蝦開始自己賺錢喇 用咗openclaw,同telegram可以雙向通訊喇
排錯與安全
OpenClaw 排錯指南 OpenClaw 龍蝦玩家嘅安全指南
關於嬌姐
40+ IT 從業者,前榮耀員工,而家專注 AI 效率工具研究同實踐。持續輸出 OpenClaw 同 AI 工具嘅實用教程同落地案例,間中分享職場思考同生活感悟。
先關注後閲讀,嬌姐怕失去上進的你
文末嬌姐整理heremes、openclaw所有文章連結
想了解嬌姐點擊文末連結
今天這篇是嬌姐開公眾號以來的第557篇,我是持續堅持日更分享AI乾貨的嬌姐。
最近我發了幾條 AI 視頻,很多人問我:"這個視頻是怎麼做的?"
一開始我也以為,大家問的是用什麼剪輯軟件、用什麼 AI 生圖、用什麼配音工具。但真正做下來我發現,這類視頻的核心並不是剪輯,也不是單純找 AI 生成幾張圖。
它本質上是一套內容生產工作流。也就是說,你不是在"做一個視頻",而是在搭一個可以持續生產視頻的系統。我這段時間就在用 Codex 搭這樣一套 AI 視頻 Agent。它的目標不是替我點幾個按鈕,而是把一篇文章、一個選題、一個開源項目,自動拆成下面這些環節:
選題角度、口播腳本、分鏡、畫面設計 HTML 頁面、配音、字幕、動效、成片檢查
今天這篇就講講這個系統背後的思路。不講太多代碼細節,但會把核心邏輯講清楚。想自己搭類似工作流的人,可以按這個方向去做。

第一步:先把內容拆清楚,不要一上來做畫面
很多人做 AI 視頻,一上來就問:"用哪個工具生成畫面?""用什麼提示詞?""怎麼讓圖更好看?"但我現在的經驗是,畫面不是第一步,第一步是內容結構。
比如我做一個開源項目推薦視頻,不能直接把文章丟給 AI 讓它生成視頻,這樣出來的視頻通常會很散,畫面也不知道該表達什麼。正確的做法是先讓 Agent 生成一個"預生產稿"。
預生產稿裏至少要包括這些內容:
這個選題講給誰看 觀眾為什麼會停下來 這條視頻的核心衝突是什麼 觀眾看完要記住哪句話 哪些數字、產品名、URL、方法論必須出現 每一段口播對應什麼畫面 哪些頁面值得截圖收藏
我現在的理解是:視頻不是文章換成語音,而是把內容重新拆成一屏一屏的觀看理由。一屏只承擔一個任務,比如:
- 大數字頁面
——負責製造衝擊感。 - Before / After 頁面
——負責講清楚變化。 - 步驟頁面
——負責讓人能照着做。 - 截圖講解頁面
——負責讓人相信這是真的。 - 總結頁面
——負責讓人記住觀點。
提示:如果前面這個內容拆解沒做好,後面畫面再漂亮,也只是包裝。
第二步:把口播拆成分鏡
我的 Agent 不是直接拿原文生成畫面,而是先把文章拆成口播,再把口播拆成分鏡。比如一條視頻會變成這樣的結構:
① 開頭鈎子
告訴你為什麼這個東西值得看。
② 痛點
說明原來的方式哪裏難。
③ 核心數字
給出證據。
④ 功能拆解
講它到底怎麼實現。
⑤ 方法論
提煉出可複用的思路。
⑥ 結尾
告訴你應該怎麼行動。
每個分鏡都會有幾個字段:
這一屏口播講什麼 這一屏畫面要完成什麼任務 這一屏必須出現哪些關鍵詞 這一屏適合用什麼畫面類型 這一屏是否具備截圖價值 字幕會不會擋住核心內容
這一步非常關鍵,因為 AI 做視頻最容易出問題的地方,就是"口播說一套,畫面演另一套"。比如口播裏提到 GitHub 地址,但畫面裏沒有 URL;口播說 720 個人物、1812 條關係,但畫面只畫了一個抽象科技背景——這就不行。
重點:口播裏重要的信息,畫面裏必須有承載。產品名、URL、關鍵數字、方法論名,不能只靠 AI 生圖自由發揮,必須由 HTML 或後期貼片保證準確。
第三步:為什麼我用 HTML 做畫面,而不是完全依賴 AI 生圖
這是整個系統裏最重要的一個決策。一開始我也嘗試過 AI 生圖,但很快發現幾個問題。
問題 單純依賴 AI 生圖
文字:容易錯。
URL:容易錯。
排版:中文排版不穩定。
風格:同一批畫面風格不統一。
適配:有些頁面看起來漂亮,但手機端根本看不清。
方案 改用 HTML / CSS 生成畫面
文字:一定準確。
字號:字體大小可以統一控制。
佈局:可以針對視頻號手機端優化。
細節:顏色、間距、字幕安全區可以穩定。
複用:同一套模板可以複用,也可以不斷迭代。
你可以把 HTML 理解成"可編程的 PPT 頁面"。它不是網頁,而是一張可以精準控制的豎屏視頻幀。最終再用瀏覽器把 HTML 渲染成高清 PNG 或動態 MP4 片段,這就比單純 AI 生圖穩定很多。

提示:AI 負責理解內容和生成結構,HTML/CSS 負責把內容精確呈現出來,模板系統負責保證風格統一。
第四步:畫面設計不是隨機生成,而是先生成視覺 DNA
這裏是我最近覺得最有價值的一點。如果每條視頻都讓 AI 臨時設計頁面,結果一定會越來越亂——今天一個科技藍,明天一個紫色漸變,後天一個賽博朋克背景,看起來很熱鬧,但賬號沒有自己的識別度。所以我在工作流里加了一層:視覺 DNA 系統。
每條視頻生成畫面之前,Agent 會先判斷這條內容適合什麼視覺系統,它會分析這幾個維度:

這是 AI 教程,還是開源項目推薦? 是數據解讀,還是讀書教育? 是觀點表達,還是工具測評? 內容密度高不高? 有沒有截圖素材? 需要偏理性,還是偏温和? 哪些信息必須在手機端看清?
然後生成一個視覺策略,裏面會定義:
視覺世界、色彩系統、字體風格 版面語言、常用符號、模板組合 動效風格、禁止事項
比如我現在比較喜歡的是牛油果綠 + 奶黃這一套。它不是傳統 AI 視頻那種紫藍漸變,也不是滿屏科技感光效,而是更像一本高級的內容手冊,視覺上更温和,也更適合長期做知識內容。
但同樣是這套色系,不同內容也不能長得一模一樣,所以視覺 DNA 下面還會有不同子風格,比如:
提示:這就是視覺 DNA 的作用——保證賬號統一,但不讓每條視頻變成同一個模板。
第五步:模板庫決定效率,模板變體決定不死板
光有視覺風格還不夠,還需要模板庫。我的理解是,視頻畫面不是無限自由設計,而是有一些常見表達類型,比如:
大數字證據頁、Before / After 對比頁 步驟清單頁、產品截圖講解頁 方法論框架頁、讀書批註頁 總結金句頁、數據故事頁
這些都可以做成模板族。但模板不能只有一個版本,否則每天發視頻,觀眾一眼就會覺得"又是這個頁面"。所以我的系統裏每個模板族都要有多個變體,比如:
- A 版
:信息最清晰。 - B 版
:視覺衝擊最強。 - C 版
:最適合截圖收藏。
Agent 在匹配畫面時,不是隨機選模板,而是根據內容語義選擇:
講"為什麼錯",用對比或風險模板 講"怎麼做",用步驟或清單模板 講"核心機制",用流程或閉環模板 講"數據證據",用大數字證據模板 講"界面操作",用截圖檢查模板
同時還要做反重複控制,比如連續幾頁不能都是同一種構圖,一條視頻裏要有主視覺頁、信息頁、對比頁、證據頁、總結頁的節奏變化。
重點:真正穩定的系統應該是——AI 負責判斷內容,模板負責承載內容。
第六步:每個頁面會根據內容自動調整
一個好的視頻畫面系統,不應該只是"套模板",它要根據內容密度自動調整:
內容少的時候,用大標題、留白、視覺符號,讓觀點更有衝擊力 內容中等的時候,可以用卡片、步驟、對比結構 內容多的時候,就要用證據卡、分區、編號、重點高亮
按內容類型也要做相應調整:

數字很多的內容,要優先放大數字 產品推薦,要突出產品名、URL、核心功能 教程類內容,要把步驟編號做清楚 讀書類內容,要把"原書問題"和"我的理解"區分開
提示:不是所有內容都用同一個頁面,而是內容決定頁面結構。
比如一個開源項目視頻裏,如果有 GitHub 地址、在線體驗地址、核心數據,頁面就應該像一張項目檔案;如果是一篇讀書推薦,頁面就應該像讀書批註和知識卡片;如果是一個 AI 工具教程,頁面就應該像操作手冊和流程圖。這樣做出來的視頻才不會機械。
第七步:動效不是亂閃,而是按口播節奏出現
我之前踩過一個坑。一開始加動效的時候,頁面會一直閃、一直循環,看起來很吵。後來我才明確一個原則:
注意:視頻動效不是網頁動效。網頁可以循環播放,但視頻畫面必須跟口播節奏對齊。
比如一頁有 4 個重點,不應該同時出現,也不應該一直循環閃,而應該像動態 PPT 一樣:

① 第 0 秒
主標題出現。
② 第 0.5 秒
第一個重點出現。
③ 第 1.2 秒
第二個重點出現。
④ 第 2 秒
結論高亮。
最後 30%-40% 的時間保持穩定,讓觀眾看清楚。這就是我現在用的動效邏輯:HTML 頁面先是一張完整的穩定畫面,再通過時間軸控制元素一次性出現,最後停在最終 hold 幀。不同模板有不同動效:
- 數據頁
:先出大數字,再出證據卡,最後出結論。 - 對比頁
:先出舊方式,再出新方式,再出現箭頭和結論。 - 清單頁
:一項一項出現。 - 截圖頁
:截圖主體不動,只動高亮框和註釋。
提示:這樣動效才是服務理解,而不是炫技。
第八步:手機端檢查比電腦端更重要
視頻號發佈後,我發現一個很現實的問題:電腦上看起來清楚,手機上可能完全不行。所以後面我把檢查標準改成手機端優先。

發佈前至少要看這些:
字體夠不夠大 內容區有沒有被字幕擋住 底部有沒有被視頻號 UI 遮住 畫面是不是太暗 小字是不是太多 第一屏有沒有停留理由 最後導出是不是高清
後來我對畫面做了幾條硬規則:
正文要更大 小字要減少 對比度要更高 底部留出字幕安全區 關鍵內容不要放在最底部 字幕不要搶正文 封面和前 3 秒要一眼看懂
很多 AI 視頻看起來"糊",不一定是導出分辨率的問題,也可能是設計層面的小字太多、對比太弱、信息太擠,所以高清不是隻靠 1080P 或 4K。
重點:真正的高清,是設計上就適合手機閲讀。
第九步:整條工作流可以這樣搭
如果你想自己搭一個低配版,不一定一開始就寫很多代碼,可以先按這個流程來:
用 AI 幫你把文章拆成口播和分鏡。 給每個分鏡標註畫面類型。 做一套自己的視覺風格,比如固定色系、字體、標題位置、字幕安全區。 先做 5-8 個常用模板:大數字頁、對比頁、步驟頁、截圖頁、總結頁。 用 HTML、Figma、PPT、Canva 都可以,先把這些頁面做出來。 用 TTS 生成配音。 根據口播切字幕。 把畫面、配音、字幕合成視頻。 手機端檢查。 根據問題迭代模板。
等你跑順以後,再逐步自動化,比如讓 Codex 幫你:
自動生成分鏡。 自動匹配模板。 自動生成 HTML 頁面。 自動導出圖片。 自動生成配音和字幕。 自動合成視頻。 自動做質檢報告。
這就是從"手工做一條視頻",升級成"搭一套視頻生產系統"。
最後說一句
重點:AI 視頻的競爭點,不是會不會生成,而是你能不能把內容組織清楚,把畫面設計穩定,把流程持續迭代。
- AI
負責理解和拆解。 - HTML/CSS
負責準確呈現。 - 模板庫
負責穩定複用。 - 視覺 DNA
負責賬號識別。 - 動效
負責幫助理解。 - 手機端檢查
負責最終質量。
所以我現在越來越覺得:AI 視頻不是生成幾張圖,而是把內容變成一套可複用的工作流。這也是我用 Codex 搭這套系統的原因。
如果你也在做 AI 內容,不要只研究提示詞,更重要的是,開始搭自己的流程。
寶子們,7月份漲價了,下面福利到這個月底。
想玩得更深?三選一
方案 1 自學黨 · 69 元(即將漲價到99元)
OpenClaw + Hermes+codex+claude 全套資料包:
OpenClaw入門到精通教程 agent102 個實戰案例 OpenClaw避坑手冊(踩過的坑都給你標好了) 數百個 Skill 技能包 Hermes 實戰文檔 Hermes123指令 詳解 codex入門到精通手冊 claude入門到大師(非常詳細)
適合:想自己琢磨、慢慢啃的人。
方案 2 找人帶 · 99 元(即將漲價到169)
資料包全部內容,外加:
羣內實操交流,踩坑有人接 不定期乾貨分享 一羣同頻玩家,互相打氣
適合:想少走彎路、有人配置一起玩的人。
方案 3 就要這兩個工具 · 私聊諮詢(學習工作提效神器)
直接拿到嬌姐用 OpenClaw + Hermes 摸索大半年、調教成熟的兩個精華 Hermes Agent:
公眾號訂閲助手:訂閲的公眾號文章自動下載、自動進 Obsidian 知識庫,再也不用手動複製粘貼。
微信聊天記錄 AI 助手:微信本地聊天記錄接 AI,羣聊私聊都支持,把聊天記錄變成可檢索、可分析的數據資產,玩法超多。
不光是工具,更是實戰教程:配置方案裏每一步怎麼走、為什麼這麼配都講得清清楚楚,照着跑一遍,Hermes Agent 怎麼搭、怎麼調、怎麼落地,已經學到手了。
適合:就要這兩個工具、又想在實戰裏把 Hermes Agent 學明白的人。
怎麼領:後台私信
kekohu,備註你要哪個(資料 / 社羣 / 工具),看到就回。
hermes系列文章
持續更新,建議每篇認真閲讀
【不推薦用官方命令】Windows 環境下安裝Hermes及遷移Openclaw的實操分享
【hermes實用乾貨分享】公眾號文章自動訂閲進obsidian知識庫
10 分鐘讓 Codex 桌面版接上 MiniMax,Windows 用戶也能白嫖
我今天第一次認真體驗 Codex,最震撼的是 Computer Use
從 GitHub 到 Hermes:200+個AI角色的一站式集成實戰
我在Hermes上搭了一個人生導師 Agent,它給我生成了這套採訪綱要
32.9k Star,GitHub 最火的 Claude Code 教程,被我hermes扒了個乾淨
Hermes Agent 實戰:雙模式字卡,認字 + 親子互動一張搞定
修改這幾個配置項,讓 MiniMax 模型在 Claude Code 中發揮到極致
【hermes保姆教程】B站視頻逐字稿自動進obsidian知識庫
告別生圖 API,我用 Hermes Skill 免費出圖無限次
清華大學 MAIC 團隊,GitHub 上已經 16.5k Star的一個開源項目
分享我自己在用的Hermes 的Obsidian skill
【保姆教程】我用 Obsidian +hermes搭了一個會自己整理的知識庫
借鑑劉小排的 BuilderPulse :我用 Hermes 發現值得看的github項目
【Hermes整理】OpenClaw 變現項目地圖:6 大賽道
持續更新,建議每篇認真閲讀
【不推薦用官方命令】Windows 環境下安裝Hermes及遷移Openclaw的實操分享
【hermes實用乾貨分享】公眾號文章自動訂閲進obsidian知識庫
10 分鐘讓 Codex 桌面版接上 MiniMax,Windows 用戶也能白嫖
我今天第一次認真體驗 Codex,最震撼的是 Computer Use
從 GitHub 到 Hermes:200+個AI角色的一站式集成實戰
我在Hermes上搭了一個人生導師 Agent,它給我生成了這套採訪綱要
32.9k Star,GitHub 最火的 Claude Code 教程,被我hermes扒了個乾淨
Hermes Agent 實戰:雙模式字卡,認字 + 親子互動一張搞定
修改這幾個配置項,讓 MiniMax 模型在 Claude Code 中發揮到極致
【hermes保姆教程】B站視頻逐字稿自動進obsidian知識庫
告別生圖 API,我用 Hermes Skill 免費出圖無限次
清華大學 MAIC 團隊,GitHub 上已經 16.5k Star的一個開源項目
分享我自己在用的Hermes 的Obsidian skill
【保姆教程】我用 Obsidian +hermes搭了一個會自己整理的知識庫
借鑑劉小排的 BuilderPulse :我用 Hermes 發現值得看的github項目
【Hermes整理】OpenClaw 變現項目地圖:6 大賽道
openclaw系列文章
持續更新,建議每篇認真閲讀
持續更新,建議每篇認真閲讀
配置與理解
徹底搞懂 OpenClaw 配置體系:這才是 AI Agent 的正確打開方式 【支持一對一諮詢】我用hermes搭建了一個助手,每個人應該用得上 【不推薦用官方命令】Windows 環境下安裝Hermes及遷移Openclaw的實操分享 我的個人成長助手Agent罷工了,Claude max定位總結的這幾點分享給大家 【今天不聊STBI測試】我用OpenClaw搭了一個自動抓多公眾號、AI整理、發飛書的Agent,核心就這四步 OpenClaw openclaw.json 全量小白教程:一篇講清每個配置項的作用 你在飛書或者微信發了句"你好",OpenClaw 到底花了多少 Token? 詳細指南 微信插件支持OpenClaw OpenClaw龍蝦如何自我糾錯 5步自我迭代法 【網友都說賊好看】我讓openclaw開發了一個自己的交互式說明書
別被騙,OpenClaw 可以 24 小時幹活——但你得先做對這 6 件事
火了三個月的"龍蝦",普通人裝了真的有用嗎?
用 OpenClaw 把 AI 失憶治好:開關、精簡、外掛三步走OpenClaw 命令完整手冊 OpenClaw 到底怎麼跑?部署方式與玩法全景 如何申請 Brave Search API 密鑰並配置 OpenClaw 大白話講清楚OpenClaw的記憶術 OpenClaw 長任務必讀:用 Sub-Agent 隔離上下文,token 消耗降 85% OpenClaw 省 Token 實操手冊:八個維度,節省 60–90% OpenClaw 曲線救國:通過 CLI 後端使用 Claude 模型 飛書跟openclaw集成實操教程 【該文為openclaw輸出】OpenClaw超簡單且免費的安裝實操教程
多 Agent 與協作
OpnClaw 多 Agent 協作實戰完全教程 OpenClaw 多代理配置指南:讓 AI 團隊幫你同時幹多件事
技能與工具
OpenClaw 官方 53 個技能完整指南:功能詳解 + 風險評估 + 安裝建議 【GitHub Skill 】 OpenClaw多Agent交付給客戶的流程Skill 這個 Skill 太適合“小白摸魚式”情報蒐集了:不用 API Key,直接把 Reddit 變成你的選題庫 【免費領取】7套不同賽道風格公眾號排版Skill(有效果圖) 12類人羣必裝的OpenClaw Skills 不寫代碼,如何讓 OpenClaw Agent 學會新技能
實戰與案例
本地部署 OpenClaw 自動發佈公眾號:小白完整教程 本地部署 OpenClaw 自動發佈小紅書:小白完整教程 我用 OpenClaw,把孩子學習情況整理成能長期追蹤的學情檔案 【實操分享】OpenClaw多文檔多輸入源筆記整理Agent搭建 【保姆教程】OpenClaw作業錯題分析師,每個家長都可以學起來 OpenClaw 完全指南:從零搭建你的 AI 員工團隊 看看這個龍蝦速度,就知道這OpenClaw有多火,速度跟上 OpenClaw 完全指南:從零搭建你的 AI 員工團隊 OpenClaw 實戰:從0到1搭建你的雲端AI工作流 我的OpenClaw 多Agent 會主動發來 “上班打卡” OpenClaw 實戰操作指南:12大熱門應用案例詳細教程 我的openclaw龍蝦開始自己賺錢了 用上了openclaw,跟telegram能雙向通信了
排錯與安全
OpenClaw 排錯指南 OpenClaw 龍蝦玩家的安全指南
關於嬌姐
40+ IT 從業者,前榮耀員工,現專注 AI 效率工具研究與實踐。持續輸出 OpenClaw 及 AI 工具的乾貨教程與落地案例,偶爾分享職場思考與生活感悟。