ppt2video-skills：把口播文案變成動畫視頻 PPT，AI 幫你全自動編排

作者：大飛的AI賦能筆記

日期：2026年5月17日上午7:52

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

ppt2video-skills：AI幫你將口播文案自動變成動畫影片PPT

整理版摘要

作者係一位內容創作者，親身經歷過寫好口播文案後仲要花大量時間排版、做動畫嘅痛苦。佢發現市面上嘅影片工具一係太複雜，一係太死板，令到好多創作者喺「做畫面」呢步卡住咗。為咗解決呢個問題，佢整理咗呢個 AI Agent 技能「ppt2video-skills」，目標係將「文案→影片PPT」呢個流程變成一次對話完成嘅任務。

呢套技能嘅核心係一套四步流水線：先由AI拆解文案成PPT結構，輸出確認稿畀你用家把關；然後揀選視覺主題（預設4套風格）；最後每頁生成獨立HTML檔案，內建GSAP動畫同HyperFrames兼容結構。作者強調呢個流程唔係黑盒全自動，而係人機協同——你只需要確認結構同揀主題，其餘畫面呈現交畀AI。

技術底層用咗 HyperFrames（用HTML做影片嘅開源框架）同 GSAP 動畫庫，輸出嘅HTML可以後續渲染成MP4。目前呢個技能需要喺 Claude Code 或相容嘅AI Agent環境執行，預設輸出豎屏1080×1440，最多4套主題。作者認為呢個係影片內容創作第三次革新嘅具體產品：第一次係智能電話普及，第二次係剪映呢類工具普及，第三次就係AI介入內容製作嘅中台環節。

核心價值：將「做影片PPT」由需要設計技能嘅馬拉松，變成可以對話完成嘅任務，內容創作者只需專註文案本身。
四步流水線：拆結構→用戶確認→選主題→生成scene，每一步都有明確輸入輸出，確保人機協同而非黑箱操作。
技術基礎：用HyperFrames將HTML渲染成影片，每頁scene用GSAP做3-6個入場動作（opacity/x/y/scale），保證渲染穩定。
主題機制：唔係用配置文件，而係AI先讀真實HTML示例提取風格規則，再按規則生成新頁面，示例越多質量越穩定。
適用邊界：依賴AI Agent環境（Claude Code等）、目前4套主題、預設豎屏、輸出HTML需另行渲染成MP4；適合知識博主、課程講師、自媒體創作者快速出片。

值得記低

Skill github.com

ppt2video-skills GitHub 倉庫

安裝方法：git clone ~/.claude/skills/ppt2video-skills，或直接叫AI Agent幫手安裝。

整理重點

佢解決咗咩核心痛點

做影片PPT呢件事，到底難喺邊？作者拆咗四關：文案到畫面轉換、排版與視覺呈現、動畫與節奏、輸出與渲染。大部分創作者喺第二關已經放棄。

第一關：文案到畫面嘅轉換——邊度開新頁？邊句做標題？呢啲判斷依賴敍事邏輯感，唔係人人都有。

第二關：排版與視覺呈現——模板幫到一部分，但一旦想跳出模板，難度陡增。

第三關：動畫與節奏——文字點入場？幾時切換？動畫節奏對口播嘅配合，呢個已經係專業動效設計師嘅領域。

第四關：輸出與渲染——傳統做法要用剪輯軟件重新拼，或者用PPT錄製功能，質素同效率都打折扣。

整理重點

從文案到影片：四步流水線

整套流程分四步，每一步都有明確嘅輸入同產出。作者強調呢個唔係黑盒全自動，而係人機協同——你嘅確認係關鍵一環。

第一步：拆結構——AI將文案按敍事邏輯拆成PPT頁，輸出結構確認稿（structure-proposal.md），包含建議頁數、每頁主題、對應原文範圍同拆分理由。

第二步：用戶確認——你睇完結構稿後可以調整，例如合併、拆分、加減內容。改完確認後先進入下一步。

第三步：選主題——預置4套主題（雜誌風/瑞士風/手繪白板/極簡發佈），揀選後AI會讀取該主題嘅3-5個真實HTML示例，總結風格語法再生成新頁面。

第四步：生成scene——每頁PPT生成一個獨立HTML檔案，固定畫布1080×1440，內嵌GSAP動畫時間線（3-6個入場動作）同HyperFrames兼容結構。

1 產出配套文件：script.txt（每行對應一頁口播文案）、outline.md（每頁主題與目的）、subtitle-scene-map.md（腳本行與scene編號映射）、scene-design-plan.md（每頁設計思路）
2 安全機制：禁止無限循環動畫、禁止複雜透明疊加、避免使用backdrop-filter等渲染不穩定嘅CSS特性

整理重點

技術基礎：HyperFrames + GSAP

輸出係HTML，但呢個唔係普通網頁——係可以渲染成影片嘅畫面。作者用咗HyperFrames呢個開源框架，核心思路係用HTML+CSS+JavaScript描述影片畫面然後渲染成影片檔案。呢種做法叫「聲明式影片」，好處係可編程、可版本控制、可精確到毫秒。

GSAP動畫：每頁用3-6個入場動作就夠，以opacity/x/y/scale為主，呢啲屬性渲染性能最好。

主題機制：先讀真實HTML示例提取規則，再按規則生成新頁面——示例越多，質素越穩定。主題唔係配置文件，而係一組真實HTML示例。

程式內容 markdown

產出物一覽：
scene-01.html ~ scene-NN.html (每頁影片畫面HTML)
script.txt (每行對應一頁口播文案)
outline.md (每頁主題與目的)
subtitle-scene-map.md (腳本行 ↔ scene編號映射)
scene-design-plan.md (每頁設計思路)
structure-proposal.md (結構確認稿保留備查)

整理重點

上手實操：完整流程演示

用一個簡化例子行一次。假設你輸入嘅口播文案開頭係：「很多人覺得做影片好難，但其實只需要三步。第一步，想清楚你要講咩。第二步，寫低嚟。第三步，講畀人聽。就咁簡單。」

第一步輸出：結構確認稿建議5頁——開場鈎子、原因分析、核心方法第一步、第二三步合併、總結金句。

用戶確認：你話「第4頁內容太多，拆成兩頁」，技能調整後先進入下一步。

選主題：揀咗guizang-swiss-demo（瑞士風），AI讀取主題示例後總結風格規則：黑白配色為主、少量藍色強調、網格佈局、無襯線字體。

最終產出5個scene HTML、script.txt、outline.md、subtitle-scene-map.md、scene-design-plan.md、structure-proposal.md
每個scene打開可見到動畫畫面：標題滑入、正文漸顯、元素依次入場。全程只係對話中確認結構同揀主題就完成。

整理重點

適用場景與邊界

誰最啱用？作者列出咗幾個場景同推薦程度，由最高嘅知識博主、課程講師，到產品團隊同個人創作者都啱。核心優勢係可控、可編輯、渲染穩定、主題化、無需設計基礎。

可控：每一頁scene係獨立HTML檔案，可以單獨打開修改，唔使喺剪輯軟件重新拼。

可編輯：識少少HTML可以直接改文字、顏色、動畫時長，唔需要專業影片編輯技能。

主題化：預置4套風格，而且主題係「可閲讀嘅HTML示例」而非配置文件，可以不斷擴展主題庫。

你有冇試過咁嘅情況——

花咗兩個鐘寫好一篇口播文案，然後對住空白編輯器發愁：整成視頻PPT仲要再花兩個鐘排版、調整動畫、配節奏。文案寫得好係一回事，但將佢變成睇得到嘅畫面又係另一回事。

仲衰嘅係，大部分視頻PPT工具一係太複雜（專業剪輯軟件），一係太死板（套模板做到一式一樣）。你想做嘅係「有自己風格嘅視覺呈現」，但時間同技能都唔夠。

所以就有咗 ppt2video-skills。

呢個AI Agent技能可以幫你喺對話入面完成「文案→視頻PPT」嘅成個流程。你提供口播文案，佢會自動拆成PPT頁、生成結構稿等你確認、俾你揀視覺主題，然後輸出一套帶GSAP動畫嘅HTML視頻畫面。

呢篇文章會拆解佢嘅一切：解決咩問題、點樣運作、技術底子係咩、實際用起嚟效果點樣。

PART 01｜佢解決咗咩核心痛點

首先諗一個問題：做視頻PPT呢件事，到底難喺邊？

第一關：文案到畫面嘅轉換。 你有一段口播文案，但佢唔係PPT結構。邊度應該開新一頁？邊度應該合併？邊句適合做標題？邊段適合做金句？呢啲判斷依賴敍事邏輯感——唔係人人都具備。

第二關：排版同視覺呈現。 確定頁結構之後，每一頁點樣排？標題擺邊？配咩圖？用咩顏色？用咩字體？呢一關將絕大部分內容創作者擋喺門外。模板可以解決一部分，但一諗住跳出模板，難度就急升。

第三關：動畫同節奏。 視頻PPT同靜態PPT最大嘅分別係「動」。文字點樣入場？幾時切換？每頁停留幾耐？動畫節奏點樣配合口播——呢個已經係專業動效設計師嘅領域。

第四關：輸出同渲染。 做好咗之後仲要導出成視頻。傳統做法係喺剪輯軟件入面重新拼一次，或者用PPT自帶嘅錄製功能——質量同效率都大打折扣。

ppt2video-skills 將所有四關串成一條自動化流水線。

佢嘅定位好明確：等內容創作者淨係關心文案本身，畫面呈現交俾AI。

佢唔係一個獨立軟件，而係一個AI Agent技能（Skill）。佢運行喺AI Agent環境（Claude Code或兼容嘅Agent框架）入面，你透過對話嚟驅動佢。你話「我有一篇口播文案，幫我整成視頻PPT」，佢就會開始做嘢。

核心價值可以濃縮做一句話：將「做視頻PPT」呢件事，由一場需要設計技能嘅馬拉松，變做一次可以對話完成嘅任務。

PART 02｜由文案到視頻：四步流水線

成個流程分四步行，每一步都有明確嘅輸入同產出。

第一步：拆結構——等AI讀明你篇文案

收到口播文案之後，技能唔做其他嘢，先讀文案。

佢會將文案按敍事邏輯拆成PPT頁。但唔係就咁按段落切——佢會判斷每一段嘅敍事角色：

• 呢個係開場鈎子？→ 適合獨立成頁，做大標題
• 呢個係論證過程？→ 可能分2-3頁，每頁講一個要點
• 呢個係金句/結論？→ 單獨一頁，強調輸出

拆完之後輸出一份 結構確認稿（structure-proposal.md），包含：

• 建議拆成幾多頁
• 每頁嘅主題
• 每頁對應嘅原文範圍
• 拆分理由

呢份確認稿就係第一階段嘅產出。

第二步：用戶確認——人同AI協同

結構確認稿推俾你睇，你確認或者調整。

呢個係成個流程最關鍵嘅設計。佢唔係黑盒全自動——AI拆嘅結構唔一定完美，需要你嚟把關。

你可以話「第3頁同第4頁合併」、「第5頁拆成兩頁」、「俾第2頁加一句話」。改完確認之後，技能先會進入下一步。

第三步：揀主題——決定視覺風格

確認完頁結構之後，你需要揀一套視覺主題。技能預置咗4套主題，展示俾你預覽：

主題	風格特點	適合場景
guizang-magazine-demo	雜誌風，圖文混排，層次豐富	知識分享、深度內容
guizang-swiss-demo	瑞士風，極簡網格，乾淨利落	科技、產品介紹
handdrawn-whiteboard-demo	手繪白板風，輕鬆隨意	教育、科普、輕鬆話題
launch-minimal-demo	極簡發佈風，大標題+留白	發佈會、觀點輸出

揀好主題之後，技能會先讀取該主題目錄下面嘅3-5個真實HTML示例，總結佢嘅風格語法——背景點樣處理、標題層級點樣用、顏色角色點樣分配——然後先生成新頁面。

呢個係「先睇示例再創作」嘅設計，保證產出風格統一，而唔係AI憑空想像出嚟嘅畫面。

第四步：生成scene——每頁一個獨立HTML

最後一步，技能為每一頁PPT生成一個獨立嘅HTML文件，稱為一個「scene」。

每頁scene嘅結構：

• 固定畫布尺寸（預設1080×1440豎屏）
• GSAP動畫時間線（3-6個入場動作，以opacity / x / y / scale為主）
• HyperFrames兼容結構（可被視頻渲染框架識別）
• 內嵌安全機制：禁止無限循環、禁止複雜透明疊加

同時產出嘅配套文件：

• script.txt：每行對應一頁嘅口播文案
• outline.md：每頁嘅主題同目的
• subtitle-scene-map.md：腳本行同scene編號嘅映射
• scene-design-plan.md：每頁嘅設計思路說明

成條流水線嘅價值唔在於某一項技術有幾強，而係每一步之間無縫銜接——文案入，一套完整嘅視頻PPT素材出。

PART 03｜技術基礎：HyperFrames + GSAP

ppt2video-skills 嘅輸出係HTML，但呢個唔係普通嘅網頁——佢係可以被渲染成視頻嘅視頻畫面。

HyperFrames：用HTML做視頻

HyperFrames 係一個開源框架，佢嘅核心思路係：用HTML + CSS + JavaScript嚟描述視頻畫面，然後渲染成視頻文件。

每一頁scene係一個獨立嘅HTML文件，包含固定尺寸嘅畫布、視覺內容同動畫時間線。HyperFrames框架可以識別呢啲HTML，按時間線播放並錄製成視頻。

呢個喺業界被稱為「聲明式視頻」——你聲明每一幀係點樣，框架負責將佢變做視頻。好處係：可編程、可版本控制、可以精確到毫秒。

GSAP動畫

每一頁嘅動畫使用GSAP（GreenSock Animation Platform）驅動。GSAP係業界最成熟嘅Web動畫庫之一，相比CSS animation更可控，相比手寫JavaScript動畫更高效。

每頁嘅動畫設計原則：

• 3-6個入場動作就夠，唔需要花巧
• 以opacity / x / y / scale為主，呢啲屬性渲染性能最好
• 先寫靜態畫面，再加動畫——確保最終畫面正確，動畫只負責「點樣出現」
• 禁止repeat: -1——視頻PPT唔需要無限循環

一條典型嘅時間線：標題由下方滑入（y: 100 → 0），正文漸顯（opacity: 0 → 1），裝飾元素依次入場。每頁4-8秒，配合同步口播。

主題機制：先睇示例再創作

主題系統係ppt2video-skills最有特色嘅設計。

佢唔係等AI憑空「設計」風格，而係等AI先讀真實主題HTML，提取風格規則，再按規則生成新頁面。

工作流：

1. 技能讀取所選主題目錄下面嘅3-5個scene HTML
2. 提取背景處理、顏色角色、標題層級、佈局模式、動畫節奏
3. 將呢啲規則套用到新頁面嘅生成當中

呢個意味住：主題目錄入面嘅示例越多，AI生成嘅質量越穩定。主題唔係一個配置文件，而係一組真實HTML示例——AI透過閲讀佢哋嚟理解你想要嘅風格。

渲染安全：點解唔用複雜CSS

視頻渲染引擎對CSS嘅支援度不如瀏覽器。一啲喺瀏覽器入面正常嘅效果，喺渲染時可能會漏幀、錯位或者唔顯示。

禁止使用嘅CSS特性：

• backdrop-filter — 視頻渲染器唔支援
• mix-blend-mode — 混合模式喺渲染時唔可預測
• filter: blur() — 多層模糊會嚴重拖慢渲染
• 多層透明疊加 — 渲染順序容易出錯

推薦嘅樣式策略： 實色背景、簡單漸變、高對比文字、輕量邊框同單層陰影。

呢個都係ppt2video-skills嘅設計哲學之一：寧願設計上節制啲，都要保證渲染穩定。

產出物一覽

文件	用途
`scene-01.html` ~ `scene-NN.html`	每頁嘅視頻畫面HTML
`script.txt`	每行對應一頁嘅口播文案
`outline.md`	每頁嘅主題同目的說明
`subtitle-scene-map.md`	腳本行 ↔ scene編號映射表
`scene-design-plan.md`	每頁設計思路
`structure-proposal.md`	結構確認稿（保留備查）

每個文件都有明確用途，組成一套完整嘅視頻PPT製作素材包。

PART 04｜上手實操：完整流程演示

下面用一個簡化嘅例子，睇嚇實際行一次係咩效果。

輸入

假設你嘅口播文案開頭係咁：

好多人覺得做視頻好難，但其實只需要三步。第一步，諗清楚你要講咩。第二步，寫低佢。第三步，將佢講俾人聽。就咁簡單。

第一步輸出：結構確認稿

技能讀完之後，輸出結構確認稿：

# PPT 結構確認稿

- 核心主題：做視頻只需要三步
- 建議尺寸：1080 × 1440
- 建議頁數：5 頁

| 頁碼 | 頁面主題 | 對應原文 | 拆分理由 |
|------|---------|---------|---------|
| 01 | 開場：你覺得做視頻難嗎？ | 第一句 | 製造共鳴，作為第一眼鈎子 |
| 02 | 原因分析：為什麼覺得難 | 隱含前提 | 過渡頁，引出解決方案 |
| 03 | 第一步：想清楚說什麼 | "第一步..." | 核心方法第一步 |
| 04 | 第二步：寫下來 + 講出來 | "第二步...第三步..." | 兩個短步驟合併一頁 |
| 05 | 總結金句 | 最後一句 | 收束結尾，留印象 |

用戶確認

你話「第4頁內容有啲多，拆成兩頁」。技能調整之後進入下一步。

選主題

你打開主題預覽，揀咗 guizang-swiss-demo（瑞士風，乾淨極簡）。

技能讀取該主題下面嘅示例HTML，總結風格規則：黑白配色為主、少量藍色強調色、網格佈局、標題用無襯線字體、內容區有左右分欄同上下分層兩種模式。

最終產出

output/
├── scene-01.html
├── scene-02.html
├── scene-03.html
├── scene-04.html
├── scene-05.html
├── script.txt
├── outline.md
├── subtitle-scene-map.md
├── scene-design-plan.md
└── structure-proposal.md

每個scene HTML打開之後，可以睇到對應嘅動畫畫面：標題滑入、正文漸顯、元素依次入場。

呢個過程，喺對話入面完成。由你俾出文案到拎到全部產出，核心操作得兩件事——確認頁結構、揀主題風格。

PART 05｜適用場景同邊界

邊個最啱用

場景	說明	推薦程度
知識博主做口播視頻	有文案腳本，需要快速出畫面	⭐⭐⭐⭐⭐
課程講師做講解視頻	教學內容結構化呈現	⭐⭐⭐⭐⭐
自媒體內容視頻化	將圖文內容轉成視頻PPT	⭐⭐⭐⭐
產品團隊做發佈視頻	新品介紹、觀點分享	⭐⭐⭐⭐
個人創作者做日常更新	低門檻出視頻內容	⭐⭐⭐⭐

核心優勢

可控。 每一頁scene係獨立嘅HTML文件，可以單獨打開、修改、替換。唔需要喺剪輯軟件入面重新拼一次。

可編輯。 識少少HTML嘅人可以直接改代碼——改文字、換顏色、調整動畫時長。唔需要專業視頻編輯技能。

渲染穩定。 有明確嘅「渲染安全CSS」規則，避免咗大部分導出問題。

主題化。 預置4套風格各異嘅主題，而且主題係「可閲讀嘅HTML示例」而唔係配置文件——呢個意味住主題庫可以不斷擴展。

無需設計基礎。 你唔需要識排版、動效、配色。AI幫你完成，你只需要判斷「呢個結構啱唔啱」同埋「呢套風格適唔適合」。

當前邊界

依賴AI Agent環境。 ppt2video-skills 係一個技能，唔係獨立應用。佢需要運行喺Claude Code或兼容嘅AI Agent框架入面。

主題庫目前得4套。 4套主題覆蓋咗常見風格，但如果你有非常特定嘅品牌視覺要求，可能需要定製主題。

適合豎屏內容。 預設1080×1440豎屏尺寸，適合視頻號、抖音、快手等豎屏平台。橫屏內容需要額外適配。

非實時渲染。 輸出嘅係HTML scene，唔係MP4視頻。需要配合視頻渲染工具（HyperFrames）嚟生成最終視頻文件。

寫喺最後

視頻內容創作呢件事，呢幾年發生咗兩次變化。

第一次係智能手機普及——人人都咗拍攝設備。第二次係剪映呢類工具普及——人人都咗剪輯能力。

第三次正在發生：AI開始介入內容製作嘅中台環節。唔係你寫好文案之後再「順便」做個視頻配圖，而係AI自動將文案變成畫面、排好版、加好動畫、準備好渲染。

ppt2video-skills 係第三次變化中嘅一個具體產品。佢嘅價值唔在於技術複雜——HyperFrames同GSAP都係成熟技術——而係在於佢將「由文案到視頻PPT」呢條鏈路，變成一個可對話、可確認、可自動執行嘅流程。

如果你已經用緊AI Agent，又有口播文案需要整成視頻，可以試嚇。輸入文案，AI幫你排好版、配好動畫，你只需要確認方向同揀主題。

淨低嘅交俾技能就得。

技能資訊

GitHub：https://github.com/dayuanlog/ppt2video
技術棧：HyperFrames + GSAP
預置主題：4套（雜誌風 / 瑞士風 / 手繪白板 / 極簡發佈）
預設畫布：1080 × 1440（豎屏）
運行環境：Claude Code或兼容AI Agent框架

安裝方法

將倉庫複製到AI Agent嘅技能目錄就得：

git clone https://github.com/dayuanlog/ppt2video.git ~/.claude/skills/ppt2video-skills

或者直接同Claude Code / Openclaw / Hermes講：

請幫我安裝這個skill：https://github.com/dayuanlog/ppt2video

既然睇到呢度，如果覺得唔錯，順手㩒個讚、睇、轉發三連啦，如果想第一時間收到推送，都可以俾我個星標⭐～

多謝你睇我嘅文章，我哋，下次再見

你有沒有這樣的經歷——

花兩小時寫好一篇口播文案，然後對着空白編輯器發愁：做成視頻 PPT 還得再花兩小時排版、調動畫、配節奏。文案寫得好是一回事，把它變成能看的畫面是另一回事。

更糟的是，大多數視頻 PPT 工具要麼太複雜（專業剪輯軟件），要麼太死板（模板套完千篇一律）。你想做的是"有自己風格的視覺呈現"，但時間和技能都不夠。

所以有了 ppt2video-skills。

這個 AI Agent 技能，能幫你在對話中完成"文案→視頻 PPT"的全流程。你提供口播文案，它自動拆成 PPT 頁、生成結構稿等你確認、讓你選視覺主題，然後輸出一套帶 GSAP 動畫的 HTML 視頻畫面。

這篇文章拆解它的一切：解決什麼問題、怎麼工作、技術底子是什麼、實際用起來效果如何。

PART 01｜它解決了什麼核心痛點

先想一個問題：做視頻 PPT 這件事，到底難在哪？

第一關：文案到畫面的轉換。 你有一段口播文案，但它不是 PPT 結構。哪裏該新開一頁？哪裏該合併？哪句話適合做標題？哪段適合做金句？這些判斷依賴敍事邏輯感——不是人人都有。

第二關：排版與視覺呈現。 確定頁結構之後，每一頁怎麼排？標題放哪？配什麼圖？什麼顏色？什麼字體？這一關把絕大多數內容創作者擋在門外。模板能解決一部分，但一旦想跳出模板，難度陡增。

第三關：動畫與節奏。 視頻 PPT 和靜態 PPT 最大的區別是"動"。文字怎麼入場？什麼時候切換？每頁停留多久？動畫節奏對口播的配合——這已經是專業動效設計師的領域了。

第四關：輸出與渲染。 做好之後還得導出成視頻。傳統做法是在剪輯軟件裏重新拼一遍，或者用 PPT 自帶的錄製功能——質量和效率都打折扣。

ppt2video-skills 把所有四關串成一條自動化流水線。

它的定位很明確：讓內容創作者只關心文案本身，畫面呈現交給 AI。

它不是一個獨立軟件，而是一個 AI Agent 技能（Skill）。它運行在 AI Agent 環境中（Claude Code 或兼容的 Agent 框架），你通過對話來驅動它。你說"我有一篇口播文案，幫我做成視頻 PPT"，它就開始工作。

核心價值可以濃縮為一句話：把"做視頻 PPT"這件事，從一場需要設計技能的馬拉松，變成一次可以對話完成的任務。

PART 02｜從文案到視頻：四步流水線

整套流程分四步走，每一步都有明確的輸入和產出。

第一步：拆結構——讓 AI 讀懂你的文案

收到口播文案後，技能不做別的事，先讀文案。

它會把文案按敍事邏輯拆成 PPT 頁。但不是簡單地按段落切——它會判斷每一段的敍事角色：

• 這是開場鈎子？→ 適合獨立成頁，做大標題
• 這是論證過程？→ 可能分 2-3 頁，每頁講一個要點
• 這是金句/結論？→ 單獨一頁，強調輸出

拆完後輸出一份 結構確認稿（structure-proposal.md），包含：

• 建議拆成多少頁
• 每頁的主題
• 每頁對應的原文範圍
• 拆分理由

這份確認稿就是第一階段的產出。

第二步：用戶確認——人與 AI 協同

結構確認稿推給你看，你確認或調整。

這是整個流程中最關鍵的設計。它不是黑盒全自動——AI 拆的結構不一定完美，需要你來把關。

你可以說"第 3 頁和第 4 頁合併"、"第 5 頁拆成兩頁"、"給第 2 頁加一句話"。改完確認後，技能才會進入下一步。

第三步：選主題——決定視覺風格

確認完頁結構後，你需要選擇一套視覺主題。技能預置了 4 套主題，展示給你預覽：

主題	風格特點	適合場景
guizang-magazine-demo	雜誌風，圖文混排，層次豐富	知識分享、深度內容
guizang-swiss-demo	瑞士風，極簡網格，乾淨利落	科技、產品介紹
handdrawn-whiteboard-demo	手繪白板風，輕鬆隨意	教育、科普、輕鬆話題
launch-minimal-demo	極簡發佈風，大標題+留白	發佈會、觀點輸出

選好主題後，技能會先讀取該主題目錄下的 3-5 個真實 HTML 示例，總結它的風格語法——背景怎麼處理、標題層級怎麼用、顏色角色怎麼分配——然後再生成新頁面。

這是"先看示例再創作"的設計，保證產出風格統一，而不是 AI 憑空想象出來的畫面。

第四步：生成 scene——每頁一個獨立 HTML

最後一步，技能為每一頁 PPT 生成一個獨立的 HTML 文件，稱為一個 "scene"。

每頁 scene 的結構：

• 固定畫布尺寸（默認 1080×1440 豎屏）
• GSAP 動畫時間線（3-6 個入場動作，以 opacity / x / y / scale 為主）
• HyperFrames 兼容結構（可被視頻渲染框架識別）
• 內嵌安全機制：禁止無限循環、禁止複雜透明疊加

同時產出的配套文件：

• script.txt：每行對應一頁的口播文案
• outline.md：每頁的主題和目的
• subtitle-scene-map.md：腳本行與 scene 編號的映射
• scene-design-plan.md：每頁的設計思路說明

整套流水線的價值不在某一項技術有多強，而在每一步之間無縫銜接——文案進，一套完整的視頻 PPT 素材出。

PART 03｜技術基礎：HyperFrames + GSAP

ppt2video-skills 的輸出是 HTML，但這不是普通的網頁——它是可以被渲染為視頻的視頻畫面。

HyperFrames：用 HTML 做視頻

HyperFrames 是一個開源框架，它的核心思路是：用 HTML + CSS + JavaScript 來描述視頻畫面，然後渲染成視頻文件。

每一頁 scene 是一個獨立的 HTML 文件，包含固定尺寸的畫布、視覺內容、和動畫時間線。HyperFrames 框架可以識別這些 HTML，按時間線播放並錄製為視頻。

這在業界被稱為"聲明式視頻"——你聲明每一幀長什麼樣，框架負責把它變成視頻。好處是：可編程、可版本控制、可精確到毫秒。

GSAP 動畫

每一頁的動畫使用 GSAP（GreenSock Animation Platform）驅動。GSAP 是業界最成熟的 Web 動畫庫之一，相比 CSS animation 更可控，相比手寫 JavaScript 動畫更高效。

每頁的動畫設計原則：

• 3-6 個入場動作就夠了，不需要花哨
• 以 opacity / x / y / scale 為主，這些屬性渲染性能最好
• 先寫靜態畫面，再加動畫——確保最終畫面正確，動畫只負責"怎麼出現"
• 禁止 repeat: -1——視頻 PPT 不需要無限循環

一條典型的時間線：標題從下方滑入（y: 100 → 0），正文漸顯（opacity: 0 → 1），裝飾元素依次入場。每頁 4-8 秒，配合同步口播。

主題機制：先看示例再創作

主題系統是 ppt2video-skills 最有特色的設計。

它不是讓 AI 憑空"設計"風格，而是讓 AI 先讀真實主題 HTML，提取風格規則，再按規則生成新頁面。

工作流：

1. 技能讀取選中主題目錄下的 3-5 個 scene HTML
2. 提取背景處理、顏色角色、標題層級、佈局模式、動畫節奏
3. 將這些規則應用到新頁面的生成中

這意味着：主題目錄裏的示例越多，AI 生成的質量越穩定。主題不是一個配置文件，而是一組真實 HTML 示例——AI 通過閲讀它們來理解你想要的風格。

渲染安全：為什麼不用複雜 CSS

視頻渲染引擎對 CSS 的支持度不如瀏覽器。一些在瀏覽器中正常的效果，在渲染時可能丟幀、錯位或不顯示。

禁止使用的 CSS 特性：

• backdrop-filter — 視頻渲染器不支持
• mix-blend-mode — 混合模式在渲染時不可預測
• filter: blur() — 多層模糊會嚴重拖慢渲染
• 多層透明疊加 — 渲染順序容易出錯

推薦的樣式策略： 實色背景、簡單漸變、高對比文字、輕量邊框與單層陰影。

這也是 ppt2video-skills 的設計哲學之一：寧可設計上剋制一點，也要保證渲染穩定。

產出物一覽

文件	用途
`scene-01.html` ~ `scene-NN.html`	每頁的視頻畫面 HTML
`script.txt`	每行對應一頁的口播文案
`outline.md`	每頁主題與目的說明
`subtitle-scene-map.md`	腳本行 ↔ scene 編號映射表
`scene-design-plan.md`	每頁設計思路
`structure-proposal.md`	結構確認稿（保留備查）

每個文件都有明確用途，組成一套完整的視頻 PPT 製作素材包。

PART 04｜上手實操：完整流程演示

下面用一個簡化的例子，看實際走一遍是什麼效果。

輸入

假設你的口播文案開頭是這樣：

很多人覺得做視頻很難，但其實只需要三步。第一步，想清楚你要說什麼。第二步，寫下來。第三步，把它講給別人聽。就這麼簡單。

第一步輸出：結構確認稿

技能讀完後，輸出結構確認稿：

# PPT 結構確認稿

- 核心主題：做視頻只需要三步
- 建議尺寸：1080 × 1440
- 建議頁數：5 頁

| 頁碼 | 頁面主題 | 對應原文 | 拆分理由 |
|------|---------|---------|---------|
| 01 | 開場：你覺得做視頻難嗎？ | 第一句 | 製造共鳴，作為第一眼鈎子 |
| 02 | 原因分析：為什麼覺得難 | 隱含前提 | 過渡頁，引出解決方案 |
| 03 | 第一步：想清楚說什麼 | "第一步..." | 核心方法第一步 |
| 04 | 第二步：寫下來 + 講出來 | "第二步...第三步..." | 兩個短步驟合併一頁 |
| 05 | 總結金句 | 最後一句 | 收束結尾，留印象 |

用戶確認

你說"第 4 頁內容有點多，拆成兩頁"。技能調整後進入下一步。

選主題

你打開主題預覽，選了 guizang-swiss-demo（瑞士風，乾淨極簡）。

技能讀取該主題下的示例 HTML，總結風格規則：黑白配色為主、少量藍色強調色、網格佈局、標題用無襯線字體、內容區有左右分欄和上下分層兩種模式。

最終產出

output/
├── scene-01.html
├── scene-02.html
├── scene-03.html
├── scene-04.html
├── scene-05.html
├── script.txt
├── outline.md
├── subtitle-scene-map.md
├── scene-design-plan.md
└── structure-proposal.md

每個 scene HTML 打開後，可以看到對應的動畫畫面：標題滑入、正文漸顯、元素依次入場。

這個過程，在對話中完成。從你給出文案到拿到全部產出，核心操作只有兩件事——確認頁結構、選擇主題風格。

PART 05｜適用場景與邊界

誰最適合用

場景	說明	推薦程度
知識博主做口播視頻	有文案腳本，需要快速出畫面	⭐⭐⭐⭐⭐
課程講師做講解視頻	教學內容結構化呈現	⭐⭐⭐⭐⭐
自媒體內容視頻化	把圖文內容轉成視頻 PPT	⭐⭐⭐⭐
產品團隊做發佈視頻	新品介紹、觀點分享	⭐⭐⭐⭐
個人創作者做日常更新	低門檻出視頻內容	⭐⭐⭐⭐

核心優勢

可控。 每一頁 scene 是獨立的 HTML 文件，可以單獨打開、修改、替換。不需要在剪輯軟件裏重新拼一遍。

可編輯。 懂一點 HTML 的人可以直接改代碼——改文字、換顏色、調動畫時長。不需要專業視頻編輯技能。

渲染穩定。 有明確的"渲染安全 CSS"規則，避免了大多數導出問題。

主題化。 預置 4 套風格各異的主題，且主題是"可閲讀的 HTML 示例"而非配置文件——這意味着主題庫可以不斷擴展。

無需設計基礎。 你不需要會排版、動效、配色。AI 幫你完成，你只需要判斷"這個結構對不對"和"這套風格適不適合"。

當前邊界

依賴 AI Agent 環境。 ppt2video-skills 是一個技能，不是獨立應用。它需要運行在 Claude Code 或兼容的 AI Agent 框架中。

主題庫目前 4 套。 4 套主題覆蓋了常見風格，但如果你有非常特定的品牌視覺要求，可能需要定製主題。

適合豎屏內容。 默認 1080×1440 豎屏尺寸，適合視頻號、抖音、快手等豎屏平台。橫屏內容需要額外適配。

非實時渲染。 輸出的是 HTML scene，不是 MP4 視頻。需要配合視頻渲染工具（HyperFrames）來生成最終視頻文件。

寫在最後

視頻內容創作這件事，這幾年發生了兩次變化。

第一次是智能手機普及——人人都有了拍攝設備。第二次是剪映這類工具普及——人人都有了剪輯能力。

第三次正在發生：AI 開始介入內容製作的中台環節。不是你寫好文案後再"順便"做個視頻配圖，而是 AI 自動把文案變成畫面、排好版、加好動畫、準備好渲染。

ppt2video-skills 是第三次變化中的一個具體產品。它的價值不在於技術複雜——HyperFrames 和 GSAP 都是成熟技術——而在於它把"從文案到視頻 PPT"這條鏈路，變成了一個可對話、可確認、可自動執行的流程。

如果你已經在用 AI Agent，又有口播文案需要做成視頻，可以試試。輸入文案，AI 幫你排好版、配好動畫，你只需要確認方向和選主題。

剩下的交給技能就好。

技能信息

GitHub：https://github.com/dayuanlog/ppt2video
技術棧：HyperFrames + GSAP
預置主題：4 套（雜誌風 / 瑞士風 / 手繪白板 / 極簡發佈）
默認畫布：1080 × 1440（豎屏）
運行環境：Claude Code 或兼容 AI Agent 框架

安裝方法

將倉庫克隆到 AI Agent 的技能目錄即可：

git clone https://github.com/dayuanlog/ppt2video.git ~/.claude/skills/ppt2video-skills

或者直接和Claude Code / Openclaw /Hermes 說：

請幫我安裝這個skill：https://github.com/dayuanlog/ppt2video

既然看到這裏了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標⭐～

謝謝你看我的文章，我們，下次再見