ppt2video-skills:把口播文案變成動畫視頻 PPT,AI 幫你全自動編排

作者:大飛的AI賦能筆記
日期:2026年5月17日 上午7:52
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

ppt2video-skills:AI幫你將口播文案自動變成動畫影片PPT

整理版摘要

作者係一位內容創作者,親身經歷過寫好口播文案後仲要花大量時間排版、做動畫嘅痛苦。佢發現市面上嘅影片工具一係太複雜,一係太死板,令到好多創作者喺「做畫面」呢步卡住咗。為咗解決呢個問題,佢整理咗呢個 AI Agent 技能「ppt2video-skills」,目標係將「文案→影片PPT」呢個流程變成一次對話完成嘅任務。

呢套技能嘅核心係一套四步流水線:先由AI拆解文案成PPT結構,輸出確認稿畀你用家把關;然後揀選視覺主題(預設4套風格);最後每頁生成獨立HTML檔案,內建GSAP動畫同HyperFrames兼容結構。作者強調呢個流程唔係黑盒全自動,而係人機協同——你只需要確認結構同揀主題,其餘畫面呈現交畀AI。

技術底層用咗 HyperFrames(用HTML做影片嘅開源框架)同 GSAP 動畫庫,輸出嘅HTML可以後續渲染成MP4。目前呢個技能需要喺 Claude Code 或相容嘅AI Agent環境執行,預設輸出豎屏1080×1440,最多4套主題。作者認為呢個係影片內容創作第三次革新嘅具體產品:第一次係智能電話普及,第二次係剪映呢類工具普及,第三次就係AI介入內容製作嘅中台環節。

  • 核心價值:將「做影片PPT」由需要設計技能嘅馬拉松,變成可以對話完成嘅任務,內容創作者只需專註文案本身。
  • 四步流水線:拆結構→用戶確認→選主題→生成scene,每一步都有明確輸入輸出,確保人機協同而非黑箱操作。
  • 技術基礎:用HyperFramesHTML渲染成影片,每頁scene用GSAP做3-6個入場動作(opacity/x/y/scale),保證渲染穩定。
  • 主題機制:唔係用配置文件,而係AI先讀真實HTML示例提取風格規則,再按規則生成新頁面,示例越多質量越穩定。
  • 適用邊界:依賴AI Agent環境(Claude Code等)、目前4套主題、預設豎屏、輸出HTML需另行渲染成MP4;適合知識博主、課程講師、自媒體創作者快速出片。
值得記低
Skill github.com

ppt2video-skills GitHub 倉庫

安裝方法:git clone ~/.claude/skills/ppt2video-skills,或直接叫AI Agent幫手安裝。

整理重點

佢解決咗咩核心痛點

做影片PPT呢件事,到底難喺邊?作者拆咗四關:文案到畫面轉換、排版與視覺呈現、動畫與節奏、輸出與渲染。大部分創作者喺第二關已經放棄。

第一關:文案到畫面嘅轉換——邊度開新頁?邊句做標題?呢啲判斷依賴敍事邏輯感,唔係人人都有。

第二關:排版與視覺呈現——模板幫到一部分,但一旦想跳出模板,難度陡增。

第三關:動畫與節奏——文字點入場?幾時切換?動畫節奏對口播嘅配合,呢個已經係專業動效設計師嘅領域。

第四關:輸出與渲染——傳統做法要用剪輯軟件重新拼,或者用PPT錄製功能,質素同效率都打折扣。

整理重點

從文案到影片:四步流水線

整套流程分四步,每一步都有明確嘅輸入同產出。作者強調呢個唔係黑盒全自動,而係人機協同——你嘅確認係關鍵一環。

第一步:拆結構——AI將文案按敍事邏輯拆成PPT頁,輸出結構確認稿(structure-proposal.md),包含建議頁數、每頁主題、對應原文範圍同拆分理由。

第二步:用戶確認——你睇完結構稿後可以調整,例如合併、拆分、加減內容。改完確認後先進入下一步。

第三步:選主題——預置4套主題(雜誌風/瑞士風/手繪白板/極簡發佈),揀選後AI會讀取該主題嘅3-5個真實HTML示例,總結風格語法再生成新頁面。

第四步:生成scene——每頁PPT生成一個獨立HTML檔案,固定畫布1080×1440,內嵌GSAP動畫時間線(3-6個入場動作)同HyperFrames兼容結構。

  1. 1 產出配套文件:script.txt(每行對應一頁口播文案)、outline.md(每頁主題與目的)、subtitle-scene-map.md(腳本行與scene編號映射)、scene-design-plan.md(每頁設計思路)
  2. 2 安全機制:禁止無限循環動畫、禁止複雜透明疊加、避免使用backdrop-filter等渲染不穩定嘅CSS特性
整理重點

技術基礎:HyperFrames + GSAP

輸出係HTML,但呢個唔係普通網頁——係可以渲染成影片嘅畫面。作者用咗HyperFrames呢個開源框架,核心思路係用HTML+CSS+JavaScript描述影片畫面然後渲染成影片檔案。呢種做法叫「聲明式影片」,好處係可編程、可版本控制、可精確到毫秒。

GSAP動畫:每頁用3-6個入場動作就夠,以opacity/x/y/scale為主,呢啲屬性渲染性能最好。

主題機制:先讀真實HTML示例提取規則,再按規則生成新頁面——示例越多,質素越穩定。主題唔係配置文件,而係一組真實HTML示例。

程式內容 markdown
產出物一覽:
scene-01.html ~ scene-NN.html (每頁影片畫面HTML)
script.txt (每行對應一頁口播文案)
outline.md (每頁主題與目的)
subtitle-scene-map.md (腳本行 ↔ scene編號映射)
scene-design-plan.md (每頁設計思路)
structure-proposal.md (結構確認稿保留備查)
整理重點

上手實操:完整流程演示

用一個簡化例子行一次。假設你輸入嘅口播文案開頭係:「很多人覺得做影片好難,但其實只需要三步。第一步,想清楚你要講咩。第二步,寫低嚟。第三步,講畀人聽。就咁簡單。」

第一步輸出:結構確認稿建議5頁——開場鈎子、原因分析、核心方法第一步、第二三步合併、總結金句。

用戶確認:你話「第4頁內容太多,拆成兩頁」,技能調整後先進入下一步。

選主題:揀咗guizang-swiss-demo(瑞士風),AI讀取主題示例後總結風格規則:黑白配色為主、少量藍色強調、網格佈局、無襯線字體。

  • 最終產出5個scene HTML、script.txt、outline.md、subtitle-scene-map.md、scene-design-plan.md、structure-proposal.md
  • 每個scene打開可見到動畫畫面:標題滑入、正文漸顯、元素依次入場。全程只係對話中確認結構同揀主題就完成。
整理重點

適用場景與邊界

誰最啱用?作者列出咗幾個場景同推薦程度,由最高嘅知識博主、課程講師,到產品團隊同個人創作者都啱。核心優勢係可控、可編輯、渲染穩定、主題化、無需設計基礎。

可控:每一頁scene係獨立HTML檔案,可以單獨打開修改,唔使喺剪輯軟件重新拼。

可編輯:識少少HTML可以直接改文字、顏色、動畫時長,唔需要專業影片編輯技能。

主題化:預置4套風格,而且主題係「可閲讀嘅HTML示例」而非配置文件,可以不斷擴展主題庫。


圖片

你有冇試過咁嘅情況——

花咗兩個鐘寫好一篇口播文案,然後對住空白編輯器發愁:整成視頻PPT仲要再花兩個鐘排版、調整動畫、配節奏。文案寫得好係一回事,但將佢變成睇得到嘅畫面又係另一回事。

仲衰嘅係,大部分視頻PPT工具一係太複雜(專業剪輯軟件),一係太死板(套模板做到一式一樣)。你想做嘅係「有自己風格嘅視覺呈現」,但時間同技能都唔夠。

所以就有咗 ppt2video-skills。

呢個AI Agent技能可以幫你喺對話入面完成「文案→視頻PPT」嘅成個流程。你提供口播文案,佢會自動拆成PPT頁、生成結構稿等你確認、俾你揀視覺主題,然後輸出一套帶GSAP動畫嘅HTML視頻畫面。

呢篇文章會拆解佢嘅一切:解決咩問題、點樣運作、技術底子係咩、實際用起嚟效果點樣。

圖片

PART 01|佢解決咗咩核心痛點

首先諗一個問題:做視頻PPT呢件事,到底難喺邊?

第一關:文案到畫面嘅轉換。 你有一段口播文案,但佢唔係PPT結構。邊度應該開新一頁?邊度應該合併?邊句適合做標題?邊段適合做金句?呢啲判斷依賴敍事邏輯感——唔係人人都具備。

第二關:排版同視覺呈現。 確定頁結構之後,每一頁點樣排?標題擺邊?配咩圖?用咩顏色?用咩字體?呢一關將絕大部分內容創作者擋喺門外。模板可以解決一部分,但一諗住跳出模板,難度就急升。

第三關:動畫同節奏。 視頻PPT同靜態PPT最大嘅分別係「動」。文字點樣入場?幾時切換?每頁停留幾耐?動畫節奏點樣配合口播——呢個已經係專業動效設計師嘅領域。

第四關:輸出同渲染。 做好咗之後仲要導出成視頻。傳統做法係喺剪輯軟件入面重新拼一次,或者用PPT自帶嘅錄製功能——質量同效率都大打折扣。

ppt2video-skills 將所有四關串成一條自動化流水線。

佢嘅定位好明確:等內容創作者淨係關心文案本身,畫面呈現交俾AI。

佢唔係一個獨立軟件,而係一個AI Agent技能(Skill)。佢運行喺AI Agent環境(Claude Code或兼容嘅Agent框架)入面,你透過對話嚟驅動佢。你話「我有一篇口播文案,幫我整成視頻PPT」,佢就會開始做嘢。

核心價值可以濃縮做一句話:將「做視頻PPT」呢件事,由一場需要設計技能嘅馬拉松,變做一次可以對話完成嘅任務。

PART 02|由文案到視頻:四步流水線

成個流程分四步行,每一步都有明確嘅輸入同產出。

圖片

第一步:拆結構——等AI讀明你篇文案

收到口播文案之後,技能唔做其他嘢,先讀文案。

佢會將文案按敍事邏輯拆成PPT頁。但唔係就咁按段落切——佢會判斷每一段嘅敍事角色:

  • • 呢個係開場鈎子?→ 適合獨立成頁,做大標題
  • • 呢個係論證過程?→ 可能分2-3頁,每頁講一個要點
  • • 呢個係金句/結論?→ 單獨一頁,強調輸出

拆完之後輸出一份 結構確認稿(structure-proposal.md),包含:

  • • 建議拆成幾多頁
  • • 每頁嘅主題
  • • 每頁對應嘅原文範圍
  • • 拆分理由

呢份確認稿就係第一階段嘅產出。

第二步:用戶確認——人同AI協同

結構確認稿推俾你睇,你確認或者調整。

呢個係成個流程最關鍵嘅設計。佢唔係黑盒全自動——AI拆嘅結構唔一定完美,需要你嚟把關。

你可以話「第3頁同第4頁合併」、「第5頁拆成兩頁」、「俾第2頁加一句話」。改完確認之後,技能先會進入下一步。

第三步:揀主題——決定視覺風格

確認完頁結構之後,你需要揀一套視覺主題。技能預置咗4套主題,展示俾你預覽:

主題
風格特點
適合場景
guizang-magazine-demo
雜誌風,圖文混排,層次豐富
知識分享、深度內容
guizang-swiss-demo
瑞士風,極簡網格,乾淨利落
科技、產品介紹
handdrawn-whiteboard-demo
手繪白板風,輕鬆隨意
教育、科普、輕鬆話題
launch-minimal-demo
極簡發佈風,大標題+留白
發佈會、觀點輸出

揀好主題之後,技能會先讀取該主題目錄下面嘅3-5個真實HTML示例,總結佢嘅風格語法——背景點樣處理、標題層級點樣用、顏色角色點樣分配——然後先生成新頁面。

呢個係「先睇示例再創作」嘅設計,保證產出風格統一,而唔係AI憑空想像出嚟嘅畫面。

第四步:生成scene——每頁一個獨立HTML

最後一步,技能為每一頁PPT生成一個獨立嘅HTML文件,稱為一個「scene」。

每頁scene嘅結構:

  • • 固定畫布尺寸(預設1080×1440豎屏)
  • • GSAP動畫時間線(3-6個入場動作,以opacity / x / y / scale為主)
  • • HyperFrames兼容結構(可被視頻渲染框架識別)
  • • 內嵌安全機制:禁止無限循環、禁止複雜透明疊加

同時產出嘅配套文件:

  • • script.txt:每行對應一頁嘅口播文案
  • • outline.md:每頁嘅主題同目的
  • • subtitle-scene-map.md:腳本行同scene編號嘅映射
  • • scene-design-plan.md:每頁嘅設計思路說明

成條流水線嘅價值唔在於某一項技術有幾強,而係每一步之間無縫銜接——文案入,一套完整嘅視頻PPT素材出。

PART 03|技術基礎:HyperFrames + GSAP

ppt2video-skills 嘅輸出係HTML,但呢個唔係普通嘅網頁——佢係可以被渲染成視頻嘅視頻畫面。

圖片

HyperFrames:用HTML做視頻

HyperFrames 係一個開源框架,佢嘅核心思路係:用HTML + CSS + JavaScript嚟描述視頻畫面,然後渲染成視頻文件。

每一頁scene係一個獨立嘅HTML文件,包含固定尺寸嘅畫布、視覺內容同動畫時間線。HyperFrames框架可以識別呢啲HTML,按時間線播放並錄製成視頻。

呢個喺業界被稱為「聲明式視頻」——你聲明每一幀係點樣,框架負責將佢變做視頻。好處係:可編程、可版本控制、可以精確到毫秒。

GSAP動畫

每一頁嘅動畫使用GSAP(GreenSock Animation Platform)驅動。GSAP係業界最成熟嘅Web動畫庫之一,相比CSS animation更可控,相比手寫JavaScript動畫更高效。

每頁嘅動畫設計原則:

  • • 3-6個入場動作就夠,唔需要花巧
  • • 以opacity / x / y / scale為主,呢啲屬性渲染性能最好
  • • 先寫靜態畫面,再加動畫——確保最終畫面正確,動畫只負責「點樣出現」
  • • 禁止repeat: -1——視頻PPT唔需要無限循環

一條典型嘅時間線:標題由下方滑入(y: 100 → 0),正文漸顯(opacity: 0 → 1),裝飾元素依次入場。每頁4-8秒,配合同步口播。

主題機制:先睇示例再創作

主題系統係ppt2video-skills最有特色嘅設計。

佢唔係等AI憑空「設計」風格,而係等AI先讀真實主題HTML,提取風格規則,再按規則生成新頁面

工作流:

  1. 1. 技能讀取所選主題目錄下面嘅3-5個scene HTML
  2. 2. 提取背景處理、顏色角色、標題層級、佈局模式、動畫節奏
  3. 3. 將呢啲規則套用到新頁面嘅生成當中

呢個意味住:主題目錄入面嘅示例越多,AI生成嘅質量越穩定。主題唔係一個配置文件,而係一組真實HTML示例——AI透過閲讀佢哋嚟理解你想要嘅風格。

渲染安全:點解唔用複雜CSS

視頻渲染引擎對CSS嘅支援度不如瀏覽器。一啲喺瀏覽器入面正常嘅效果,喺渲染時可能會漏幀、錯位或者唔顯示。

禁止使用嘅CSS特性:

  • • backdrop-filter — 視頻渲染器唔支援
  • • mix-blend-mode — 混合模式喺渲染時唔可預測
  • • filter: blur() — 多層模糊會嚴重拖慢渲染
  • • 多層透明疊加 — 渲染順序容易出錯

推薦嘅樣式策略: 實色背景、簡單漸變、高對比文字、輕量邊框同單層陰影。

呢個都係ppt2video-skills嘅設計哲學之一:寧願設計上節制啲,都要保證渲染穩定。

產出物一覽

文件
用途
scene-01.html
 ~ scene-NN.html
每頁嘅視頻畫面HTML
script.txt
每行對應一頁嘅口播文案
outline.md
每頁嘅主題同目的說明
subtitle-scene-map.md
腳本行 ↔ scene編號映射表
scene-design-plan.md
每頁設計思路
structure-proposal.md
結構確認稿(保留備查)

每個文件都有明確用途,組成一套完整嘅視頻PPT製作素材包。

圖片

PART 04|上手實操:完整流程演示

下面用一個簡化嘅例子,睇嚇實際行一次係咩效果。

輸入

假設你嘅口播文案開頭係咁:

好多人覺得做視頻好難,但其實只需要三步。第一步,諗清楚你要講咩。第二步,寫低佢。第三步,將佢講俾人聽。就咁簡單。

第一步輸出:結構確認稿

技能讀完之後,輸出結構確認稿:

# PPT 結構確認稿

- 核心主題:做視頻只需要三步
- 建議尺寸:1080 × 1440
- 建議頁數:5 頁

| 頁碼 | 頁面主題 | 對應原文 | 拆分理由 |
|------|---------|---------|---------|
| 01 | 開場:你覺得做視頻難嗎? | 第一句 | 製造共鳴,作為第一眼鈎子 |
| 02 | 原因分析:為什麼覺得難 | 隱含前提 | 過渡頁,引出解決方案 |
| 03 | 第一步:想清楚說什麼 | "第一步..." | 核心方法第一步 |
| 04 | 第二步:寫下來 + 講出來 | "第二步...第三步..." | 兩個短步驟合併一頁 |
| 05 | 總結金句 | 最後一句 | 收束結尾,留印象 |

用戶確認

你話「第4頁內容有啲多,拆成兩頁」。技能調整之後進入下一步。

選主題

你打開主題預覽,揀咗 guizang-swiss-demo(瑞士風,乾淨極簡)。

技能讀取該主題下面嘅示例HTML,總結風格規則:黑白配色為主、少量藍色強調色、網格佈局、標題用無襯線字體、內容區有左右分欄同上下分層兩種模式。

最終產出

output/
├── scene-01.html
├── scene-02.html
├── scene-03.html
├── scene-04.html
├── scene-05.html
├── script.txt
├── outline.md
├── subtitle-scene-map.md
├── scene-design-plan.md
└── structure-proposal.md

每個scene HTML打開之後,可以睇到對應嘅動畫畫面:標題滑入、正文漸顯、元素依次入場。

呢個過程,喺對話入面完成。由你俾出文案到拎到全部產出,核心操作得兩件事——確認頁結構、揀主題風格

PART 05|適用場景同邊界

圖片

邊個最啱用

場景
說明
推薦程度
知識博主做口播視頻
有文案腳本,需要快速出畫面
⭐⭐⭐⭐⭐
課程講師做講解視頻
教學內容結構化呈現
⭐⭐⭐⭐⭐
自媒體內容視頻化
將圖文內容轉成視頻PPT
⭐⭐⭐⭐
產品團隊做發佈視頻
新品介紹、觀點分享
⭐⭐⭐⭐
個人創作者做日常更新
低門檻出視頻內容
⭐⭐⭐⭐

核心優勢

可控。 每一頁scene係獨立嘅HTML文件,可以單獨打開、修改、替換。唔需要喺剪輯軟件入面重新拼一次。

可編輯。 識少少HTML嘅人可以直接改代碼——改文字、換顏色、調整動畫時長。唔需要專業視頻編輯技能。

渲染穩定。 有明確嘅「渲染安全CSS」規則,避免咗大部分導出問題。

主題化。 預置4套風格各異嘅主題,而且主題係「可閲讀嘅HTML示例」而唔係配置文件——呢個意味住主題庫可以不斷擴展。

無需設計基礎。 你唔需要識排版、動效、配色。AI幫你完成,你只需要判斷「呢個結構啱唔啱」同埋「呢套風格適唔適合」。

當前邊界

依賴AI Agent環境。 ppt2video-skills 係一個技能,唔係獨立應用。佢需要運行喺Claude Code或兼容嘅AI Agent框架入面。

主題庫目前得4套。 4套主題覆蓋咗常見風格,但如果你有非常特定嘅品牌視覺要求,可能需要定製主題。

適合豎屏內容。 預設1080×1440豎屏尺寸,適合視頻號、抖音、快手等豎屏平台。橫屏內容需要額外適配。

非實時渲染。 輸出嘅係HTML scene,唔係MP4視頻。需要配合視頻渲染工具(HyperFrames)嚟生成最終視頻文件。

寫喺最後

視頻內容創作呢件事,呢幾年發生咗兩次變化。

第一次係智能手機普及——人人都咗拍攝設備。第二次係剪映呢類工具普及——人人都咗剪輯能力。

第三次正在發生:AI開始介入內容製作嘅中台環節。唔係你寫好文案之後再「順便」做個視頻配圖,而係AI自動將文案變成畫面、排好版、加好動畫、準備好渲染。

ppt2video-skills 係第三次變化中嘅一個具體產品。佢嘅價值唔在於技術複雜——HyperFrames同GSAP都係成熟技術——而係在於佢將「由文案到視頻PPT」呢條鏈路,變成一個可對話、可確認、可自動執行嘅流程。

如果你已經用緊AI Agent,又有口播文案需要整成視頻,可以試嚇。輸入文案,AI幫你排好版、配好動畫,你只需要確認方向同揀主題。

淨低嘅交俾技能就得。


技能資訊

  • GitHub:https://github.com/dayuanlog/ppt2video
  • 技術棧:HyperFrames + GSAP
  • 預置主題:4套(雜誌風 / 瑞士風 / 手繪白板 / 極簡發佈)
  • 預設畫布:1080 × 1440(豎屏)
  • 運行環境:Claude Code或兼容AI Agent框架


安裝方法

將倉庫複製到AI Agent嘅技能目錄就得:

git clone https://github.com/dayuanlog/ppt2video.git ~/.claude/skills/ppt2video-skills

或者直接同Claude Code / Openclaw / Hermes講:

請幫我安裝這個skill:https://github.com/dayuanlog/ppt2video


既然睇到呢度,如果覺得唔錯,順手㩒個讚、睇、轉發三連啦,如果想第一時間收到推送,都可以俾我個星標⭐~

多謝你睇我嘅文章,我哋,下次再見





圖片

你有沒有這樣的經歷——

花兩小時寫好一篇口播文案,然後對着空白編輯器發愁:做成視頻 PPT 還得再花兩小時排版、調動畫、配節奏。文案寫得好是一回事,把它變成能看的畫面是另一回事。

更糟的是,大多數視頻 PPT 工具要麼太複雜(專業剪輯軟件),要麼太死板(模板套完千篇一律)。你想做的是"有自己風格的視覺呈現",但時間和技能都不夠。

所以有了 ppt2video-skills。

這個 AI Agent 技能,能幫你在對話中完成"文案→視頻 PPT"的全流程。你提供口播文案,它自動拆成 PPT 頁、生成結構稿等你確認、讓你選視覺主題,然後輸出一套帶 GSAP 動畫的 HTML 視頻畫面。

這篇文章拆解它的一切:解決什麼問題、怎麼工作、技術底子是什麼、實際用起來效果如何。

圖片

PART 01|它解決了什麼核心痛點

先想一個問題:做視頻 PPT 這件事,到底難在哪?

第一關:文案到畫面的轉換。 你有一段口播文案,但它不是 PPT 結構。哪裏該新開一頁?哪裏該合併?哪句話適合做標題?哪段適合做金句?這些判斷依賴敍事邏輯感——不是人人都有。

第二關:排版與視覺呈現。 確定頁結構之後,每一頁怎麼排?標題放哪?配什麼圖?什麼顏色?什麼字體?這一關把絕大多數內容創作者擋在門外。模板能解決一部分,但一旦想跳出模板,難度陡增。

第三關:動畫與節奏。 視頻 PPT 和靜態 PPT 最大的區別是"動"。文字怎麼入場?什麼時候切換?每頁停留多久?動畫節奏對口播的配合——這已經是專業動效設計師的領域了。

第四關:輸出與渲染。 做好之後還得導出成視頻。傳統做法是在剪輯軟件裏重新拼一遍,或者用 PPT 自帶的錄製功能——質量和效率都打折扣。

ppt2video-skills 把所有四關串成一條自動化流水線。

它的定位很明確:讓內容創作者只關心文案本身,畫面呈現交給 AI。

它不是一個獨立軟件,而是一個 AI Agent 技能(Skill)。它運行在 AI Agent 環境中(Claude Code 或兼容的 Agent 框架),你通過對話來驅動它。你說"我有一篇口播文案,幫我做成視頻 PPT",它就開始工作。

核心價值可以濃縮為一句話:把"做視頻 PPT"這件事,從一場需要設計技能的馬拉松,變成一次可以對話完成的任務。

PART 02|從文案到視頻:四步流水線

整套流程分四步走,每一步都有明確的輸入和產出。

圖片

第一步:拆結構——讓 AI 讀懂你的文案

收到口播文案後,技能不做別的事,先讀文案。

它會把文案按敍事邏輯拆成 PPT 頁。但不是簡單地按段落切——它會判斷每一段的敍事角色:

  • • 這是開場鈎子?→ 適合獨立成頁,做大標題
  • • 這是論證過程?→ 可能分 2-3 頁,每頁講一個要點
  • • 這是金句/結論?→ 單獨一頁,強調輸出

拆完後輸出一份 結構確認稿(structure-proposal.md),包含:

  • • 建議拆成多少頁
  • • 每頁的主題
  • • 每頁對應的原文範圍
  • • 拆分理由

這份確認稿就是第一階段的產出。

第二步:用戶確認——人與 AI 協同

結構確認稿推給你看,你確認或調整。

這是整個流程中最關鍵的設計。它不是黑盒全自動——AI 拆的結構不一定完美,需要你來把關。

你可以說"第 3 頁和第 4 頁合併"、"第 5 頁拆成兩頁"、"給第 2 頁加一句話"。改完確認後,技能才會進入下一步。

第三步:選主題——決定視覺風格

確認完頁結構後,你需要選擇一套視覺主題。技能預置了 4 套主題,展示給你預覽:

主題
風格特點
適合場景
guizang-magazine-demo
雜誌風,圖文混排,層次豐富
知識分享、深度內容
guizang-swiss-demo
瑞士風,極簡網格,乾淨利落
科技、產品介紹
handdrawn-whiteboard-demo
手繪白板風,輕鬆隨意
教育、科普、輕鬆話題
launch-minimal-demo
極簡發佈風,大標題+留白
發佈會、觀點輸出

選好主題後,技能會先讀取該主題目錄下的 3-5 個真實 HTML 示例,總結它的風格語法——背景怎麼處理、標題層級怎麼用、顏色角色怎麼分配——然後再生成新頁面。

這是"先看示例再創作"的設計,保證產出風格統一,而不是 AI 憑空想象出來的畫面。

第四步:生成 scene——每頁一個獨立 HTML

最後一步,技能為每一頁 PPT 生成一個獨立的 HTML 文件,稱為一個 "scene"。

每頁 scene 的結構:

  • • 固定畫布尺寸(默認 1080×1440 豎屏)
  • • GSAP 動畫時間線(3-6 個入場動作,以 opacity / x / y / scale 為主)
  • • HyperFrames 兼容結構(可被視頻渲染框架識別)
  • • 內嵌安全機制:禁止無限循環、禁止複雜透明疊加

同時產出的配套文件:

  • • script.txt:每行對應一頁的口播文案
  • • outline.md:每頁的主題和目的
  • • subtitle-scene-map.md:腳本行與 scene 編號的映射
  • • scene-design-plan.md:每頁的設計思路說明

整套流水線的價值不在某一項技術有多強,而在每一步之間無縫銜接——文案進,一套完整的視頻 PPT 素材出。

PART 03|技術基礎:HyperFrames + GSAP

ppt2video-skills 的輸出是 HTML,但這不是普通的網頁——它是可以被渲染為視頻的視頻畫面。

圖片

HyperFrames:用 HTML 做視頻

HyperFrames 是一個開源框架,它的核心思路是:用 HTML + CSS + JavaScript 來描述視頻畫面,然後渲染成視頻文件。

每一頁 scene 是一個獨立的 HTML 文件,包含固定尺寸的畫布、視覺內容、和動畫時間線。HyperFrames 框架可以識別這些 HTML,按時間線播放並錄製為視頻。

這在業界被稱為"聲明式視頻"——你聲明每一幀長什麼樣,框架負責把它變成視頻。好處是:可編程、可版本控制、可精確到毫秒。

GSAP 動畫

每一頁的動畫使用 GSAP(GreenSock Animation Platform)驅動。GSAP 是業界最成熟的 Web 動畫庫之一,相比 CSS animation 更可控,相比手寫 JavaScript 動畫更高效。

每頁的動畫設計原則:

  • • 3-6 個入場動作就夠了,不需要花哨
  • • 以 opacity / x / y / scale 為主,這些屬性渲染性能最好
  • • 先寫靜態畫面,再加動畫——確保最終畫面正確,動畫只負責"怎麼出現"
  • • 禁止 repeat: -1——視頻 PPT 不需要無限循環

一條典型的時間線:標題從下方滑入(y: 100 → 0),正文漸顯(opacity: 0 → 1),裝飾元素依次入場。每頁 4-8 秒,配合同步口播。

主題機制:先看示例再創作

主題系統是 ppt2video-skills 最有特色的設計。

它不是讓 AI 憑空"設計"風格,而是讓 AI 先讀真實主題 HTML,提取風格規則,再按規則生成新頁面

工作流:

  1. 1. 技能讀取選中主題目錄下的 3-5 個 scene HTML
  2. 2. 提取背景處理、顏色角色、標題層級、佈局模式、動畫節奏
  3. 3. 將這些規則應用到新頁面的生成中

這意味着:主題目錄裏的示例越多,AI 生成的質量越穩定。主題不是一個配置文件,而是一組真實 HTML 示例——AI 通過閲讀它們來理解你想要的風格。

渲染安全:為什麼不用複雜 CSS

視頻渲染引擎對 CSS 的支持度不如瀏覽器。一些在瀏覽器中正常的效果,在渲染時可能丟幀、錯位或不顯示。

禁止使用的 CSS 特性:

  • • backdrop-filter — 視頻渲染器不支持
  • • mix-blend-mode — 混合模式在渲染時不可預測
  • • filter: blur() — 多層模糊會嚴重拖慢渲染
  • • 多層透明疊加 — 渲染順序容易出錯

推薦的樣式策略: 實色背景、簡單漸變、高對比文字、輕量邊框與單層陰影。

這也是 ppt2video-skills 的設計哲學之一:寧可設計上剋制一點,也要保證渲染穩定。

產出物一覽

文件
用途
scene-01.html
 ~ scene-NN.html
每頁的視頻畫面 HTML
script.txt
每行對應一頁的口播文案
outline.md
每頁主題與目的說明
subtitle-scene-map.md
腳本行 ↔ scene 編號映射表
scene-design-plan.md
每頁設計思路
structure-proposal.md
結構確認稿(保留備查)

每個文件都有明確用途,組成一套完整的視頻 PPT 製作素材包。

圖片

PART 04|上手實操:完整流程演示

下面用一個簡化的例子,看實際走一遍是什麼效果。

輸入

假設你的口播文案開頭是這樣:

很多人覺得做視頻很難,但其實只需要三步。第一步,想清楚你要說什麼。第二步,寫下來。第三步,把它講給別人聽。就這麼簡單。

第一步輸出:結構確認稿

技能讀完後,輸出結構確認稿:

# PPT 結構確認稿

- 核心主題:做視頻只需要三步
- 建議尺寸:1080 × 1440
- 建議頁數:5 頁

| 頁碼 | 頁面主題 | 對應原文 | 拆分理由 |
|------|---------|---------|---------|
| 01 | 開場:你覺得做視頻難嗎? | 第一句 | 製造共鳴,作為第一眼鈎子 |
| 02 | 原因分析:為什麼覺得難 | 隱含前提 | 過渡頁,引出解決方案 |
| 03 | 第一步:想清楚說什麼 | "第一步..." | 核心方法第一步 |
| 04 | 第二步:寫下來 + 講出來 | "第二步...第三步..." | 兩個短步驟合併一頁 |
| 05 | 總結金句 | 最後一句 | 收束結尾,留印象 |

用戶確認

你說"第 4 頁內容有點多,拆成兩頁"。技能調整後進入下一步。

選主題

你打開主題預覽,選了 guizang-swiss-demo(瑞士風,乾淨極簡)。

技能讀取該主題下的示例 HTML,總結風格規則:黑白配色為主、少量藍色強調色、網格佈局、標題用無襯線字體、內容區有左右分欄和上下分層兩種模式。

最終產出

output/
├── scene-01.html
├── scene-02.html
├── scene-03.html
├── scene-04.html
├── scene-05.html
├── script.txt
├── outline.md
├── subtitle-scene-map.md
├── scene-design-plan.md
└── structure-proposal.md

每個 scene HTML 打開後,可以看到對應的動畫畫面:標題滑入、正文漸顯、元素依次入場。

這個過程,在對話中完成。從你給出文案到拿到全部產出,核心操作只有兩件事——確認頁結構、選擇主題風格

PART 05|適用場景與邊界

圖片

誰最適合用

場景
說明
推薦程度
知識博主做口播視頻
有文案腳本,需要快速出畫面
⭐⭐⭐⭐⭐
課程講師做講解視頻
教學內容結構化呈現
⭐⭐⭐⭐⭐
自媒體內容視頻化
把圖文內容轉成視頻 PPT
⭐⭐⭐⭐
產品團隊做發佈視頻
新品介紹、觀點分享
⭐⭐⭐⭐
個人創作者做日常更新
低門檻出視頻內容
⭐⭐⭐⭐

核心優勢

可控。 每一頁 scene 是獨立的 HTML 文件,可以單獨打開、修改、替換。不需要在剪輯軟件裏重新拼一遍。

可編輯。 懂一點 HTML 的人可以直接改代碼——改文字、換顏色、調動畫時長。不需要專業視頻編輯技能。

渲染穩定。 有明確的"渲染安全 CSS"規則,避免了大多數導出問題。

主題化。 預置 4 套風格各異的主題,且主題是"可閲讀的 HTML 示例"而非配置文件——這意味着主題庫可以不斷擴展。

無需設計基礎。 你不需要會排版、動效、配色。AI 幫你完成,你只需要判斷"這個結構對不對"和"這套風格適不適合"。

當前邊界

依賴 AI Agent 環境。 ppt2video-skills 是一個技能,不是獨立應用。它需要運行在 Claude Code 或兼容的 AI Agent 框架中。

主題庫目前 4 套。 4 套主題覆蓋了常見風格,但如果你有非常特定的品牌視覺要求,可能需要定製主題。

適合豎屏內容。 默認 1080×1440 豎屏尺寸,適合視頻號、抖音、快手等豎屏平台。橫屏內容需要額外適配。

非實時渲染。 輸出的是 HTML scene,不是 MP4 視頻。需要配合視頻渲染工具(HyperFrames)來生成最終視頻文件。

寫在最後

視頻內容創作這件事,這幾年發生了兩次變化。

第一次是智能手機普及——人人都有了拍攝設備。第二次是剪映這類工具普及——人人都有了剪輯能力。

第三次正在發生:AI 開始介入內容製作的中台環節。不是你寫好文案後再"順便"做個視頻配圖,而是 AI 自動把文案變成畫面、排好版、加好動畫、準備好渲染。

ppt2video-skills 是第三次變化中的一個具體產品。它的價值不在於技術複雜——HyperFrames 和 GSAP 都是成熟技術——而在於它把"從文案到視頻 PPT"這條鏈路,變成了一個可對話、可確認、可自動執行的流程。

如果你已經在用 AI Agent,又有口播文案需要做成視頻,可以試試。輸入文案,AI 幫你排好版、配好動畫,你只需要確認方向和選主題。

剩下的交給技能就好。


技能信息

  • GitHub:https://github.com/dayuanlog/ppt2video
  • 技術棧:HyperFrames + GSAP
  • 預置主題:4 套(雜誌風 / 瑞士風 / 手繪白板 / 極簡發佈)
  • 默認畫布:1080 × 1440(豎屏)
  • 運行環境:Claude Code 或兼容 AI Agent 框架


安裝方法

將倉庫克隆到 AI Agent 的技能目錄即可:

git clone https://github.com/dayuanlog/ppt2video.git ~/.claude/skills/ppt2video-skills

或者直接和Claude Code / Openclaw /Hermes 說:

請幫我安裝這個skill:https://github.com/dayuanlog/ppt2video


既然看到這裏了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標⭐~

謝謝你看我的文章,我們,下次再見