一覽7 個視頻合成Skills

作者：山行AI

日期：2026年4月20日下午12:39

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

7 個視頻合成 Skills 大檢閲：從剪映自動化到 Remotion 規則，AI 視頻 Agent 嘅進化路徑

整理版摘要

呢篇文章係由山行整理，佢綜合睇咗 7 個開源嘅視頻相關 Agent Skill 項目，唔係單純介紹功能，而係想拆解每個項目喺視頻工作鏈入面嘅定位、能力邊界同埋適用場景。

作者認為呢批項目嘅出現，代表 AI 正喺度由「識寫提示詞」進化成「識操控視頻工作流」。佢將 7 個項目分成 4 個層級：桌面剪輯執行層、內容切片與二次分發層、成片流水線封裝層、編程式視頻能力層。整體結論係：視頻 Agent 嘅競爭，正正由「單點能力」轉向「技能編排時代」，未來比拼嘅係 Skills 可唔可以重用、工作流可唔可以組合、Agent 喺多步任務入面穩唔穩定。

對創作者同開發者嚟講，呢組項目最大價值唔係邊個最強，而係揭示咗下一代視頻 Agent 嘅分層結構，令自動化剪輯開始有清晰嘅軟件架構思路。

7 個項目可分成 4 層：桌面剪輯執行層、內容切片分發層、成片流水線封裝層、編程式視頻能力層，各有唔同嘅自動化深度同適用對象。
jianying-editor-skill 同 videocut-skills 分別代表「自動搭時間軸」同「語義審核」兩大方向，前者靠工程連接，後者靠內容理解。
Youtube-clipper-skill 同 bibigpt-skill 偏向內容拆解同知識提取，唔係從零做片，而係將長視頻重組為短片、字幕、摘要同圖文。
narrator-ai-cli-skill 係垂直行業 SOP 產品化嘅例子，電影解說一條龍，有資源庫、模板同錯誤處理，似「成熟工廠接口」。
remotion-dev/skills 同 remotion-best-practices 代表工程規範層，幫助 Agent 減少寫錯代碼，確保組合邏輯同渲染可執行。

值得記低

連結 github.com

jianying-editor-skill

將剪映桌面端變成 Agent 執行器，自動處理素材導入、時間軸、配音字幕、特效等。

連結 github.com

videocut-skills

口播視頻嘅語義審核同自動剪輯，識別重複句、卡頓、錯誤後標記畀人工確認。

連結 github.com

Youtube-clipper-skill

長視頻語義切片、雙語字幕、社媒內容生成，適合播客精華分發。

連結 github.com

bibigpt-skill

將視頻/音頻轉成摘要、字幕、文章，適合知識提取同內容運營。

整理重點

點解而家視頻 Agent 開始集體長出「技能層」？

最近呢批視頻相關嘅 Agent Skill 項目，已經唔止係「幫你調一個模型」咁簡單。佢哋開始將視頻處理鏈路拆成可調用、可組合、可複用嘅技能單元。有人將剪映桌面端變成自動化執行器，有人專注口播剪輯嘅半自動審核流，有人將 YouTube 切片同雙語字幕整合，仲有人將視頻總結、電影解說、Remotion 代碼生產都納入 Skill 體系。

整理重點

7 個項目實際上分成 4 個層級

為咗避免將佢哋混為一談，作者先畀咗一個專業劃分：桌面剪輯執行層、內容切片與二次分發層</highlight-inline>、成片流水線封裝層</highlight-inline>、編程式視頻能力層</highlight-inline>。

1 桌面剪輯執行層：代表係 jianying-editor-skill 同 videocut-skills。前者驅動剪映完成整套編輯動作，後者專注口播語義識別同問題標註。
2 內容切片與二次分發層：代表係 Youtube-clipper-skill 同 bibigpt-skill。重點係將長視頻拆成片段、字幕、摘要、社媒文案，唔係從零做片。
3 成片流水線封裝層：代表係 narrator-ai-cli-skill。將成條電影解說生產流水線產品化，似「直接調一個成熟視頻工廠」。
4 編程式視頻能力層：代表係 remotion-dev/skills 同 remotion-best-practices。唔係工作流，而係 Agent 維修 Remotion 視頻代碼嘅知識、規則同工程方法論。

一句話總結：前三層係「做視頻任務」，第四層係「讓 Agent 學會做視頻工程」。呢個分層對之後搭建視頻 Agent 好有參考價值。

整理重點

逐個項目睇：能力邊界與落地差異

第一個係 jianying-editor-skill</highlight-inline>，佢將剪映專業版當成底層執行環境，目標唔係取代剪映，而係用 AI 自動完成重複編輯動作：素材導入、時間軸排列、配音、配樂、特效、字幕、導出 MP4。最大優勢係工程連接能力強</highlight-inline>，對非開發者友好，可以沿用剪映工作習慣。但限制係依賴舊版剪映、部分 GPU 功能無法代碼調用、唔支援手機端。

適合場景：短視頻批量製作、圖文轉視頻、解說視頻模板化、錄屏教程。
本質係「面向現有剪映生態嘅自動化外掛層」，唔係獨立視頻引擎。

第二個係 videocut-skills</highlight-inline>，佢專門解決口播視頻嘅語義問題：說錯重講、重複句、卡頓、語氣詞、長靜音。唔係做波形檢測，而係將語義理解引入剪輯決策</highlight-inline>。AI 逐句分析，標記重說/糾正/重複，畀人工確認後用 FFmpeg 自動剪。好處係將「人工審核負擔」前移畀 AI，特別適合知識口播、教程錄製。邊界係偏口播，唔係全品類，強項係審核同裁剪，唔係複雜視覺包裝。

第三個係 Youtube-clipper-skill</highlight-inline>，佢將長視頻基於語義生成章節、精準切片、雙語字幕、社媒文案。核心係 <highlight-inline>語義章節生成與切片邏輯</highlight-inline>，唔係機械式計時切。適合海外視頻搬運、播客精華切片、雙語內容生產。但對原生拍攝剪輯幫助有限，偏內容拆解唔係從零創作。

第四個係 bibigpt-skill</highlight-inline>，佢圍繞 BibiGPT API，將視頻/音頻轉成摘要、章節總結、原始字幕、文章改寫、筆記導出。同 Youtube-clipper-skill 最大差異係：<highlight-inline>前者偏視頻生產再利用，後者偏信息提煉與內容重寫</highlight-inline>。佢係個明顯偏「知識中台」嘅 Video Skill，適合內容營運、學習資料批量總結。

第五個係 narrator-ai-cli-skill</highlight-inline>，直接將電影解說生產鏈打包：搜片、選模板、選 BGM、選配音、生成文案、合成影片、返回下載連結。仲分兩創同原創模式。代表另一種方向：<highlight-inline>將垂直行業 SOP 做成可調用產品</highlight-inline>。佢有資源庫、模板庫、API 錯誤處理、成本預估，更接近商業級服務，唔係開源拼裝。限制係場景侷限，對外部平台同 API Key 有依賴。

第六個係 remotion-dev/skills</highlight-inline>，目前公開資料少，但從命名睇係 Remotion 官方嘅 Agent Skills 方向探索。佢嘅意義係信號：<highlight-inline>編程式視頻工具鏈正主動擁抱 Agent 化</highlight-inline>。第七個係 remotion-best-practices</highlight-inline>，一套面向 Agent 嘅 Remotion 領域知識說明，覆蓋 3D、動畫、資源導入、音頻、字幕、compositions 等關鍵規則。對 Agent 嚟講，呢啲規則防止佢寫出「睇落似啱但跑唔起」嘅代碼，係 <highlight-inline>將 Remotion 經驗顯式化</highlight-inline>。

整理重點

專業對比：7 個項目到底差喺邊？

從產物類型睇，偏成片執行</highlight-inline> 嘅有 jianying-editor、videocut 同 narrator-ai；偏內容拆解再利用</highlight-inline> 嘅有 Youtube-clipper 同 bibigpt；偏工程能力與規則底座</highlight-inline> 嘅有 remotion dev/skills 同 best-practices。

從自動化深度睇，端到端最接近嘅係 narrator-ai 同 jianying-editor；半自動審核流係 videocut（保留人工確認）；內容再編排流係 Youtube-clipper 同 bibigpt；知識約束流係 remotion-best-practices。

從適用用戶睇：普通創作者</highlight-inline> 適合 jianying-editor 同 narrator-ai；知識型創作者/開發者</highlight-inline> 適合 videocut、Youtube-clipper 同 bibigpt；技術團隊/工作流搭建者</highlight-inline> 適合 remotion 系列。核心壁壘方面：剪映集成靠工程連接穩定度；語義審核靠口播內容理解準確度；長內容結構化靠章節拆分同摘要質量；垂直行業 SOP 靠資源庫同服務鏈路完整度；工程規範靠經驗沉澱成規則。

整理重點

如果你要自己搭視頻 Agent，最值得借鑑嘅係「分層方式」

好多人睇呢類項目會問邊個最強、邊個能全自動，但作者認為更值得借鑑嘅係背後嘅分層思路</highlight-inline>：執行器型、理解器型、規則型、產品化工作流型。

最後總結：如果想提高視頻生產效率，優先睇 jianying-editor-skill</highlight-inline> 同 videocut-skills</highlight-inline>；想做長內容拆解與多平台再利用，睇 Youtube-clipper-skill</highlight-inline> 同 bibigpt-skill</highlight-inline>；想做電影解說垂直流水線，睇 narrator-ai-cli-skill</highlight-inline>；想做編程式視頻與工程 Agent，睇 remotion-dev/skills</highlight-inline> 同 remotion-best-practices</highlight-inline>。

一次過睇曬7個視頻合成Skills

點解視頻 Agent 開始全部都有「技能層」？7個視頻技能項目嘅能力邊界同落地分別

最近呢堆視頻相關嘅 Agent Skill 項目，已經唔止係「幫你調一個模型」咁簡單。：有人將剪映桌面版變成自動化執行器，有人將口播剪輯變成半自動審核流程，有人專注做 YouTube 切片同雙語字幕，有人將視頻總結、電影解說、Remotion 程式碼生產都納入 Skill 系統。佢哋開始將

視頻處理鏈路拆成可以調用、可以組合、可以重用嘅技能單元呢個背後其實係一個好明確嘅變化：。

AI 正喺度由「識寫提示詞」進化到「識操作視頻工作流程」

呢篇文章，我將7個項目擺埋一齊睇，唔單止介紹「佢哋做到啲乜」，仲會重點分析：
佢哋分別解決嘅係視頻鏈路入面邊一段
邊啲似「生產工具」，邊啲似「能力基礎」
邊啲適合個人創作者，邊啲更適合團隊或者工作流程整合

如果你想建立自己嘅視頻 Agent，應該優先參考邊一類

如果你最近有留意 AI 視頻生產、Agent 技能系統、自動化剪輯、Remotion 程式式視頻，呢組項目好值得一次過睇曬。

先講結論：呢7個項目，實際上分咗做4個層級

為咗避免撈亂曬，我先畀一個專業分類。

1）桌面剪輯執行層

jianying-editor-skill
videocut-skills

代表項目：

呢一層直接面向「剪視頻」呢個動作。

分別在於：一個更加強調
驅動剪映桌面版完成整套編輯動作一個更加強調

口播視頻嘅語義識別、問題標記同 FFmpeg 剪輯執行

2）內容切片同二次分發層

Youtube-clipper-skill
bibigpt-skill

代表項目：

呢一層更關注「現有視頻內容點樣拆解、總結、改寫、再生產」。

佢哋面向嘅唔係由零開始整片，而係：
將長視頻切成可以傳播嘅片段

將視頻變成字幕、摘要、雙語內容、公眾號圖文、社交媒體文案

3）成品流水線封裝層

narrator-ai-cli-skill

代表項目：呢一層嘅價值唔在於「可以自由拼砌」，而在於。

將一整條電影解說生產流水線產品化

佢更加似「直接叫一個成熟嘅視頻工廠」。

4）程式式視頻能力層

remotion-dev/skills
remotion-best-practices

代表項目：呢一層唔係某個成品工作流程，而係。

圍繞 Remotion 嘅知識、規則同工程方法

佢解決嘅係：當 Agent 要生成、修改、維護 Remotion 視頻程式碼時，點樣少走彎路、少寫錯程式碼、建立可靠嘅工程約束。

一句講曬：

一、`jianying-editor-skill`頭三層係「做視頻任務」，第四層係「令 Agent 學識做視頻工程」。

：將剪映桌面版變成 Agent 嘅執行器

項目地址：^[1]

https://github.com/luoluoluo22/jianying-editor-skill

佢嘅核心作用係乜？呢個項目最有代表性嘅地方，係佢唔係重新做一個視頻編輯器，而係。

將剪映專業版當成底層執行環境

即係話，佢嘅目標唔係取代剪映，而係令 AI Agent 幫你將大量重複嘅編輯動作自動完成：
素材導入
時間軸排列
配音生成
自動字幕
配樂選擇
特效/轉場/濾鏡應用
HTML/Canvas 動效轉視頻素材
錄屏同智能變焦
影視解說視頻生成

最終匯出 MP4

呢類能力嘅價值好直接：

佢將「自然語言 -> 剪映項目結構」嘅轉換打通咗。對於大量使用剪映嘅創作者嚟講，呢個好重要。因為真正花時間嘅地方，往往唔係「剪映唔識做」，而係。

你要不停重複撳掣、試錯、調整、堆時間軸

佢更適合咩場景？

更適合以下場景：
短視頻批量製作
圖文轉視頻
解說視頻模板化生產
錄屏教學類視頻

需要保留剪映現有生態（特效庫、素材庫、匯出體驗）嘅團隊

佢嘅專業優勢佢最大嘅優勢唔係演算法，而係：

工程連接能力強
對接成熟桌面編輯器
功能覆蓋面廣
對非專業開發者更友好

可以沿用剪映已有嘅工作習慣

佢嘅限制都好清楚

項目自己都講得好坦白：
佢唔係剪映嘅代替品，渲染同預覽仍然要靠剪映本身
剪映部份實時 GPU 能力冇辦法直接經程式碼調用
唔係所有剪映 UI 都可以自動化觸發
自動匯出依賴舊版本（5.9 或以下）

唔支援手機端

，而唔係一個完全獨立嘅視頻 AI 引擎。所以佢更加似：

二、`videocut-skills`「面向現有剪映生態嘅自動化外掛層」

：將口播剪輯由「時間軸操作」升級做「語義審核」

項目地址：^[2]

https://github.com/Ceeon/videocut-skills

如果說 jianying-editor-skill 佢嘅核心作用係乜？ videocut-skills 強項係「自動搭時間軸」，而

強項係「自動識別邊度要剪」。呢個項目非常集中：。

專門解決口播視頻剪輯入面嘅語義問題

佢瞄準嘅係傳統工具成日處理唔好嘅兩類問題：
講錯之後重新講一次

重複句、口窒、語氣詞、長靜音

佢唔係淨係做波形檢測，而係將語義理解引入剪輯決策：
AI 逐句分析內容
標記重講/糾正/重複
靜音檢測
句內重複識別
自定義詞典糾錯
審核頁人工確認

FFmpeg 自動執行剪輯

佢點解專業？因為佢解決嘅唔係「剪輯軟件有冇按鈕」，而係。

口播視頻嘅內容質量控制

好多創作者嘅真實痛點唔係唔識加轉場，而係：
19分鐘講稿入面有大量口誤
專業術語字幕識別錯誤
邊句要刪、邊句要留好花時間

videocut-skills 不停翻睇重播做人工改錯極度消耗精力

嘅價值就係將呢啲「人工審核負擔」提前交畀 AI。

佢更適合咩場景？

特別適合：
知識口播
教學錄製
產品示範講解
Podcast 視頻化

開發者內容創作

佢同傳統剪輯思路最大嘅分別

傳統剪輯工具多數係「你判斷，我執行」。

而呢個項目更加似：

「AI 先做內容級審稿，再畀你做最終確認。」

呢個意味住喺「口播清洗」呢件事上，佢比通用桌面編輯自動化更加垂直，亦都更容易做到穩定嘅回報。

佢嘅邊界

佢嘅邊界同樣清楚：
偏口播，唔係全部類型嘅視頻生產平台
強項係審核同裁剪，唔係複雜視覺包裝

依賴轉錄質素、詞典質素同審核流程設計所以佢唔係「萬能視頻 Agent」，而係一個。

三、`Youtube-clipper-skill`好強嘅垂直口播剪輯 Skill

：將長視頻拆成可以傳播嘅片段

項目地址：^[3]

https://github.com/op7418/Youtube-clipper-skill

佢嘅核心作用係乜？

呢個項目瞄準嘅係另一類高頻任務：

一條長視頻，點樣快啲變成多個短片段、雙語字幕同可以傳播嘅內容？

佢嘅能力組合好典型：
下載 YouTube 視頻
基於語義生成細緻章節
精準切片
中英雙語字幕翻譯
字幕燒錄

自動生成社交媒體內容入面最值得留意嘅唔係「下載視頻」，而係。

語義章節生成同切片邏輯

呢個意味住唔係機械咁每3分鐘切一刀，而係嘗試理解內容結構之後再切。

佢解決嘅真實問題

內容創作者常見需求係：
由 Podcast/訪問/演講入面抽出適合傳播嘅片段
做中英文雙語內容分發

Youtube-clipper-skill 將長內容拆成適合小紅書、視頻號、公眾號、抖音嘅二次素材

本質上係做緊：。

長視頻嘅「語義切片 + 多平台再包裝」

適合：

佢更適合咩場景？
海外視頻搬運同研究
Podcast 精華切片
演講內容再分發
長視頻內容矩陣營運

雙語字幕視頻生產

佢嘅專業特點

佢比一般字幕工具更進一步，因為佢將幾個環節串成閉環：
內容理解
結構切分
視頻截取
字幕翻譯
視覺輸出

社交媒體文案生成

呢個令佢更接近「內容再加工流水線」，而唔係單點工具。

佢嘅限制

但都要留意，佢主要都係圍繞 YouTube 或者長視頻切片生態展開：
對原生拍攝型複雜剪輯幫助有限
對重視覺設計、複雜包裝唔算強項

四、`bibigpt-skill`比較偏向內容拆解而唔係由零創作

：將視頻、音頻、Podcast 變成可以消費嘅知識

項目地址：^[4]

https://github.com/JimmyLv/bibigpt-skill

佢嘅核心作用係乜？ Youtube-clipper-skill 如果之前嘅 bibigpt-skill 更偏比較偏向視頻切片，咁。

內容理解同知識轉寫

呢個項目圍繞 BibiGPT CLI / API 構建，將視頻、音頻、Podcast 等內容轉成：
AI 摘要
分章節總結
原始字幕/轉錄
文章改寫
批量處理結果
多源綜合分析
筆記匯出

畫面分析

佢本質上係將「多媒體內容理解」做成 Agent 可以調用嘅工作流程。

Youtube-clipper-skill 佢同前者最大嘅分別

bibigpt-skill 更加似「由視頻入面切出可以傳播嘅片段」；

更加似「由視頻入面抽出可以重用嘅知識」。

換句話講：
前者偏向視頻生產再用

後者偏向資訊提煉同內容重寫

點解佢值得分開睇？

因為佢好貼近內容營運嘅真實鏈路。

好多團隊唔係一定要先做視頻，而係更關心：
呢條視頻講咗啲乜
可唔可以快啲出公眾號文章
可唔可以形成研究簡報或者學習筆記
可唔可以多連結綜合比較

可唔可以輸出到 Notion / Obsidian / 本地檔案

所以佢係一個明顯偏向「知識中台」嘅視頻 Skill。

適合：

佢更適合咩場景？
視頻轉圖文
Podcast 轉文章
行業內容監測
批量總結學習資料
多視頻主題研究

知識庫沉澱

佢嘅專業定位

佢唔係一個剪輯器，亦唔係一個視覺視頻生成器，而係：。

視頻/音頻內容理解層 + Agent 工作流程分發器

五、`narrator-ai-cli-skill`呢個令佢特別適合做上游能力，駁到圖文生產、研究分析、知識管理鏈路上面。

：將「電影解說」做成一條完整產品流水線

項目地址：^[5]

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

佢嘅核心作用係乜？

呢個項目好典型，佢唔係想做一個通用視頻引擎，而係直接定義咗一個具體結果：

幫你做電影解說視頻。

而且唔係淨係畀一個 API，佢係將成條鏈路打包咗：
搜尋影片
選擇模板
選擇 BGM
選擇配音
生成文案
合成視頻

返回下載連結

同時仲分：
二次創作文案（爆款學習）
原創文案（快模式）

商業級視頻生成服務

適合：

佢更適合咩場景？
電影解說帳號
娛樂內容批量生產
二次創作內容工廠

已經有 Narrator AI 能力接入條件嘅團隊

優勢：

佢嘅優勢同限制
完整度高
上手路徑清晰
垂直場景好明確

限制：

由文案到成品鏈路閉環完整
場景相對收窄，唔係通用型視頻 Skill
對外部平台/服務同 API Key 有依賴

靈活度通常唔及純編排型工具

六、`remotion-dev/skills`所以佢更加似「成熟工廠介面」，唔係「通用積木箱」。

：Remotion 團隊自己嘅 Agent 技能倉庫

項目地址：^[6]

https://github.com/remotion-dev/skills

佢嘅核心作用係乜？ 目前公開見到嘅資料唔多，倉庫說明都比較少，但從命名同歸屬可以睇到，佢對應嘅係。

Remotion 官方/團隊嗰邊嘅 Agent Skills 方向探索

呢類項目嘅意義唔在於直接提供一個現成嘅視頻工作流程，而在於：
將 Remotion 相關能力整理成 Skill 形式
令 Agent 更容易理解 Remotion 項目結構

為後續程式碼生成、動畫編排、組合管理提供基礎支援

佢更加似咩？

佢更加似一個「能力容器」或者「內部技能倉庫」，而唔係單獨面向終端創作者嘅完整產品。

亦因為公開資訊唔算完整，所以睇呢個倉庫嘅時候，更加應該將佢理解為一個訊號：

程式式視頻工具鏈，正喺度主動擁抱 Agent 化。

呢件事嘅行業意義其實好大。

因為當 Remotion 呢啲程式碼驅動視頻方案開始進入 Skill 系統，就意味住 AI 唔止係「幫你剪一條視頻」，而係喺度嘗試：
寫視頻工程程式碼
改動畫邏輯
接素材同字幕
生成合成配置

調整 composition 同 metadata

七、`remotion-best-practices`呢個會將視頻生產，由「工具操作」帶向「工程生成」。

：令 Agent 喺 Remotion 世界入面少犯錯

項目地址：^[7]

https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

如果說 remotion-dev/skills 佢嘅核心作用係乜？ remotion-best-practices 更像更加似能力方向，咁。

規則手冊

佢唔係一個成品視頻工具，而係一套面向 Agent 嘅 Remotion 領域知識說明。

從公開內容睇，佢覆蓋咗好多關鍵規則主題：
3D 內容
動畫基礎
資源導入
音頻處理
動態 metadata
解碼檢查
圖表可視化
compositions 管理
字幕展示

視頻抽幀

佢點解專業價值好高？

因為 Remotion 呢類工具嘅難點，往往唔係「寫唔寫得出程式碼」，而係：
程式碼係咪符合框架約定
資源導入方式係咪正確
時長、尺寸、props 係咪相關得合理
音頻/字幕/幀處理有冇踩坑

複雜動畫係咪具備可維護性

對 Agent 嚟講，冇呢啲規則，最易發生嘅就係：
程式碼睇落好似啱，但係行唔到
組合關係混亂
視頻可渲染性差

改一處，其他地方全部壞

所以呢個 Skill 嘅真正價值係：

將「Remotion 經驗」顯式化，令 Agent 喺生成程式碼之前先獲得行業規則。

適合：

佢更適合咩場景？
用 Agent 寫 Remotion 視頻項目
做模板化視頻生成系統
自動化字幕視頻、圖表視頻、3D 視頻

團隊沉澱 Remotion 開發規範

八、專業比較：呢7個項目到底爭啲乜？

下面直接做一個面向實戰嘅比較。

1. 從「產物類型」睇

jianying-editor-skill
videocut-skills
narrator-ai-cli-skill

偏向成品執行

呢一類最終追求嘅係直接得到一個視頻成品或者接近成品。

Youtube-clipper-skill
bibigpt-skill

偏向內容拆解同再用

呢一類更加強調從現有內容入面抽出片段、字幕、摘要、文章、知識結構。

remotion-dev/skills
remotion-best-practices

偏向工程能力同規則基礎

呢一類唔直接畀你一個成品流水線，而係令 Agent 可以更可靠咁建立視頻工程。

2. 從「自動化深度」睇

narrator-ai-cli-skill
jianying-editor-skill

最接近端到端生產

前者偏向垂直解說成品，後者偏向通用桌面編輯執行。

videocut-skills

最接近半自動審核流程

佢保留人工審核節點，呢個係好實際嘅設計，因為口播剪輯最怕「AI 誤刪」。

Youtube-clipper-skill
bibigpt-skill

最接近內容再編排流程

佢哋更加似「資訊同素材重組器」。

remotion-best-practices

最接近知識約束流程

重點唔係執行任務，而係約束 Agent 嘅生成質素。

3. 從「適用用戶」睇

jianying-editor-skill
narrator-ai-cli-skill

適合普通創作者

因為結果導嚮明確，上手路徑亦都更直觀。

videocut-skills
Youtube-clipper-skill
bibigpt-skill

適合知識型創作者 / 開發者內容創作者

呢啲更適合對內容質素、語義結構、再分發效率有要求嘅人。

remotion-dev/skills
remotion-best-practices

適合技術團隊 / 工作流程搭建者

因為佢哋更加偏向工程方法，唔係輕量即用型工具。

4. 從「核心壁壘」睇

jianying-editor-skill

工具整合壁壘

核心壁壘在於可唔可以穩定驅動剪映生態。

videocut-skills

語義審核壁壘

核心壁壘在於可唔可以真正理解口播內容並做出可靠嘅裁剪建議。

Youtube-clipper-skill
bibigpt-skill

長內容結構化壁壘

核心壁壘在於內容理解、章節拆分、摘要重寫同多格式輸出。

narrator-ai-cli-skill

垂直行業 SOP 壁壘

核心壁壘在於資源庫、模板庫、風格庫同服務鏈路完整度。

remotion-best-practices
remotion-dev/skills

工程規範壁壘

核心壁壘在於將複雜嘅視頻工程經驗沉澱成 Agent 可用嘅規則。

九、如果你想自己搭視頻 Agent，最值得參考嘅唔係「功能」，而係「分層方式」

好多人睇呢類項目嘅時候，會先問：
邊個最勁？
邊個可以一條龍？

邊個可以全自動？

但真正更加值得參考嘅，其實係佢哋背後嘅分層思維。

第一類：執行器型 Skill

特點係直接操作工具或者流程，例如：
剪映自動化
FFmpeg 自動裁剪

視頻合成 API 調用

第二類：理解器型 Skill

特點係負責語義理解、轉錄、摘要、章節劃分、劇本生成。

第三類：規則型 Skill

特點係唔畀你直接結果，而係幫 Agent 喺複雜工程入面少犯錯。

第四類：產品化工作流程 Skill

特點係圍繞單一場景，將資源、模板、API、錯誤處理都打包好。

真正成熟嘅視頻 Agent，往往唔係淨係靠其中一類，而係呢幾類組合埋一齊：
用理解器分析內容
用執行器完成處理
用規則型 Skill 保證工程質素

用產品化工作流程加速特定場景

從呢個角度睇，呢7個項目最大嘅價值，唔單止係「各自做到啲乜」，而係佢哋已經將下一代視頻 Agent 嘅形態提前示範咗出嚟。

十、最後判斷：視頻 Agent 正由「單點能力」進入「技能編排時代」

如果將呢批項目擺埋一齊睇，我嘅判斷係：

視頻 Agent 嘅競爭，正喺度由「邊個可以調一個模型」轉向「邊個可以將內容理解、工具執行、工程規則、垂直場景封裝成可以重用嘅技能」。

呢個意味住未來比拼嘅重點會變成：
Skill 可唔可以重用
工作流程可唔可以組合
Agent 可唔可以喺多步任務入面保持穩定
人工審核節點擺喺邊度最合理

唔同層能力之間係咪解耦

從落地價值睇： jianying-editor-skill 和 videocut-skills
如果你想提高視頻生產效率，優先睇 Youtube-clipper-skill 和 bibigpt-skill
如果你要做長內容拆解同多平台再用，優先睇 narrator-ai-cli-skill
如果你要做電影解說垂直流水線，重點睇 remotion-dev/skills 和 remotion-best-practices

如果你要做程式式視頻同視頻工程 Agent，重點睇

呢個亦都係我覺得呢組項目最值得關注嘅原因：

佢哋唔係重複做「AI 視頻」，而係分別填補緊視頻 Agent 系統入面唔同層嘅空白。

對於創作者嚟講，呢個意味住更有效率嘅生產方式；對於開發者同團隊嚟講，呢個意味住。

視頻自動化終於開始有咗清晰嘅軟件分層結構

參考來源^[8]
https://github.com/luoluoluo22/jianying-editor-skill^[9]
https://github.com/Ceeon/videocut-skills^{https://github.com/op7418/Youtube-clipper-skill}
[10]^{https://github.com/remotion-dev/skills}
[11]^{https://github.com/JimmyLv/bibigpt-skill}
[12]^{https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md}
[13]^{https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md}

聲明

[14]^{，如果對你有幫助，請幫手點讚、關注、收藏，謝謝～} 本文由山行整理自：https://github.com/luoluoluo22/jianying-editor-skill^[15] 、https://github.com/Ceeon/videocut-skills^[16] 、https://github.com/op7418/Youtube-clipper-skill^[17] 、https://github.com/remotion-dev/skills^[18] 、https://github.com/JimmyLv/bibigpt-skill^[19] 、https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md^[20] 、https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[21]

[1]引用連結

[2]https://github.com/luoluoluo22/jianying-editor-skill

[3]https://github.com/Ceeon/videocut-skills

[4]https://github.com/op7418/Youtube-clipper-skill

[5]https://github.com/JimmyLv/bibigpt-skill

[6]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[7]https://github.com/remotion-dev/skills

[8]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[9]https://github.com/luoluoluo22/jianying-editor-skill

https://github.com/Ceeon/videocut-skills[10]

https://github.com/op7418/Youtube-clipper-skill[11]

https://github.com/remotion-dev/skills[12]

https://github.com/JimmyLv/bibigpt-skill[13]

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[14]

https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md[15]

https://github.com/luoluoluo22/jianying-editor-skill[16]

https://github.com/Ceeon/videocut-skills[17]

https://github.com/op7418/Youtube-clipper-skill[18]

https://github.com/remotion-dev/skills[19]

https://github.com/JimmyLv/bibigpt-skill[20]

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[21]

為什麼視頻 Agent 開始集體長出“技能層”？7 個視頻技能項目的能力邊界與落地差異

最近一波視頻相關的 Agent Skill 項目，已經不只是“幫你調一個模型”這麼簡單了。

它們開始把視頻處理鏈路拆成可調用、可組合、可複用的技能單元：有人把剪映桌面端變成自動化執行器，有人把口播剪輯做成半自動審核流，有人專注 YouTube 切片與雙語字幕，有人把視頻總結、電影解說、Remotion 代碼生產都納入 Skill 體系。

這背後其實是一個非常明確的變化：AI 正在從“會寫提示詞”進化成“會操縱視頻工作流”。

這篇文章，我把 7 個項目放在一起看，不只介紹“它們能做什麼”，更重點分析：

它們分別解決的是視頻鏈路中的哪一段
哪些更像“生產工具”，哪些更像“能力底座”
哪些適合個人創作者，哪些更適合團隊或工作流集成
如果你想搭建自己的視頻 Agent，該優先借鑑哪一類

如果你最近在關注 AI 視頻生產、Agent 技能體系、自動化剪輯、Remotion 編程式視頻，這一組項目很值得集中看一遍。

先說結論：這 7 個項目，實際上分成了 4 個層級

為了避免把它們混成一鍋，我先給一個專業劃分。

1）桌面剪輯執行層

代表項目：

jianying-editor-skill
videocut-skills

這一層直接面向“剪視頻”本身。

區別在於：

一個更強調驅動剪映桌面端完成整套編輯動作
一個更強調口播視頻的語義識別、問題標註與 FFmpeg 剪輯執行

2）內容切片與二次分發層

代表項目：

Youtube-clipper-skill
bibigpt-skill

這一層更關注“已有視頻內容如何被拆解、總結、轉寫、再生產”。

它們面向的不是從零做片，而是：

把長視頻切成可傳播片段
把視頻變成字幕、摘要、雙語內容、公眾號圖文、社媒文案

3）成片流水線封裝層

代表項目：

narrator-ai-cli-skill

這一層的價值不在於“可自由拼裝”，而在於把一整條電影解說生產流水線產品化。

它更像“直接調一個成熟視頻工廠”。

4）編程式視頻能力層

代表項目：

remotion-dev/skills
remotion-best-practices

這一層不是某個成品工作流，而是圍繞 Remotion 的知識、規則與工程方法論。

它解決的是：當 Agent 要生成、修改、維護 Remotion 視頻代碼時，如何少走彎路、少寫錯代碼、建立可靠的工程約束。

一句話總結：

前三層是在“做視頻任務”，第四層是在“讓 Agent 學會做視頻工程”。

一、`jianying-editor-skill`：把剪映桌面端變成 Agent 的執行器

項目地址：

https://github.com/luoluoluo22/jianying-editor-skill^[1]

它的核心作用是什麼？

這個項目最有代表性的點，是它不是重新做一個視頻編輯器，而是把剪映專業版當成底層執行環境。

也就是說，它的目標不是替代剪映，而是讓 AI Agent 幫你把大量重複的編輯動作自動完成：

素材導入
時間軸排列
配音生成
自動字幕
配樂選擇
特效/轉場/濾鏡應用
HTML/Canvas 動效轉視頻素材
錄屏與智能變焦
影視解說視頻生成
最終導出 MP4

這類能力的價值很直接：

它把“自然語言 -> 剪映項目結構”的轉換打通了。

對於大量使用剪映的創作者來說，這非常重要。因為真正耗時的部分，往往不是“剪映不會做”，而是你要不斷重複點擊、試錯、調整、堆時間軸。

它更適合什麼場景？

更適合以下場景：

短視頻批量製作
圖文轉視頻
解說視頻模板化生產
錄屏教程類視頻
需要保留剪映現有生態（特效庫、素材庫、導出體驗）的團隊

它的專業優勢

它最大的優勢不是算法，而是工程連接能力強：

對接成熟桌面編輯器
功能覆蓋面廣
對非專業開發者更友好
可以沿用剪映已有工作習慣

它的限制也很明確

項目自己也講得比較坦誠：

它不是剪映替代品，渲染和預覽仍依賴剪映本身
剪映部分實時 GPU 能力無法通過代碼直接調用
並不是所有剪映 UI 都能自動化觸發
自動導出依賴舊版本（5.9 及以下）
不支持手機端

所以它更像：

“面向現有剪映生態的自動化外掛層”，而不是一個純粹獨立的視頻 AI 引擎。

二、`videocut-skills`：把口播剪輯從“時間軸操作”升級成“語義審核”

項目地址：

https://github.com/Ceeon/videocut-skills^[2]

它的核心作用是什麼？

如果說 jianying-editor-skill 強在“自動搭時間軸”，那 videocut-skills 強在“自動識別哪裏該剪”。

這個項目非常聚焦：專門解決口播視頻剪輯中的語義問題。

它瞄準的是傳統工具經常處理不好的兩類問題：

說錯以後重新說一遍
重複句、卡頓、語氣詞、長靜音

它不是隻做波形檢測，而是把語義理解引入剪輯決策：

AI 逐句分析內容
標記重說/糾正/重複
靜音檢測
句內重複識別
自定義詞典糾錯
審核頁人工確認
FFmpeg 自動執行剪輯

它為什麼專業？

因為它解決的不是“剪輯軟件有無按鈕”，而是口播視頻的內容質量控制。

很多創作者的真實痛點不是不會加轉場，而是：

19 分鐘講稿裏有大量口誤
專業術語字幕識別錯誤
哪句該刪、哪句該留很費時間
一遍遍看回放做人工挑錯極其耗精力

videocut-skills 的價值就是把這些“人工審核負擔”前移給 AI。

它更適合什麼場景？

特別適合：

知識口播
教程錄製
產品演示講解
播客視頻化
開發者內容創作

它與傳統剪映思路最大的不同

傳統剪輯工具更多是“你來判斷，我來執行”。

而這個項目更像：

“AI 先做內容級審稿，再讓你做最終確認。”

這意味着它在“口播清洗”這件事上，比通用桌面編輯自動化更垂直，也更容易做出穩定收益。

它的邊界

它的邊界同樣清晰：

偏口播，不是全品類視頻生產平台
強項在審核與裁剪，不是複雜視覺包裝
依賴轉錄質量、詞典質量與審核流程設計

所以它不是“萬能視頻 Agent”，而是一個非常強的垂直口播剪輯 Skill。

三、`Youtube-clipper-skill`：把長視頻拆成可傳播片段

項目地址：

https://github.com/op7418/Youtube-clipper-skill^[3]

它的核心作用是什麼？

這個項目瞄準的是另一類高頻任務：

一條長視頻，如何快速變成多個短片段、雙語字幕和可傳播內容？

它的能力組合很典型：

下載 YouTube 視頻
基於語義生成細粒度章節
精準切片
中英雙語字幕翻譯
字幕燒錄
自動生成社媒內容

這裏面最值得注意的不是“下載視頻”，而是語義章節生成與切片邏輯。

這意味着它不是機械地每 3 分鐘切一刀，而是嘗試理解內容結構後再切。

它解決的真實問題

內容創作者常見需求是：

從播客/訪談/演講中提取適合傳播的片段
做中英文雙語內容分發
把長內容拆成適合小紅書、視頻號、公眾號、抖音的二次素材

Youtube-clipper-skill 本質上是在做：

長視頻的“語義切片 + 多平台再包裝”。

它更適合什麼場景？

適合：

海外視頻搬運與研究
播客精華切片
演講內容再分發
長視頻內容矩陣運營
雙語字幕視頻生產

它的專業特點

它比一般字幕工具更進一步，因為它把幾個環節串成了閉環：

內容理解
結構切分
視頻截取
字幕翻譯
視覺輸出
社媒文案生成

這讓它更接近“內容再加工流水線”，而不是單點工具。

它的侷限

但也要看到，它主要還是圍繞 YouTube 或長視頻切片生態展開：

對原生拍攝型複雜剪輯幫助有限
對重視覺設計、複雜包裝不算強項
更偏內容拆解而非從零創作

四、`bibigpt-skill`：把視頻、音頻、播客變成可消費知識

項目地址：

https://github.com/JimmyLv/bibigpt-skill^[4]

它的核心作用是什麼？

如果前面的 Youtube-clipper-skill 更偏視頻切片，那麼 bibigpt-skill 更偏內容理解與知識轉寫。

這個項目圍繞 BibiGPT CLI / API 構建，把視頻、音頻、播客等內容轉成：

AI 摘要
分章節總結
原始字幕/轉錄
文章改寫
批量處理結果
多源綜合分析
筆記導出
畫面分析

它本質上是把“多媒體內容理解”做成了 Agent 可調用工作流。

它與前者最大的差異

Youtube-clipper-skill 更像“從視頻中切出可傳播片段”；

bibigpt-skill 更像“從視頻中提取可複用知識”。

換句話說：

前者偏視頻生產再利用
後者偏信息提煉與內容重寫

為什麼它值得單獨看？

因為它非常貼近內容運營的真實鏈路。

很多團隊不是非得先做視頻，而是更關心：

這條視頻講了什麼
能不能快速出公眾號文章
能不能形成研究簡報或學習筆記
能不能多連結綜合對比
能不能輸出到 Notion / Obsidian / 本地文件

所以它是一個明顯偏“知識中台”的視頻 Skill。

它更適合什麼場景？

適合：

視頻轉圖文
播客轉文章
行業內容監測
批量總結學習資料
多視頻主題研究
知識庫沉澱

它的專業定位

它不是一個剪輯器，也不是一個視覺視頻生成器，而是：

視頻/音頻內容理解層 + Agent 工作流分發器。

這讓它特別適合作為上游能力，接到圖文生產、研究分析、知識管理鏈路上。

五、`narrator-ai-cli-skill`：把“電影解說”做成一條完整產品流水線

項目地址：

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md^[5]

它的核心作用是什麼？

這個項目非常典型，它不是想做一個通用視頻引擎，而是直接定義了一個具體結果：

幫你做電影解說視頻。

而且不是隻給一個 API，它是把整條鏈路打包了：

搜索影片
選擇模板
選擇 BGM
選擇配音
生成文案
合成視頻
返回下載連結

同時還區分：

二創文案（爆款學習）
原創文案（快速模式）
熱門影視 / 原聲混剪 / 冷門新劇等創作模式

它為什麼重要？

因為它代表的是另一種 Skill 方向：

不是讓 Agent 學會一堆零散視頻技能，而是直接把垂直行業 SOP 做成可調用產品。

這一點和 videocut-skills 這種偏流程增強型項目不一樣。

它更像“專業服務接口化”：

有資源庫
有模板庫
有風格模板
有完整 API 錯誤處理
有成本預估
有數據流映射

這說明它更接近商業級視頻生成服務，而不僅僅是開源工具拼裝。

它更適合什麼場景？

適合：

電影解說賬號
娛樂內容批量生產
二創內容工廠
已有 Narrator AI 能力接入條件的團隊

它的優勢與限制

優勢：

完整度高
上手路徑清晰
垂直場景非常明確
從文案到成片鏈路閉環完整

限制：

場景相對收束，不是通用型視頻 Skill
對外部平台/服務與 API Key 有依賴
靈活度通常不如純編排型工具

所以它更像“成熟工廠接口”，不是“通用積木箱”。

六、`remotion-dev/skills`：Remotion 團隊自己的 Agent 技能倉庫

項目地址：

https://github.com/remotion-dev/skills^[6]

它的核心作用是什麼？

目前公開可見資料不多，倉庫說明也比較少，但從命名與歸屬可以看出，它對應的是 Remotion 官方/團隊側的 Agent Skills 方向探索。

這類項目的意義不在於直接提供一個現成視頻工作流，而在於：

把 Remotion 相關能力整理為 Skill 形式
讓 Agent 更容易理解 Remotion 項目結構
為後續代碼生成、動畫編排、組合管理提供基礎支持

它更像什麼？

它更像一個“能力容器”或“內部技能倉庫”，而不是單獨面向終端創作者的完整產品。

也正因為公開信息不算完整，所以看這個倉庫時，更應該把它理解為一個信號：

編程式視頻工具鏈，正在主動擁抱 Agent 化。

這件事的行業意義其實很大。

因為當 Remotion 這種代碼驅動視頻方案開始進入 Skill 體系，就意味着 AI 不只是“幫你剪一條視頻”，而是在嘗試：

寫視頻工程代碼
改動畫邏輯
接素材與字幕
生成合成配置
調整 composition 與 metadata

這會把視頻生產，從“工具操作”帶向“工程生成”。

七、`remotion-best-practices`：讓 Agent 在 Remotion 世界裏少犯錯

項目地址：

https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md^[7]

它的核心作用是什麼？

如果說 remotion-dev/skills 更像能力方向，那麼 remotion-best-practices 更像規則手冊。

它不是一個成品視頻工具，而是一套面向 Agent 的 Remotion 領域知識說明。

從公開內容看，它覆蓋了很多關鍵規則主題：

3D 內容
動畫基礎
資源導入
音頻處理
動態 metadata
解碼檢查
圖表可視化
compositions 管理
字幕展示
視頻抽幀

它為什麼專業價值很高？

因為 Remotion 這類工具的難點，往往不是“能不能寫出代碼”，而是：

代碼是否符合框架約定
資源導入方式是否正確
時長、尺寸、props 是否聯動合理
音頻/字幕/幀處理是否踩坑
複雜動畫是否具備可維護性

對 Agent 來說，沒有這些規則，最容易發生的就是：

代碼看起來像對的，但跑不起來
組合關係混亂
視頻可渲染性差
修改一處，其他地方全壞

所以這個 Skill 的真正價值是：

把“Remotion 經驗”顯式化，讓 Agent 在生成代碼前先獲得行業規則。

它更適合什麼場景？

適合：

用 Agent 寫 Remotion 視頻項目
做模板化視頻生成系統
自動化字幕視頻、圖表視頻、3D 視頻
團隊沉澱 Remotion 開發規範

八、專業對比：這 7 個項目到底差在哪？

下面直接做一個面向實戰的比較。

1. 從“產物類型”看

偏成片執行

jianying-editor-skill
videocut-skills
narrator-ai-cli-skill

這一類最終追求的是直接得到一個視頻成品或接近成品。

偏內容拆解與再利用

Youtube-clipper-skill
bibigpt-skill

這一類更強調從已有內容中提取片段、字幕、摘要、文章、知識結構。

偏工程能力與規則底座

remotion-dev/skills
remotion-best-practices

這一類不直接給你一個成片流水線，而是讓 Agent 能更可靠地構建視頻工程。

2. 從“自動化深度”看

最接近端到端生產

narrator-ai-cli-skill
jianying-editor-skill

前者偏垂直解說成片，後者偏通用桌面編輯執行。

最接近半自動審核流

videocut-skills

它保留人工審核節點，這是非常實際的設計，因為口播剪輯最怕“AI 誤刪”。

最接近內容再編排流

Youtube-clipper-skill
bibigpt-skill

它們更像“信息與素材重組器”。

最接近知識約束流

remotion-best-practices

重點不是執行任務，而是約束 Agent 的生成質量。

3. 從“適用用戶”看

適合普通創作者

jianying-editor-skill
narrator-ai-cli-skill

因為結果導向明確，上手路徑也更直觀。

適合知識型創作者 / 開發者內容創作者

videocut-skills
Youtube-clipper-skill
bibigpt-skill

這些更適合對內容質量、語義結構、再分發效率有要求的人。

適合技術團隊 / 工作流搭建者

remotion-dev/skills
remotion-best-practices

因為它們更偏工程方法，不是輕量即用型工具。

4. 從“核心壁壘”看

工具集成壁壘

jianying-editor-skill

核心壁壘在於能不能穩定驅動剪映生態。

語義審核壁壘

videocut-skills

核心壁壘在於能不能真正理解口播內容並做出可靠裁剪建議。

長內容結構化壁壘

Youtube-clipper-skill
bibigpt-skill

核心壁壘在於內容理解、章節拆分、摘要重寫與多格式輸出。

垂直行業 SOP 壁壘

narrator-ai-cli-skill

核心壁壘在於資源庫、模板庫、風格庫和服務鏈路完整度。

工程規範壁壘

remotion-best-practices
remotion-dev/skills

核心壁壘在於把複雜視頻工程經驗沉澱為 Agent 可用規則。

九、如果你要自己搭視頻 Agent，最值得借鑑的不是“功能”，而是“分層方式”

很多人看這類項目時，會先問：

哪個最強？
哪個能一把梭？
哪個能全自動？

但真正更值得借鑑的，其實是它們背後的分層思路。

第一類：執行器型 Skill

特點是直接操縱工具或流程，例如：

剪映自動化
FFmpeg 自動裁剪
視頻合成 API 調用

第二類：理解器型 Skill

特點是負責語義理解、轉錄、摘要、章節劃分、腳本生成。

第三類：規則型 Skill

特點是不給你直接結果，而是幫助 Agent 在複雜工程裏少犯錯。

第四類：產品化工作流 Skill

特點是圍繞單一場景，把資源、模板、API、錯誤處理都打包好。

真正成熟的視頻 Agent，往往不是隻靠其中一類，而是這幾類組合起來：

用理解器分析內容
用執行器完成處理
用規則型 Skill 保證工程質量
用產品化工作流加速特定場景

從這個角度看，這 7 個項目最大的價值，不只是“各自能做什麼”，而是它們已經把下一代視頻 Agent 的形態提前演示出來了。

十、最後判斷：視頻 Agent 正從“單點能力”進入“技能編排時代”

如果把這批項目放在一起看，我的判斷是：

視頻 Agent 的競爭，正在從“誰能調一個模型”轉向“誰能把內容理解、工具執行、工程規則、垂直場景封裝成可複用技能”。

這意味着未來比拼的重點會變成：

Skill 能不能複用
工作流能不能組合
Agent 能不能在多步任務中保持穩定
人工審核節點放在哪裏最合理
不同層能力之間是否解耦

從落地價值看：

如果你要提高視頻生產效率，優先看 jianying-editor-skill 和 videocut-skills
如果你要做長內容拆解與多平台再利用，優先看 Youtube-clipper-skill 和 bibigpt-skill
如果你要做電影解說垂直流水線，重點看 narrator-ai-cli-skill
如果你要做編程式視頻與視頻工程 Agent，重點看 remotion-dev/skills 和 remotion-best-practices

這也是我覺得這組項目最值得關注的原因：

它們不是在重複做“AI 視頻”，而是在分別補齊視頻 Agent 體系裏不同層的空白。

對於創作者來說，這意味着更高效的生產方式；

對於開發者和團隊來說，這意味着視頻自動化終於開始有了清晰的軟件分層結構。

參考來源

https://github.com/luoluoluo22/jianying-editor-skill^[8]
https://github.com/Ceeon/videocut-skills^[9]
https://github.com/op7418/Youtube-clipper-skill^[10]
https://github.com/remotion-dev/skills^[11]
https://github.com/JimmyLv/bibigpt-skill^[12]
https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md^[13]
https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md^[14]

聲明

本文由山行整理自：https://github.com/luoluoluo22/jianying-editor-skill^[15] 、https://github.com/Ceeon/videocut-skills^[16] 、https://github.com/op7418/Youtube-clipper-skill^[17] 、https://github.com/remotion-dev/skills^[18] 、https://github.com/JimmyLv/bibigpt-skill^[19] 、https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md^[20] 、https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md^[21] ，如果對您有幫助，請幫忙點贊、關注、收藏，謝謝～

引用連結

[1]https://github.com/luoluoluo22/jianying-editor-skill

[2]https://github.com/Ceeon/videocut-skills

[3]https://github.com/op7418/Youtube-clipper-skill

[4]https://github.com/JimmyLv/bibigpt-skill

[5]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[6]https://github.com/remotion-dev/skills

[7]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[8]https://github.com/luoluoluo22/jianying-editor-skill

[9]https://github.com/Ceeon/videocut-skills

[10]https://github.com/op7418/Youtube-clipper-skill

[11]https://github.com/remotion-dev/skills

[12]https://github.com/JimmyLv/bibigpt-skill

[13]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[14]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[15]https://github.com/luoluoluo22/jianying-editor-skill

[16]https://github.com/Ceeon/videocut-skills

[17]https://github.com/op7418/Youtube-clipper-skill

[18]https://github.com/remotion-dev/skills

[19]https://github.com/JimmyLv/bibigpt-skill

[20]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[21]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

點解而家視頻 Agent 開始集體長出「技能層」？

7 個項目實際上分成 4 個層級

逐個項目睇：能力邊界與落地差異

專業對比：7 個項目到底差喺邊？

如果你要自己搭視頻 Agent，最值得借鑑嘅係「分層方式」

一次過睇曬7個視頻合成Skills

如果你最近有留意 AI 視頻生產、Agent 技能系統、自動化剪輯、Remotion 程式式視頻，呢組項目好值得一次過睇曬。

為咗避免撈亂曬，我先畀一個專業分類。

口播視頻嘅語義識別、問題標記同 FFmpeg 剪輯執行

將視頻變成字幕、摘要、雙語內容、公眾號圖文、社交媒體文案

佢更加似「直接叫一個成熟嘅視頻工廠」。

一、jianying-editor-skill頭三層係「做視頻任務」，第四層係「令 Agent 學識做視頻工程」。

https://github.com/luoluoluo22/jianying-editor-skill

你要不停重複撳掣、試錯、調整、堆時間軸

需要保留剪映現有生態（特效庫、素材庫、匯出體驗）嘅團隊

可以沿用剪映已有嘅工作習慣

二、videocut-skills「面向現有剪映生態嘅自動化外掛層」

https://github.com/Ceeon/videocut-skills

FFmpeg 自動執行剪輯

嘅價值就係將呢啲「人工審核負擔」提前交畀 AI。

開發者內容創作

呢個意味住喺「口播清洗」呢件事上，佢比通用桌面編輯自動化更加垂直，亦都更容易做到穩定嘅回報。

三、Youtube-clipper-skill好強嘅垂直口播剪輯 Skill

https://github.com/op7418/Youtube-clipper-skill

呢個意味住唔係機械咁每3分鐘切一刀，而係嘗試理解內容結構之後再切。

長視頻嘅「語義切片 + 多平台再包裝」

雙語字幕視頻生產

呢個令佢更接近「內容再加工流水線」，而唔係單點工具。

四、bibigpt-skill比較偏向內容拆解而唔係由零創作

https://github.com/JimmyLv/bibigpt-skill

佢本質上係將「多媒體內容理解」做成 Agent 可以調用嘅工作流程。

後者偏向資訊提煉同內容重寫

所以佢係一個明顯偏向「知識中台」嘅視頻 Skill。

知識庫沉澱

五、narrator-ai-cli-skill呢個令佢特別適合做上游能力，駁到圖文生產、研究分析、知識管理鏈路上面。

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

熱門影視 / 原聲混剪 / 冷門新劇 等創作模式

商業級視頻生成服務

已經有 Narrator AI 能力接入條件嘅團隊

六、remotion-dev/skills所以佢更加似「成熟工廠介面」，唔係「通用積木箱」。

https://github.com/remotion-dev/skills

為後續程式碼生成、動畫編排、組合管理提供基礎支援

七、remotion-best-practices呢個會將視頻生產，由「工具操作」帶向「工程生成」。

https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

視頻抽幀

將「Remotion 經驗」顯式化，令 Agent 喺生成程式碼之前先獲得行業規則。

團隊沉澱 Remotion 開發規範

下面直接做一個面向實戰嘅比較。

1. 從「產物類型」睇

呢一類最終追求嘅係直接得到一個視頻成品或者接近成品。

呢一類更加強調從現有內容入面抽出片段、字幕、摘要、文章、知識結構。

呢一類唔直接畀你一個成品流水線，而係令 Agent 可以更可靠咁建立視頻工程。

2. 從「自動化深度」睇

前者偏向垂直解說成品，後者偏向通用桌面編輯執行。

佢保留人工審核節點，呢個係好實際嘅設計，因為口播剪輯最怕「AI 誤刪」。

佢哋更加似「資訊同素材重組器」。

重點唔係執行任務，而係約束 Agent 嘅生成質素。

3. 從「適用用戶」睇

因為結果導嚮明確，上手路徑亦都更直觀。

呢啲更適合對內容質素、語義結構、再分發效率有要求嘅人。

因為佢哋更加偏向工程方法，唔係輕量即用型工具。

4. 從「核心壁壘」睇

核心壁壘在於可唔可以穩定驅動剪映生態。

核心壁壘在於可唔可以真正理解口播內容並做出可靠嘅裁剪建議。

核心壁壘在於內容理解、章節拆分、摘要重寫同多格式輸出。

核心壁壘在於資源庫、模板庫、風格庫同服務鏈路完整度。

核心壁壘在於將複雜嘅視頻工程經驗沉澱成 Agent 可用嘅規則。

但真正更加值得參考嘅，其實係佢哋背後嘅分層思維。

視頻合成 API 調用

特點係負責語義理解、轉錄、摘要、章節劃分、劇本生成。

特點係唔畀你直接結果，而係幫 Agent 喺複雜工程入面少犯錯。

從呢個角度睇，呢7個項目最大嘅價值，唔單止係「各自做到啲乜」，而係佢哋已經將下一代視頻 Agent 嘅形態提前示範咗出嚟。

視頻自動化終於開始有咗清晰嘅軟件分層結構

聲明

[21]

為什麼視頻 Agent 開始集體長出“技能層”？7 個視頻技能項目的能力邊界與落地差異

先說結論：這 7 個項目，實際上分成了 4 個層級

1）桌面剪輯執行層

2）內容切片與二次分發層

3）成片流水線封裝層

一、`jianying-editor-skill`頭三層係「做視頻任務」，第四層係「令 Agent 學識做視頻工程」。

二、`videocut-skills`「面向現有剪映生態嘅自動化外掛層」

三、`Youtube-clipper-skill`好強嘅垂直口播剪輯 Skill

四、`bibigpt-skill`比較偏向內容拆解而唔係由零創作

五、`narrator-ai-cli-skill`呢個令佢特別適合做上游能力，駁到圖文生產、研究分析、知識管理鏈路上面。

熱門影視 / 原聲混剪 / 冷門新劇等創作模式

六、`remotion-dev/skills`所以佢更加似「成熟工廠介面」，唔係「通用積木箱」。

七、`remotion-best-practices`呢個會將視頻生產，由「工具操作」帶向「工程生成」。

一、`jianying-editor-skill`：把剪映桌面端變成 Agent 的執行器

二、`videocut-skills`：把口播剪輯從“時間軸操作”升級成“語義審核”

三、`Youtube-clipper-skill`：把長視頻拆成可傳播片段

四、`bibigpt-skill`：把視頻、音頻、播客變成可消費知識

五、`narrator-ai-cli-skill`：把“電影解說”做成一條完整產品流水線

六、`remotion-dev/skills`：Remotion 團隊自己的 Agent 技能倉庫

七、`remotion-best-practices`：讓 Agent 在 Remotion 世界裏少犯錯