一覽7 個視頻合成Skills

作者:山行AI
日期:2026年4月20日 下午12:39
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

7 個視頻合成 Skills 大檢閲:從剪映自動化到 Remotion 規則,AI 視頻 Agent 嘅進化路徑

整理版摘要

呢篇文章係由山行整理,佢綜合睇咗 7 個開源嘅視頻相關 Agent Skill 項目,唔係單純介紹功能,而係想拆解每個項目喺視頻工作鏈入面嘅定位、能力邊界同埋適用場景。

作者認為呢批項目嘅出現,代表 AI 正喺度由「識寫提示詞」進化成「識操控視頻工作流」。佢將 7 個項目分成 4 個層級:桌面剪輯執行層、內容切片與二次分發層、成片流水線封裝層、編程式視頻能力層。整體結論係:視頻 Agent 嘅競爭,正正由「單點能力」轉向「技能編排時代」,未來比拼嘅係 Skills 可唔可以重用、工作流可唔可以組合、Agent 喺多步任務入面穩唔穩定。

對創作者同開發者嚟講,呢組項目最大價值唔係邊個最強,而係揭示咗下一代視頻 Agent 嘅分層結構,令自動化剪輯開始有清晰嘅軟件架構思路。

  • 7 個項目可分成 4 層:桌面剪輯執行層、內容切片分發層、成片流水線封裝層、編程式視頻能力層,各有唔同嘅自動化深度同適用對象。
  • jianying-editor-skill 同 videocut-skills 分別代表「自動搭時間軸」同「語義審核」兩大方向,前者靠工程連接,後者靠內容理解。
  • Youtube-clipper-skill 同 bibigpt-skill 偏向內容拆解同知識提取,唔係從零做片,而係將長視頻重組為短片、字幕、摘要同圖文。
  • narrator-ai-cli-skill 係垂直行業 SOP 產品化嘅例子,電影解說一條龍,有資源庫、模板同錯誤處理,似「成熟工廠接口」。
  • remotion-dev/skills 同 remotion-best-practices 代表工程規範層,幫助 Agent 減少寫錯代碼,確保組合邏輯同渲染可執行。
值得記低
連結 github.com

jianying-editor-skill

將剪映桌面端變成 Agent 執行器,自動處理素材導入、時間軸、配音字幕、特效等。

連結 github.com

videocut-skills

口播視頻嘅語義審核同自動剪輯,識別重複句、卡頓、錯誤後標記畀人工確認。

連結 github.com

Youtube-clipper-skill

長視頻語義切片、雙語字幕、社媒內容生成,適合播客精華分發。

連結 github.com

bibigpt-skill

將視頻/音頻轉成摘要、字幕、文章,適合知識提取同內容運營。

整理重點

點解而家視頻 Agent 開始集體長出「技能層」?

最近呢批視頻相關嘅 Agent Skill 項目,已經唔止係「幫你調一個模型」咁簡單。佢哋開始將視頻處理鏈路拆成 可調用、可組合、可複用 嘅技能單元。有人將剪映桌面端變成自動化執行器,有人專注口播剪輯嘅半自動審核流,有人將 YouTube 切片同雙語字幕整合,仲有人將視頻總結、電影解說、Remotion 代碼生產都納入 Skill 體系。

整理重點

7 個項目實際上分成 4 個層級

為咗避免將佢哋混為一談,作者先畀咗一個專業劃分:桌面剪輯執行層、內容切片與二次分發層</highlight-inline>、成片流水線封裝層</highlight-inline>、編程式視頻能力層</highlight-inline>。

  1. 1 桌面剪輯執行層:代表係 jianying-editor-skill 同 videocut-skills。前者驅動剪映完成整套編輯動作,後者專注口播語義識別同問題標註。
  2. 2 內容切片與二次分發層:代表係 Youtube-clipper-skill 同 bibigpt-skill。重點係將長視頻拆成片段、字幕、摘要、社媒文案,唔係從零做片。
  3. 3 成片流水線封裝層:代表係 narrator-ai-cli-skill。將成條電影解說生產流水線產品化,似「直接調一個成熟視頻工廠」。
  4. 4 編程式視頻能力層:代表係 remotion-dev/skills 同 remotion-best-practices。唔係工作流,而係 Agent 維修 Remotion 視頻代碼嘅知識、規則同工程方法論。

一句話總結:前三層係「做視頻任務」,第四層係「讓 Agent 學會做視頻工程」。呢個分層對之後搭建視頻 Agent 好有參考價值。

整理重點

逐個項目睇:能力邊界與落地差異

第一個係 jianying-editor-skill</highlight-inline>,佢將剪映專業版當成底層執行環境,目標唔係取代剪映,而係用 AI 自動完成重複編輯動作:素材導入、時間軸排列、配音、配樂、特效、字幕、導出 MP4。最大優勢係 工程連接能力強</highlight-inline>,對非開發者友好,可以沿用剪映工作習慣。但限制係依賴舊版剪映、部分 GPU 功能無法代碼調用、唔支援手機端。

  • 適合場景:短視頻批量製作、圖文轉視頻、解說視頻模板化、錄屏教程。
  • 本質係「面向現有剪映生態嘅自動化外掛層」,唔係獨立視頻引擎。

第二個係 videocut-skills</highlight-inline>,佢專門解決口播視頻嘅語義問題:說錯重講、重複句、卡頓、語氣詞、長靜音。唔係做波形檢測,而係 將語義理解引入剪輯決策</highlight-inline>。AI 逐句分析,標記重說/糾正/重複,畀人工確認後用 FFmpeg 自動剪。好處係將「人工審核負擔」前移畀 AI,特別適合知識口播、教程錄製。邊界係偏口播,唔係全品類,強項係審核同裁剪,唔係複雜視覺包裝。

第三個係 Youtube-clipper-skill</highlight-inline>,佢將長視頻基於語義生成章節、精準切片、雙語字幕、社媒文案。核心係 <highlight-inline>語義章節生成與切片邏輯</highlight-inline>,唔係機械式計時切。適合海外視頻搬運、播客精華切片、雙語內容生產。但對原生拍攝剪輯幫助有限,偏內容拆解唔係從零創作。

第四個係 bibigpt-skill</highlight-inline>,佢圍繞 BibiGPT API,將視頻/音頻轉成摘要、章節總結、原始字幕、文章改寫、筆記導出。同 Youtube-clipper-skill 最大差異係:<highlight-inline>前者偏視頻生產再利用,後者偏信息提煉與內容重寫</highlight-inline>。佢係個明顯偏「知識中台」嘅 Video Skill,適合內容營運、學習資料批量總結。

第五個係 narrator-ai-cli-skill</highlight-inline>,直接將電影解說生產鏈打包:搜片、選模板、選 BGM、選配音、生成文案、合成影片、返回下載連結。仲分兩創同原創模式。代表另一種方向:<highlight-inline>將垂直行業 SOP 做成可調用產品</highlight-inline>。佢有資源庫、模板庫、API 錯誤處理、成本預估,更接近商業級服務,唔係開源拼裝。限制係場景侷限,對外部平台同 API Key 有依賴。

第六個係 remotion-dev/skills</highlight-inline>,目前公開資料少,但從命名睇係 Remotion 官方嘅 Agent Skills 方向探索。佢嘅意義係信號:<highlight-inline>編程式視頻工具鏈正主動擁抱 Agent 化</highlight-inline>。第七個係 remotion-best-practices</highlight-inline>,一套面向 Agent 嘅 Remotion 領域知識說明,覆蓋 3D、動畫、資源導入、音頻、字幕、compositions 等關鍵規則。對 Agent 嚟講,呢啲規則防止佢寫出「睇落似啱但跑唔起」嘅代碼,係 <highlight-inline>將 Remotion 經驗顯式化</highlight-inline>。

整理重點

專業對比:7 個項目到底差喺邊?

從產物類型睇,偏成片執行</highlight-inline> 嘅有 jianying-editor、videocut 同 narrator-ai;偏內容拆解再利用</highlight-inline> 嘅有 Youtube-clipper 同 bibigpt;偏工程能力與規則底座</highlight-inline> 嘅有 remotion dev/skills 同 best-practices。

從自動化深度睇,端到端最接近嘅係 narrator-ai 同 jianying-editor;半自動審核流係 videocut(保留人工確認);內容再編排流係 Youtube-clipper 同 bibigpt;知識約束流係 remotion-best-practices。

從適用用戶睇:普通創作者</highlight-inline> 適合 jianying-editor 同 narrator-ai;知識型創作者/開發者</highlight-inline> 適合 videocut、Youtube-clipper 同 bibigpt;技術團隊/工作流搭建者</highlight-inline> 適合 remotion 系列。核心壁壘方面:剪映集成靠工程連接穩定度;語義審核靠口播內容理解準確度;長內容結構化靠章節拆分同摘要質量;垂直行業 SOP 靠資源庫同服務鏈路完整度;工程規範靠經驗沉澱成規則。

整理重點

如果你要自己搭視頻 Agent,最值得借鑑嘅係「分層方式」

好多人睇呢類項目會問邊個最強、邊個能全自動,但作者認為更值得借鑑嘅係背後嘅 分層思路</highlight-inline>:執行器型、理解器型、規則型、產品化工作流型。

最後總結:如果想提高視頻生產效率,優先睇 jianying-editor-skill</highlight-inline> 同 videocut-skills</highlight-inline>;想做長內容拆解與多平台再利用,睇 Youtube-clipper-skill</highlight-inline> 同 bibigpt-skill</highlight-inline>;想做電影解說垂直流水線,睇 narrator-ai-cli-skill</highlight-inline>;想做編程式視頻與工程 Agent,睇 remotion-dev/skills</highlight-inline> 同 remotion-best-practices</highlight-inline>。

一次過睇曬7個視頻合成Skills

點解視頻 Agent 開始全部都有「技能層」?7個視頻技能項目嘅能力邊界同落地分別

最近呢堆視頻相關嘅 Agent Skill 項目,已經唔止係「幫你調一個模型」咁簡單。:有人將剪映桌面版變成自動化執行器,有人將口播剪輯變成半自動審核流程,有人專注做 YouTube 切片同雙語字幕,有人將視頻總結、電影解說、Remotion 程式碼生產都納入 Skill 系統。佢哋開始將

視頻處理鏈路拆成可以調用、可以組合、可以重用嘅技能單元呢個背後其實係一個好明確嘅變化:

AI 正喺度由「識寫提示詞」進化到「識操作視頻工作流程」

  • 呢篇文章,我將7個項目擺埋一齊睇,唔單止介紹「佢哋做到啲乜」,仲會重點分析:
  • 佢哋分別解決嘅係視頻鏈路入面邊一段
  • 邊啲似「生產工具」,邊啲似「能力基礎」
  • 邊啲適合個人創作者,邊啲更適合團隊或者工作流程整合

如果你想建立自己嘅視頻 Agent,應該優先參考邊一類

如果你最近有留意 AI 視頻生產、Agent 技能系統、自動化剪輯、Remotion 程式式視頻,呢組項目好值得一次過睇曬。

先講結論:呢7個項目,實際上分咗做4個層級

為咗避免撈亂曬,我先畀一個專業分類。

1)桌面剪輯執行層

  • jianying-editor-skill
  • videocut-skills

代表項目:

呢一層直接面向「剪視頻」呢個動作。

  • 分別在於:一個更加強調
  • 驅動剪映桌面版完成整套編輯動作一個更加強調

口播視頻嘅語義識別、問題標記同 FFmpeg 剪輯執行

2)內容切片同二次分發層

  • Youtube-clipper-skill
  • bibigpt-skill

代表項目:

呢一層更關注「現有視頻內容點樣拆解、總結、改寫、再生產」。

  • 佢哋面向嘅唔係由零開始整片,而係:
  • 將長視頻切成可以傳播嘅片段

將視頻變成字幕、摘要、雙語內容、公眾號圖文、社交媒體文案

3)成品流水線封裝層

  • narrator-ai-cli-skill

代表項目:呢一層嘅價值唔在於「可以自由拼砌」,而在於

將一整條電影解說生產流水線產品化

佢更加似「直接叫一個成熟嘅視頻工廠」。

4)程式式視頻能力層

  • remotion-dev/skills
  • remotion-best-practices

代表項目:呢一層唔係某個成品工作流程,而係

圍繞 Remotion 嘅知識、規則同工程方法

佢解決嘅係:當 Agent 要生成、修改、維護 Remotion 視頻程式碼時,點樣少走彎路、少寫錯程式碼、建立可靠嘅工程約束。

一句講曬:


一、jianying-editor-skill頭三層係「做視頻任務」,第四層係「令 Agent 學識做視頻工程」。

:將剪映桌面版變成 Agent 嘅執行器

  • 項目地址:[1]

https://github.com/luoluoluo22/jianying-editor-skill

佢嘅核心作用係乜?呢個項目最有代表性嘅地方,係佢唔係重新做一個視頻編輯器,而係

將剪映專業版當成底層執行環境

  • 即係話,佢嘅目標唔係取代剪映,而係令 AI Agent 幫你將大量重複嘅編輯動作自動完成:
  • 素材導入
  • 時間軸排列
  • 配音生成
  • 自動字幕
  • 配樂選擇
  • 特效/轉場/濾鏡應用
  • HTML/Canvas 動效轉視頻素材
  • 錄屏同智能變焦
  • 影視解說視頻生成

最終匯出 MP4

呢類能力嘅價值好直接:

佢將「自然語言 -> 剪映項目結構」嘅轉換打通咗。對於大量使用剪映嘅創作者嚟講,呢個好重要。因為真正花時間嘅地方,往往唔係「剪映唔識做」,而係

你要不停重複撳掣、試錯、調整、堆時間軸

佢更適合咩場景?

  • 更適合以下場景:
  • 短視頻批量製作
  • 圖文轉視頻
  • 解說視頻模板化生產
  • 錄屏教學類視頻

需要保留剪映現有生態(特效庫、素材庫、匯出體驗)嘅團隊

佢嘅專業優勢佢最大嘅優勢唔係演算法,而係

  • 工程連接能力強
  • 對接成熟桌面編輯器
  • 功能覆蓋面廣
  • 對非專業開發者更友好

可以沿用剪映已有嘅工作習慣

佢嘅限制都好清楚

  • 項目自己都講得好坦白:
  • 佢唔係剪映嘅代替品,渲染同預覽仍然要靠剪映本身
  • 剪映部份實時 GPU 能力冇辦法直接經程式碼調用
  • 唔係所有剪映 UI 都可以自動化觸發
  • 自動匯出依賴舊版本(5.9 或以下)

唔支援手機端

,而唔係一個完全獨立嘅視頻 AI 引擎。所以佢更加似:


二、videocut-skills「面向現有剪映生態嘅自動化外掛層」

:將口播剪輯由「時間軸操作」升級做「語義審核」

  • 項目地址:[2]

https://github.com/Ceeon/videocut-skills

如果說 jianying-editor-skill 佢嘅核心作用係乜? videocut-skills 強項係「自動搭時間軸」,而

強項係「自動識別邊度要剪」。呢個項目非常集中:

專門解決口播視頻剪輯入面嘅語義問題

  1. 佢瞄準嘅係傳統工具成日處理唔好嘅兩類問題:
  2. 講錯之後重新講一次

重複句、口窒、語氣詞、長靜音

  • 佢唔係淨係做波形檢測,而係將語義理解引入剪輯決策:
  • AI 逐句分析內容
  • 標記重講/糾正/重複
  • 靜音檢測
  • 句內重複識別
  • 自定義詞典糾錯
  • 審核頁人工確認

FFmpeg 自動執行剪輯

佢點解專業?因為佢解決嘅唔係「剪輯軟件有冇按鈕」,而係

口播視頻嘅內容質量控制

  • 好多創作者嘅真實痛點唔係唔識加轉場,而係:
  • 19分鐘講稿入面有大量口誤
  • 專業術語字幕識別錯誤
  • 邊句要刪、邊句要留好花時間

videocut-skills 不停翻睇重播做人工改錯極度消耗精力

嘅價值就係將呢啲「人工審核負擔」提前交畀 AI。

佢更適合咩場景?

  • 特別適合:
  • 知識口播
  • 教學錄製
  • 產品示範講解
  • Podcast 視頻化

開發者內容創作

佢同傳統剪輯思路最大嘅分別

傳統剪輯工具多數係「你判斷,我執行」。

而呢個項目更加似:

「AI 先做內容級審稿,再畀你做最終確認。」

呢個意味住喺「口播清洗」呢件事上,佢比通用桌面編輯自動化更加垂直,亦都更容易做到穩定嘅回報。

佢嘅邊界

  • 佢嘅邊界同樣清楚:
  • 偏口播,唔係全部類型嘅視頻生產平台
  • 強項係審核同裁剪,唔係複雜視覺包裝

依賴轉錄質素、詞典質素同審核流程設計所以佢唔係「萬能視頻 Agent」,而係一個


三、Youtube-clipper-skill好強嘅垂直口播剪輯 Skill

:將長視頻拆成可以傳播嘅片段

  • 項目地址:[3]

https://github.com/op7418/Youtube-clipper-skill

佢嘅核心作用係乜?

呢個項目瞄準嘅係另一類高頻任務:

一條長視頻,點樣快啲變成多個短片段、雙語字幕同可以傳播嘅內容?

  • 佢嘅能力組合好典型:
  • 下載 YouTube 視頻
  • 基於語義生成細緻章節
  • 精準切片
  • 中英雙語字幕翻譯
  • 字幕燒錄

自動生成社交媒體內容入面最值得留意嘅唔係「下載視頻」,而係

語義章節生成同切片邏輯

呢個意味住唔係機械咁每3分鐘切一刀,而係嘗試理解內容結構之後再切。

佢解決嘅真實問題

  • 內容創作者常見需求係:
  • 由 Podcast/訪問/演講入面抽出適合傳播嘅片段
  • 做中英文雙語內容分發

Youtube-clipper-skill 將長內容拆成適合小紅書、視頻號、公眾號、抖音嘅二次素材

本質上係做緊:

長視頻嘅「語義切片 + 多平台再包裝」

適合:

  • 佢更適合咩場景?
  • 海外視頻搬運同研究
  • Podcast 精華切片
  • 演講內容再分發
  • 長視頻內容矩陣營運

雙語字幕視頻生產

佢嘅專業特點

  • 佢比一般字幕工具更進一步,因為佢將幾個環節串成閉環:
  • 內容理解
  • 結構切分
  • 視頻截取
  • 字幕翻譯
  • 視覺輸出

社交媒體文案生成

呢個令佢更接近「內容再加工流水線」,而唔係單點工具。

佢嘅限制

  • 但都要留意,佢主要都係圍繞 YouTube 或者長視頻切片生態展開:
  • 對原生拍攝型複雜剪輯幫助有限
  • 對重視覺設計、複雜包裝唔算強項

四、bibigpt-skill比較偏向內容拆解而唔係由零創作

:將視頻、音頻、Podcast 變成可以消費嘅知識

  • 項目地址:[4]

https://github.com/JimmyLv/bibigpt-skill

佢嘅核心作用係乜? Youtube-clipper-skill 如果之前嘅 bibigpt-skill 更偏比較偏向視頻切片,咁

內容理解同知識轉寫

  • 呢個項目圍繞 BibiGPT CLI / API 構建,將視頻、音頻、Podcast 等內容轉成:
  • AI 摘要
  • 分章節總結
  • 原始字幕/轉錄
  • 文章改寫
  • 批量處理結果
  • 多源綜合分析
  • 筆記匯出

畫面分析

佢本質上係將「多媒體內容理解」做成 Agent 可以調用嘅工作流程。

Youtube-clipper-skill 佢同前者最大嘅分別

bibigpt-skill 更加似「由視頻入面切出可以傳播嘅片段」;

更加似「由視頻入面抽出可以重用嘅知識」。

  • 換句話講:
  • 前者偏向視頻生產再用

後者偏向資訊提煉同內容重寫

點解佢值得分開睇?

因為佢好貼近內容營運嘅真實鏈路。

  • 好多團隊唔係一定要先做視頻,而係更關心:
  • 呢條視頻講咗啲乜
  • 可唔可以快啲出公眾號文章
  • 可唔可以形成研究簡報或者學習筆記
  • 可唔可以多連結綜合比較

可唔可以輸出到 Notion / Obsidian / 本地檔案

所以佢係一個明顯偏向「知識中台」嘅視頻 Skill。

適合:

  • 佢更適合咩場景?
  • 視頻轉圖文
  • Podcast 轉文章
  • 行業內容監測
  • 批量總結學習資料
  • 多視頻主題研究

知識庫沉澱

佢嘅專業定位

佢唔係一個剪輯器,亦唔係一個視覺視頻生成器,而係:

視頻/音頻內容理解層 + Agent 工作流程分發器


五、narrator-ai-cli-skill呢個令佢特別適合做上游能力,駁到圖文生產、研究分析、知識管理鏈路上面。

:將「電影解說」做成一條完整產品流水線

  • 項目地址:[5]

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

佢嘅核心作用係乜?

呢個項目好典型,佢唔係想做一個通用視頻引擎,而係直接定義咗一個具體結果:

幫你做電影解說視頻。

  • 而且唔係淨係畀一個 API,佢係將成條鏈路打包咗:
  • 搜尋影片
  • 選擇模板
  • 選擇 BGM
  • 選擇配音
  • 生成文案
  • 合成視頻

返回下載連結

  • 同時仲分:
  • 二次創作文案(爆款學習)
  • 原創文案(快模式)

熱門影視 / 原聲混剪 / 冷門新劇 等創作模式

佢點解重要?

因為佢代表嘅係另一種 Skill 方向:

唔係令 Agent 學識一堆散亂嘅視頻技能,而係直接將垂直行業嘅 SOP 做成可以調用嘅產品。 videocut-skills 呢一點同

呢啲偏向流程增強型嘅項目唔一樣。

  • 佢更加似「專業服務介面化」:
  • 有資源庫
  • 有模板庫
  • 有風格模板
  • 有完整 API 錯誤處理
  • 有成本估算

有數據流程映射,而唔單止係開源工具拼砌。呢個說明佢更接近

商業級視頻生成服務

適合:

  • 佢更適合咩場景?
  • 電影解說帳號
  • 娛樂內容批量生產
  • 二次創作內容工廠

已經有 Narrator AI 能力接入條件嘅團隊

優勢:

  • 佢嘅優勢同限制
  • 完整度高
  • 上手路徑清晰
  • 垂直場景好明確

限制:

  • 由文案到成品鏈路閉環完整
  • 場景相對收窄,唔係通用型視頻 Skill
  • 對外部平台/服務同 API Key 有依賴

靈活度通常唔及純編排型工具


六、remotion-dev/skills所以佢更加似「成熟工廠介面」,唔係「通用積木箱」。

:Remotion 團隊自己嘅 Agent 技能倉庫

  • 項目地址:[6]

https://github.com/remotion-dev/skills

佢嘅核心作用係乜? 目前公開見到嘅資料唔多,倉庫說明都比較少,但從命名同歸屬可以睇到,佢對應嘅係

Remotion 官方/團隊嗰邊嘅 Agent Skills 方向探索

  • 呢類項目嘅意義唔在於直接提供一個現成嘅視頻工作流程,而在於:
  • 將 Remotion 相關能力整理成 Skill 形式
  • 令 Agent 更容易理解 Remotion 項目結構

為後續程式碼生成、動畫編排、組合管理提供基礎支援

佢更加似咩?

佢更加似一個「能力容器」或者「內部技能倉庫」,而唔係單獨面向終端創作者嘅完整產品。

亦因為公開資訊唔算完整,所以睇呢個倉庫嘅時候,更加應該將佢理解為一個訊號:

程式式視頻工具鏈,正喺度主動擁抱 Agent 化。

呢件事嘅行業意義其實好大。

  • 因為當 Remotion 呢啲程式碼驅動視頻方案開始進入 Skill 系統,就意味住 AI 唔止係「幫你剪一條視頻」,而係喺度嘗試:
  • 寫視頻工程程式碼
  • 改動畫邏輯
  • 接素材同字幕
  • 生成合成配置

調整 composition 同 metadata


七、remotion-best-practices呢個會將視頻生產,由「工具操作」帶向「工程生成」。

:令 Agent 喺 Remotion 世界入面少犯錯

  • 項目地址:[7]

https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

如果說 remotion-dev/skills 佢嘅核心作用係乜? remotion-best-practices 更像更加似能力方向,咁

規則手冊

佢唔係一個成品視頻工具,而係一套面向 Agent 嘅 Remotion 領域知識說明。

  • 從公開內容睇,佢覆蓋咗好多關鍵規則主題:
  • 3D 內容
  • 動畫基礎
  • 資源導入
  • 音頻處理
  • 動態 metadata
  • 解碼檢查
  • 圖表可視化
  • compositions 管理
  • 字幕展示

視頻抽幀

佢點解專業價值好高?

  • 因為 Remotion 呢類工具嘅難點,往往唔係「寫唔寫得出程式碼」,而係:
  • 程式碼係咪符合框架約定
  • 資源導入方式係咪正確
  • 時長、尺寸、props 係咪相關得合理
  • 音頻/字幕/幀處理有冇踩坑

複雜動畫係咪具備可維護性

  • 對 Agent 嚟講,冇呢啲規則,最易發生嘅就係:
  • 程式碼睇落好似啱,但係行唔到
  • 組合關係混亂
  • 視頻可渲染性差

改一處,其他地方全部壞

所以呢個 Skill 嘅真正價值係:

將「Remotion 經驗」顯式化,令 Agent 喺生成程式碼之前先獲得行業規則。

適合:

  • 佢更適合咩場景?
  • 用 Agent 寫 Remotion 視頻項目
  • 做模板化視頻生成系統
  • 自動化字幕視頻、圖表視頻、3D 視頻

團隊沉澱 Remotion 開發規範

八、專業比較:呢7個項目到底爭啲乜?

下面直接做一個面向實戰嘅比較。

1. 從「產物類型」睇

  • jianying-editor-skill
  • videocut-skills
  • narrator-ai-cli-skill

偏向成品執行

呢一類最終追求嘅係直接得到一個視頻成品或者接近成品。

  • Youtube-clipper-skill
  • bibigpt-skill

偏向內容拆解同再用

呢一類更加強調從現有內容入面抽出片段、字幕、摘要、文章、知識結構。

  • remotion-dev/skills
  • remotion-best-practices

偏向工程能力同規則基礎

呢一類唔直接畀你一個成品流水線,而係令 Agent 可以更可靠咁建立視頻工程。

2. 從「自動化深度」睇

  • narrator-ai-cli-skill
  • jianying-editor-skill

最接近端到端生產

前者偏向垂直解說成品,後者偏向通用桌面編輯執行。

  • videocut-skills

最接近半自動審核流程

佢保留人工審核節點,呢個係好實際嘅設計,因為口播剪輯最怕「AI 誤刪」。

  • Youtube-clipper-skill
  • bibigpt-skill

最接近內容再編排流程

佢哋更加似「資訊同素材重組器」。

  • remotion-best-practices

最接近知識約束流程

重點唔係執行任務,而係約束 Agent 嘅生成質素。

3. 從「適用用戶」睇

  • jianying-editor-skill
  • narrator-ai-cli-skill

適合普通創作者

因為結果導嚮明確,上手路徑亦都更直觀。

  • videocut-skills
  • Youtube-clipper-skill
  • bibigpt-skill

適合知識型創作者 / 開發者內容創作者

呢啲更適合對內容質素、語義結構、再分發效率有要求嘅人。

  • remotion-dev/skills
  • remotion-best-practices

適合技術團隊 / 工作流程搭建者

因為佢哋更加偏向工程方法,唔係輕量即用型工具。

4. 從「核心壁壘」睇

  • jianying-editor-skill

工具整合壁壘

核心壁壘在於可唔可以穩定驅動剪映生態。

  • videocut-skills

語義審核壁壘

核心壁壘在於可唔可以真正理解口播內容並做出可靠嘅裁剪建議。

  • Youtube-clipper-skill
  • bibigpt-skill

長內容結構化壁壘

核心壁壘在於內容理解、章節拆分、摘要重寫同多格式輸出。

  • narrator-ai-cli-skill

垂直行業 SOP 壁壘

核心壁壘在於資源庫、模板庫、風格庫同服務鏈路完整度。

  • remotion-best-practices
  • remotion-dev/skills

工程規範壁壘


核心壁壘在於將複雜嘅視頻工程經驗沉澱成 Agent 可用嘅規則。

九、如果你想自己搭視頻 Agent,最值得參考嘅唔係「功能」,而係「分層方式」

  • 好多人睇呢類項目嘅時候,會先問:
  • 邊個最勁?
  • 邊個可以一條龍?

邊個可以全自動?

但真正更加值得參考嘅,其實係佢哋背後嘅分層思維。

第一類:執行器型 Skill

  • 特點係直接操作工具或者流程,例如:
  • 剪映自動化
  • FFmpeg 自動裁剪

視頻合成 API 調用

第二類:理解器型 Skill

特點係負責語義理解、轉錄、摘要、章節劃分、劇本生成。

第三類:規則型 Skill

特點係唔畀你直接結果,而係幫 Agent 喺複雜工程入面少犯錯。

第四類:產品化工作流程 Skill

特點係圍繞單一場景,將資源、模板、API、錯誤處理都打包好。

  • 真正成熟嘅視頻 Agent,往往唔係淨係靠其中一類,而係呢幾類組合埋一齊:
  • 用理解器分析內容
  • 用執行器完成處理
  • 用規則型 Skill 保證工程質素

用產品化工作流程加速特定場景


從呢個角度睇,呢7個項目最大嘅價值,唔單止係「各自做到啲乜」,而係佢哋已經將下一代視頻 Agent 嘅形態提前示範咗出嚟。

十、最後判斷:視頻 Agent 正由「單點能力」進入「技能編排時代」

如果將呢批項目擺埋一齊睇,我嘅判斷係:

視頻 Agent 嘅競爭,正喺度由「邊個可以調一個模型」轉向「邊個可以將內容理解、工具執行、工程規則、垂直場景封裝成可以重用嘅技能」。

  • 呢個意味住未來比拼嘅重點會變成:
  • Skill 可唔可以重用
  • 工作流程可唔可以組合
  • Agent 可唔可以喺多步任務入面保持穩定
  • 人工審核節點擺喺邊度最合理

唔同層能力之間係咪解耦

  • 從落地價值睇: jianying-editor-skillvideocut-skills
  • 如果你想提高視頻生產效率,優先睇 Youtube-clipper-skillbibigpt-skill
  • 如果你要做長內容拆解同多平台再用,優先睇 narrator-ai-cli-skill
  • 如果你要做電影解說垂直流水線,重點睇 remotion-dev/skillsremotion-best-practices

如果你要做程式式視頻同視頻工程 Agent,重點睇

呢個亦都係我覺得呢組項目最值得關注嘅原因:

佢哋唔係重複做「AI 視頻」,而係分別填補緊視頻 Agent 系統入面唔同層嘅空白。

對於創作者嚟講,呢個意味住更有效率嘅生產方式;對於開發者同團隊嚟講,呢個意味住

視頻自動化終於開始有咗清晰嘅軟件分層結構

  • 參考來源[8]
  • https://github.com/luoluoluo22/jianying-editor-skill[9]
  • https://github.com/Ceeon/videocut-skillshttps://github.com/op7418/Youtube-clipper-skill
  • [10]https://github.com/remotion-dev/skills
  • [11]https://github.com/JimmyLv/bibigpt-skill
  • [12]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md
  • [13]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

聲明

[14],如果對你有幫助,請幫手點讚、關注、收藏,謝謝~ 本文由山行整理自:https://github.com/luoluoluo22/jianying-editor-skill[15] 、https://github.com/Ceeon/videocut-skills[16] 、https://github.com/op7418/Youtube-clipper-skill[17] 、https://github.com/remotion-dev/skills[18] 、https://github.com/JimmyLv/bibigpt-skill[19] 、https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[20] 、https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[21]

[1]引用連結

[2]https://github.com/luoluoluo22/jianying-editor-skill

[3]https://github.com/Ceeon/videocut-skills

[4]https://github.com/op7418/Youtube-clipper-skill

[5]https://github.com/JimmyLv/bibigpt-skill

[6]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[7]https://github.com/remotion-dev/skills

[8]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[9]https://github.com/luoluoluo22/jianying-editor-skill

https://github.com/Ceeon/videocut-skills[10]

https://github.com/op7418/Youtube-clipper-skill[11]

https://github.com/remotion-dev/skills[12]

https://github.com/JimmyLv/bibigpt-skill[13]

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[14]

https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md[15]

https://github.com/luoluoluo22/jianying-editor-skill[16]

https://github.com/Ceeon/videocut-skills[17]

https://github.com/op7418/Youtube-clipper-skill[18]

https://github.com/remotion-dev/skills[19]

https://github.com/JimmyLv/bibigpt-skill[20]

https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[21]

為什麼視頻 Agent 開始集體長出“技能層”?7 個視頻技能項目的能力邊界與落地差異

最近一波視頻相關的 Agent Skill 項目,已經不只是“幫你調一個模型”這麼簡單了。

它們開始把視頻處理鏈路拆成可調用、可組合、可複用的技能單元:有人把剪映桌面端變成自動化執行器,有人把口播剪輯做成半自動審核流,有人專注 YouTube 切片與雙語字幕,有人把視頻總結、電影解說、Remotion 代碼生產都納入 Skill 體系。

這背後其實是一個非常明確的變化:AI 正在從“會寫提示詞”進化成“會操縱視頻工作流”

這篇文章,我把 7 個項目放在一起看,不只介紹“它們能做什麼”,更重點分析:

  • 它們分別解決的是視頻鏈路中的哪一段
  • 哪些更像“生產工具”,哪些更像“能力底座”
  • 哪些適合個人創作者,哪些更適合團隊或工作流集成
  • 如果你想搭建自己的視頻 Agent,該優先借鑑哪一類

如果你最近在關注 AI 視頻生產、Agent 技能體系、自動化剪輯、Remotion 編程式視頻,這一組項目很值得集中看一遍。

先說結論:這 7 個項目,實際上分成了 4 個層級

為了避免把它們混成一鍋,我先給一個專業劃分。

1)桌面剪輯執行層

代表項目:

  • jianying-editor-skill
  • videocut-skills

這一層直接面向“剪視頻”本身。

區別在於:

  • 一個更強調驅動剪映桌面端完成整套編輯動作
  • 一個更強調口播視頻的語義識別、問題標註與 FFmpeg 剪輯執行

2)內容切片與二次分發層

代表項目:

  • Youtube-clipper-skill
  • bibigpt-skill

這一層更關注“已有視頻內容如何被拆解、總結、轉寫、再生產”。

它們面向的不是從零做片,而是:

  • 把長視頻切成可傳播片段
  • 把視頻變成字幕、摘要、雙語內容、公眾號圖文、社媒文案

3)成片流水線封裝層

代表項目:

  • narrator-ai-cli-skill

這一層的價值不在於“可自由拼裝”,而在於把一整條電影解說生產流水線產品化

它更像“直接調一個成熟視頻工廠”。

4)編程式視頻能力層

代表項目:

  • remotion-dev/skills
  • remotion-best-practices

這一層不是某個成品工作流,而是圍繞 Remotion 的知識、規則與工程方法論

它解決的是:當 Agent 要生成、修改、維護 Remotion 視頻代碼時,如何少走彎路、少寫錯代碼、建立可靠的工程約束。

一句話總結:

前三層是在“做視頻任務”,第四層是在“讓 Agent 學會做視頻工程”。


一、jianying-editor-skill:把剪映桌面端變成 Agent 的執行器

項目地址:

  • https://github.com/luoluoluo22/jianying-editor-skill[1]

它的核心作用是什麼?

這個項目最有代表性的點,是它不是重新做一個視頻編輯器,而是把剪映專業版當成底層執行環境

也就是說,它的目標不是替代剪映,而是讓 AI Agent 幫你把大量重複的編輯動作自動完成:

  • 素材導入
  • 時間軸排列
  • 配音生成
  • 自動字幕
  • 配樂選擇
  • 特效/轉場/濾鏡應用
  • HTML/Canvas 動效轉視頻素材
  • 錄屏與智能變焦
  • 影視解說視頻生成
  • 最終導出 MP4

這類能力的價值很直接:

它把“自然語言 -> 剪映項目結構”的轉換打通了。

對於大量使用剪映的創作者來說,這非常重要。因為真正耗時的部分,往往不是“剪映不會做”,而是你要不斷重複點擊、試錯、調整、堆時間軸

它更適合什麼場景?

更適合以下場景:

  • 短視頻批量製作
  • 圖文轉視頻
  • 解說視頻模板化生產
  • 錄屏教程類視頻
  • 需要保留剪映現有生態(特效庫、素材庫、導出體驗)的團隊

它的專業優勢

它最大的優勢不是算法,而是工程連接能力強

  • 對接成熟桌面編輯器
  • 功能覆蓋面廣
  • 對非專業開發者更友好
  • 可以沿用剪映已有工作習慣

它的限制也很明確

項目自己也講得比較坦誠:

  • 它不是剪映替代品,渲染和預覽仍依賴剪映本身
  • 剪映部分實時 GPU 能力無法通過代碼直接調用
  • 並不是所有剪映 UI 都能自動化觸發
  • 自動導出依賴舊版本(5.9 及以下)
  • 不支持手機端

所以它更像:

“面向現有剪映生態的自動化外掛層”,而不是一個純粹獨立的視頻 AI 引擎。


二、videocut-skills:把口播剪輯從“時間軸操作”升級成“語義審核”

項目地址:

  • https://github.com/Ceeon/videocut-skills[2]

它的核心作用是什麼?

如果說 jianying-editor-skill 強在“自動搭時間軸”,那 videocut-skills 強在“自動識別哪裏該剪”。

這個項目非常聚焦:專門解決口播視頻剪輯中的語義問題

它瞄準的是傳統工具經常處理不好的兩類問題:

  1. 說錯以後重新說一遍
  2. 重複句、卡頓、語氣詞、長靜音

它不是隻做波形檢測,而是把語義理解引入剪輯決策:

  • AI 逐句分析內容
  • 標記重說/糾正/重複
  • 靜音檢測
  • 句內重複識別
  • 自定義詞典糾錯
  • 審核頁人工確認
  • FFmpeg 自動執行剪輯

它為什麼專業?

因為它解決的不是“剪輯軟件有無按鈕”,而是口播視頻的內容質量控制

很多創作者的真實痛點不是不會加轉場,而是:

  • 19 分鐘講稿裏有大量口誤
  • 專業術語字幕識別錯誤
  • 哪句該刪、哪句該留很費時間
  • 一遍遍看回放做人工挑錯極其耗精力

videocut-skills 的價值就是把這些“人工審核負擔”前移給 AI。

它更適合什麼場景?

特別適合:

  • 知識口播
  • 教程錄製
  • 產品演示講解
  • 播客視頻化
  • 開發者內容創作

它與傳統剪映思路最大的不同

傳統剪輯工具更多是“你來判斷,我來執行”。

而這個項目更像:

“AI 先做內容級審稿,再讓你做最終確認。”

這意味着它在“口播清洗”這件事上,比通用桌面編輯自動化更垂直,也更容易做出穩定收益。

它的邊界

它的邊界同樣清晰:

  • 偏口播,不是全品類視頻生產平台
  • 強項在審核與裁剪,不是複雜視覺包裝
  • 依賴轉錄質量、詞典質量與審核流程設計

所以它不是“萬能視頻 Agent”,而是一個非常強的垂直口播剪輯 Skill


三、Youtube-clipper-skill:把長視頻拆成可傳播片段

項目地址:

  • https://github.com/op7418/Youtube-clipper-skill[3]

它的核心作用是什麼?

這個項目瞄準的是另一類高頻任務:

一條長視頻,如何快速變成多個短片段、雙語字幕和可傳播內容?

它的能力組合很典型:

  • 下載 YouTube 視頻
  • 基於語義生成細粒度章節
  • 精準切片
  • 中英雙語字幕翻譯
  • 字幕燒錄
  • 自動生成社媒內容

這裏面最值得注意的不是“下載視頻”,而是語義章節生成與切片邏輯

這意味着它不是機械地每 3 分鐘切一刀,而是嘗試理解內容結構後再切。

它解決的真實問題

內容創作者常見需求是:

  • 從播客/訪談/演講中提取適合傳播的片段
  • 做中英文雙語內容分發
  • 把長內容拆成適合小紅書、視頻號、公眾號、抖音的二次素材

Youtube-clipper-skill 本質上是在做:

長視頻的“語義切片 + 多平台再包裝”

它更適合什麼場景?

適合:

  • 海外視頻搬運與研究
  • 播客精華切片
  • 演講內容再分發
  • 長視頻內容矩陣運營
  • 雙語字幕視頻生產

它的專業特點

它比一般字幕工具更進一步,因為它把幾個環節串成了閉環:

  • 內容理解
  • 結構切分
  • 視頻截取
  • 字幕翻譯
  • 視覺輸出
  • 社媒文案生成

這讓它更接近“內容再加工流水線”,而不是單點工具。

它的侷限

但也要看到,它主要還是圍繞 YouTube 或長視頻切片生態展開:

  • 對原生拍攝型複雜剪輯幫助有限
  • 對重視覺設計、複雜包裝不算強項
  • 更偏內容拆解而非從零創作

四、bibigpt-skill:把視頻、音頻、播客變成可消費知識

項目地址:

  • https://github.com/JimmyLv/bibigpt-skill[4]

它的核心作用是什麼?

如果前面的 Youtube-clipper-skill 更偏視頻切片,那麼 bibigpt-skill 更偏內容理解與知識轉寫

這個項目圍繞 BibiGPT CLI / API 構建,把視頻、音頻、播客等內容轉成:

  • AI 摘要
  • 分章節總結
  • 原始字幕/轉錄
  • 文章改寫
  • 批量處理結果
  • 多源綜合分析
  • 筆記導出
  • 畫面分析

它本質上是把“多媒體內容理解”做成了 Agent 可調用工作流。

它與前者最大的差異

Youtube-clipper-skill 更像“從視頻中切出可傳播片段”;

bibigpt-skill 更像“從視頻中提取可複用知識”。

換句話說:

  • 前者偏視頻生產再利用
  • 後者偏信息提煉與內容重寫

為什麼它值得單獨看?

因為它非常貼近內容運營的真實鏈路。

很多團隊不是非得先做視頻,而是更關心:

  • 這條視頻講了什麼
  • 能不能快速出公眾號文章
  • 能不能形成研究簡報或學習筆記
  • 能不能多連結綜合對比
  • 能不能輸出到 Notion / Obsidian / 本地文件

所以它是一個明顯偏“知識中台”的視頻 Skill。

它更適合什麼場景?

適合:

  • 視頻轉圖文
  • 播客轉文章
  • 行業內容監測
  • 批量總結學習資料
  • 多視頻主題研究
  • 知識庫沉澱

它的專業定位

它不是一個剪輯器,也不是一個視覺視頻生成器,而是:

視頻/音頻內容理解層 + Agent 工作流分發器

這讓它特別適合作為上游能力,接到圖文生產、研究分析、知識管理鏈路上。


五、narrator-ai-cli-skill:把“電影解說”做成一條完整產品流水線

項目地址:

  • https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[5]

它的核心作用是什麼?

這個項目非常典型,它不是想做一個通用視頻引擎,而是直接定義了一個具體結果:

幫你做電影解說視頻。

而且不是隻給一個 API,它是把整條鏈路打包了:

  • 搜索影片
  • 選擇模板
  • 選擇 BGM
  • 選擇配音
  • 生成文案
  • 合成視頻
  • 返回下載連結

同時還區分:

  • 二創文案(爆款學習)
  • 原創文案(快速模式)
  • 熱門影視 / 原聲混剪 / 冷門新劇 等創作模式

它為什麼重要?

因為它代表的是另一種 Skill 方向:

不是讓 Agent 學會一堆零散視頻技能,而是直接把垂直行業 SOP 做成可調用產品。

這一點和 videocut-skills 這種偏流程增強型項目不一樣。

它更像“專業服務接口化”:

  • 有資源庫
  • 有模板庫
  • 有風格模板
  • 有完整 API 錯誤處理
  • 有成本預估
  • 有數據流映射

這說明它更接近商業級視頻生成服務,而不僅僅是開源工具拼裝。

它更適合什麼場景?

適合:

  • 電影解說賬號
  • 娛樂內容批量生產
  • 二創內容工廠
  • 已有 Narrator AI 能力接入條件的團隊

它的優勢與限制

優勢:

  • 完整度高
  • 上手路徑清晰
  • 垂直場景非常明確
  • 從文案到成片鏈路閉環完整

限制:

  • 場景相對收束,不是通用型視頻 Skill
  • 對外部平台/服務與 API Key 有依賴
  • 靈活度通常不如純編排型工具

所以它更像“成熟工廠接口”,不是“通用積木箱”。


六、remotion-dev/skills:Remotion 團隊自己的 Agent 技能倉庫

項目地址:

  • https://github.com/remotion-dev/skills[6]

它的核心作用是什麼?

目前公開可見資料不多,倉庫說明也比較少,但從命名與歸屬可以看出,它對應的是 Remotion 官方/團隊側的 Agent Skills 方向探索

這類項目的意義不在於直接提供一個現成視頻工作流,而在於:

  • 把 Remotion 相關能力整理為 Skill 形式
  • 讓 Agent 更容易理解 Remotion 項目結構
  • 為後續代碼生成、動畫編排、組合管理提供基礎支持

它更像什麼?

它更像一個“能力容器”或“內部技能倉庫”,而不是單獨面向終端創作者的完整產品。

也正因為公開信息不算完整,所以看這個倉庫時,更應該把它理解為一個信號:

編程式視頻工具鏈,正在主動擁抱 Agent 化。

這件事的行業意義其實很大。

因為當 Remotion 這種代碼驅動視頻方案開始進入 Skill 體系,就意味着 AI 不只是“幫你剪一條視頻”,而是在嘗試:

  • 寫視頻工程代碼
  • 改動畫邏輯
  • 接素材與字幕
  • 生成合成配置
  • 調整 composition 與 metadata

這會把視頻生產,從“工具操作”帶向“工程生成”。


七、remotion-best-practices:讓 Agent 在 Remotion 世界裏少犯錯

項目地址:

  • https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md[7]

它的核心作用是什麼?

如果說 remotion-dev/skills 更像能力方向,那麼 remotion-best-practices 更像規則手冊

它不是一個成品視頻工具,而是一套面向 Agent 的 Remotion 領域知識說明。

從公開內容看,它覆蓋了很多關鍵規則主題:

  • 3D 內容
  • 動畫基礎
  • 資源導入
  • 音頻處理
  • 動態 metadata
  • 解碼檢查
  • 圖表可視化
  • compositions 管理
  • 字幕展示
  • 視頻抽幀

它為什麼專業價值很高?

因為 Remotion 這類工具的難點,往往不是“能不能寫出代碼”,而是:

  • 代碼是否符合框架約定
  • 資源導入方式是否正確
  • 時長、尺寸、props 是否聯動合理
  • 音頻/字幕/幀處理是否踩坑
  • 複雜動畫是否具備可維護性

對 Agent 來說,沒有這些規則,最容易發生的就是:

  • 代碼看起來像對的,但跑不起來
  • 組合關係混亂
  • 視頻可渲染性差
  • 修改一處,其他地方全壞

所以這個 Skill 的真正價值是:

把“Remotion 經驗”顯式化,讓 Agent 在生成代碼前先獲得行業規則。

它更適合什麼場景?

適合:

  • 用 Agent 寫 Remotion 視頻項目
  • 做模板化視頻生成系統
  • 自動化字幕視頻、圖表視頻、3D 視頻
  • 團隊沉澱 Remotion 開發規範

八、專業對比:這 7 個項目到底差在哪?

下面直接做一個面向實戰的比較。

1. 從“產物類型”看

偏成片執行

  • jianying-editor-skill
  • videocut-skills
  • narrator-ai-cli-skill

這一類最終追求的是直接得到一個視頻成品或接近成品。

偏內容拆解與再利用

  • Youtube-clipper-skill
  • bibigpt-skill

這一類更強調從已有內容中提取片段、字幕、摘要、文章、知識結構。

偏工程能力與規則底座

  • remotion-dev/skills
  • remotion-best-practices

這一類不直接給你一個成片流水線,而是讓 Agent 能更可靠地構建視頻工程。

2. 從“自動化深度”看

最接近端到端生產

  • narrator-ai-cli-skill
  • jianying-editor-skill

前者偏垂直解說成片,後者偏通用桌面編輯執行。

最接近半自動審核流

  • videocut-skills

它保留人工審核節點,這是非常實際的設計,因為口播剪輯最怕“AI 誤刪”。

最接近內容再編排流

  • Youtube-clipper-skill
  • bibigpt-skill

它們更像“信息與素材重組器”。

最接近知識約束流

  • remotion-best-practices

重點不是執行任務,而是約束 Agent 的生成質量。

3. 從“適用用戶”看

適合普通創作者

  • jianying-editor-skill
  • narrator-ai-cli-skill

因為結果導向明確,上手路徑也更直觀。

適合知識型創作者 / 開發者內容創作者

  • videocut-skills
  • Youtube-clipper-skill
  • bibigpt-skill

這些更適合對內容質量、語義結構、再分發效率有要求的人。

適合技術團隊 / 工作流搭建者

  • remotion-dev/skills
  • remotion-best-practices

因為它們更偏工程方法,不是輕量即用型工具。

4. 從“核心壁壘”看

工具集成壁壘

  • jianying-editor-skill

核心壁壘在於能不能穩定驅動剪映生態。

語義審核壁壘

  • videocut-skills

核心壁壘在於能不能真正理解口播內容並做出可靠裁剪建議。

長內容結構化壁壘

  • Youtube-clipper-skill
  • bibigpt-skill

核心壁壘在於內容理解、章節拆分、摘要重寫與多格式輸出。

垂直行業 SOP 壁壘

  • narrator-ai-cli-skill

核心壁壘在於資源庫、模板庫、風格庫和服務鏈路完整度。

工程規範壁壘

  • remotion-best-practices
  • remotion-dev/skills

核心壁壘在於把複雜視頻工程經驗沉澱為 Agent 可用規則。


九、如果你要自己搭視頻 Agent,最值得借鑑的不是“功能”,而是“分層方式”

很多人看這類項目時,會先問:

  • 哪個最強?
  • 哪個能一把梭?
  • 哪個能全自動?

但真正更值得借鑑的,其實是它們背後的分層思路。

第一類:執行器型 Skill

特點是直接操縱工具或流程,例如:

  • 剪映自動化
  • FFmpeg 自動裁剪
  • 視頻合成 API 調用

第二類:理解器型 Skill

特點是負責語義理解、轉錄、摘要、章節劃分、腳本生成。

第三類:規則型 Skill

特點是不給你直接結果,而是幫助 Agent 在複雜工程裏少犯錯。

第四類:產品化工作流 Skill

特點是圍繞單一場景,把資源、模板、API、錯誤處理都打包好。

真正成熟的視頻 Agent,往往不是隻靠其中一類,而是這幾類組合起來:

  • 用理解器分析內容
  • 用執行器完成處理
  • 用規則型 Skill 保證工程質量
  • 用產品化工作流加速特定場景

從這個角度看,這 7 個項目最大的價值,不只是“各自能做什麼”,而是它們已經把下一代視頻 Agent 的形態提前演示出來了。


十、最後判斷:視頻 Agent 正從“單點能力”進入“技能編排時代”

如果把這批項目放在一起看,我的判斷是:

視頻 Agent 的競爭,正在從“誰能調一個模型”轉向“誰能把內容理解、工具執行、工程規則、垂直場景封裝成可複用技能”。

這意味着未來比拼的重點會變成:

  • Skill 能不能複用
  • 工作流能不能組合
  • Agent 能不能在多步任務中保持穩定
  • 人工審核節點放在哪裏最合理
  • 不同層能力之間是否解耦

從落地價值看:

  • 如果你要提高視頻生產效率,優先看 jianying-editor-skillvideocut-skills
  • 如果你要做長內容拆解與多平台再利用,優先看 Youtube-clipper-skillbibigpt-skill
  • 如果你要做電影解說垂直流水線,重點看 narrator-ai-cli-skill
  • 如果你要做編程式視頻與視頻工程 Agent,重點看 remotion-dev/skillsremotion-best-practices

這也是我覺得這組項目最值得關注的原因:

它們不是在重複做“AI 視頻”,而是在分別補齊視頻 Agent 體系裏不同層的空白。

對於創作者來說,這意味着更高效的生產方式;

對於開發者和團隊來說,這意味着視頻自動化終於開始有了清晰的軟件分層結構

參考來源

  • https://github.com/luoluoluo22/jianying-editor-skill[8]
  • https://github.com/Ceeon/videocut-skills[9]
  • https://github.com/op7418/Youtube-clipper-skill[10]
  • https://github.com/remotion-dev/skills[11]
  • https://github.com/JimmyLv/bibigpt-skill[12]
  • https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[13]
  • https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md[14]

聲明

本文由山行整理自:https://github.com/luoluoluo22/jianying-editor-skill[15] 、https://github.com/Ceeon/videocut-skills[16] 、https://github.com/op7418/Youtube-clipper-skill[17] 、https://github.com/remotion-dev/skills[18] 、https://github.com/JimmyLv/bibigpt-skill[19] 、https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md[20] 、https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md[21] ,如果對您有幫助,請幫忙點贊、關注、收藏,謝謝~

引用連結

[1]https://github.com/luoluoluo22/jianying-editor-skill

[2]https://github.com/Ceeon/videocut-skills

[3]https://github.com/op7418/Youtube-clipper-skill

[4]https://github.com/JimmyLv/bibigpt-skill

[5]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[6]https://github.com/remotion-dev/skills

[7]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[8]https://github.com/luoluoluo22/jianying-editor-skill

[9]https://github.com/Ceeon/videocut-skills

[10]https://github.com/op7418/Youtube-clipper-skill

[11]https://github.com/remotion-dev/skills

[12]https://github.com/JimmyLv/bibigpt-skill

[13]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[14]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md

[15]https://github.com/luoluoluo22/jianying-editor-skill

[16]https://github.com/Ceeon/videocut-skills

[17]https://github.com/op7418/Youtube-clipper-skill

[18]https://github.com/remotion-dev/skills

[19]https://github.com/JimmyLv/bibigpt-skill

[20]https://github.com/jieshuo-ai/narrator-ai-cli-skill/blob/main/README_CN.md

[21]https://github.com/openclaw/skills/blob/main/skills/am-will/remotion-best-practices/SKILL.md