絕了！這個視頻生成 Skill封神了

作者：路見遠思

日期：2026年4月21日下午12:37

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

超勁！呢個視頻生成 Skill 封神咗

整理版摘要

呢篇文章介紹咗一個新開源嘅 Skill 叫 video-transcript，佢可以自動下載 YouTube、B站、抖音等平台嘅公開視頻，然後用 AI 完成轉錄、結構化、腳本生成同渲染，最終輸出成片。作者親身試用後發現，呢個 Skill 唔係單純嘅工具，而係一條完整嘅視頻內容編譯鏈，可以將同一段視頻源變成文檔、短劇或者長片，對內容創作者嚟講好實用。

呢個 Skill 嘅背景係作者見到市面上雖然有好多轉錄工具，但好少可以一條龍做到再生產。作者本身係一個科技自媒體人，成日需要從公開視頻提取資訊然後快速製作新內容。video-transcript 嘅出現解決咗佢嘅痛點，而且唔使每次從頭試錯，因為成條鏈路已經沉澱咗落個 Skill 度。整體結論係：呢個 Skill 真正值錢嘅地方，係將資訊由單向獲取變成可以複用同傳播嘅內容資產。

結論：video-transcript 係一條完整嘅視頻內容編譯鏈，輸入公開視頻，輸出文檔、短劇或長片，實現內容再生產。
方法：採用四層架構——抓取轉錄（yt-dlp+Whisper）、story planning（newsroom_story_builder）、渲染（Pixelle+ffmpeg+TTS）、模板 override（座標、證據窗規則等）。
差異：同一般轉錄工具唔同，佢唔單止提取字幕，仲能自動拆章節、生成 newsroom 腳本、合成短視頻，將同一視頻源轉換成三種產品形態：document、newsroom、newsroom-longform。
啟發：真正稀缺嘅唔係抄低字幕，而係將視頻資訊穩定變成另一種可發佈、可複用、可傳播嘅內容資產，而呢條鏈路打通咗成個流程。
可行動點：如果你需要快速將公開視頻轉成自家內容，可以試用 video-transcript，尤其適合做科技快報同欄目片，生成時間約 10 分鐘，成品質素足以推送抖音或微信視頻號。

值得記低

連結 github.com

video-transcript 項目地址

開源 GitHub 項目，支援 YouTube、B站、抖音等平台視頻下載、轉錄、腳本生成同渲染輸出。

整理重點

一句話生成視頻，背後係完整鏈路

作者今日發現咗一個新開源嘅 Skill，叫 video-transcript。只要輸入一句話，例如「近期全網熱點，SpaceX IPO 主題嘅，抓 5 個手機版本嘅短視頻合成」，佢就會自動完成所有步驟。

呢個 Skill 真正完成嘅，唔係一兩個腳本拼湊，而係一條完整鏈路：公開視頻 -> transcript -> 結構化章節 -> newsroom 腳本 -> 視頻模板渲染 -> 成片輸出。

換句話講，佢處理嘅已經唔只係字幕提取，而係視頻內容再生產。作者話成片質素好高，足夠推送去抖音或者微信視頻號，成個過程大約 10 分鐘。

整理重點

四層架構，逐層解構

1 第一層：抓取同轉錄框架。用 yt-dlp + subtitle extraction + Whisper fallback，優先抓原字幕，抓唔到就 Whisper 補底，輸出 raw_transcript.txt 等結構化檔案。
2 第二層：story planning 框架。用 newsroom_story_builder 自動拆章節、抽主線、生成 newsroom frame，決定條片點樣講，而唔係照稿讀。
3 第三層：渲染框架。接 Pixelle + ffmpeg + TTS + 字幕合成，支援 20-60 秒短視頻同 1-3 分鐘長視頻。
4 第四層：模板同 override 框架。將模板、座標、證據窗規則、Pixelle override、同步腳本等一次過沉澱落 Skill，新題材就唔使從頭試錯。

呢套架構嘅價值在於，佢將同一條視頻源拆成三種唔同產品形態，由文檔到短劇再到長片，都係同一條鏈路出嚟。

整理重點

三種產品形態：文檔、短劇、長片

最基礎嘅係 document。一條公開視頻入嚟，可以整理成講稿、紀要、雙語稿、Markdown、Word 文檔，對做研究同資料沉澱好實用。

再上一層係 newsroom，適合做 20 到 60 秒嘅中文快報。視頻資訊唔會只停喺 transcript，反而會轉成可播報嘅 newsroom 文案，直接出短視頻。

最關鍵嘅係 newsroom-longform。佢有明確嘅標題區、證據窗、編輯區同章節節奏，能將一條公開視頻變成一條真正嘅欄目片。作者用 SpaceX IPO 主題測試，2 分鐘 warroom 成片驗證咗默認 longform 模板、證據窗、章節邏輯同編輯台已經穩定工作。

整理重點

踩坑經驗同真正價值

作者強調，而家默認路徑已經成立，以前最難嘅唔係寫腳本，而係要每次重新回答「先抓字幕定先轉錄？章節點拆？」等問題。而家呢啲問題都唔使再從零答，因為腳本、模板、規則、文檔、README、設計約束同常見坑都已經一齊並進咗 video-transcript。

真正稀缺嘅係將視頻資訊穩定變成另一種可發佈、可複用、可繼續傳播嘅內容資產，而呢個 Skill 正正做到呢一點，呢個先係佢最值錢嘅地方。

我今日發現咗一個好勁嘅skill叫做video-transcript，啱啱開源。呢個skills支援公網所有視頻下載（YouTube、B站、抖音等），仲用完全由AI驅動完成自定義短視頻嘅輸出，完全係傻瓜式操作。

我哋嚟睇成片，是但揾咗一個主題。對住呢個skill輸入一句話：近期全網熱點，SpaceX IPO主題嘅，揾5個手機版本嘅短視頻合成：

我睇咗一下整體流程，呢個skill真正完成嘅，唔係一兩個腳本拼埋一齊，而係將一條完整鏈路接通咗：公開視頻 -> transcript -> 結構化章節 -> newsroom 腳本 -> 視頻模板渲染 -> 成片輸出。

即係話，佢處理嘅已經唔只係字幕提取，而係視頻內容再生產。呢啲視頻生成嘅質素好高，已經夠我用嚟推送抖音或者微信視頻號喇。

我詳細睇咗一下呢個skill嘅實現，先睇佢接返嚟嘅核心框架。

第一層，抓取同轉錄框架。

呢一層用嘅係 yt-dlp + subtitle extraction + Whisper fallback。優先抓原視頻字幕，抓唔到就行 Whisper，將原始內容穩定變成 raw_transcript.txt、timestamped_transcript.json、sections.json 同 metadata.json。呢一步嘅意義，唔只係拎到文字，而係保留時間、章節同結構，為後面所有再利用打地基。

第二層，story planning 框架。

今次補返嚟嘅核心唔係再寫一個模板稿，而係 newsroom_story_builder。佢會根據 transcript 自動拆章節、抽主線、生成 newsroom frame，令內容從原視頻裏面講咗啲乜變成呢條視頻應該點講。呢一步決定咗佢可唔可以從轉錄工具，跨到編輯工具。

第三層，渲染框架。

呢部分而家接嘅係 Pixelle + ffmpeg + TTS + 字幕合成。短視頻模式可以做 20 到 60 秒嘅中文科技快報，長視頻模式可以做 1 到 3 分鐘嘅章節型 explainer。即係話，video-transcript 已經唔只係輸出文檔，佢可以直接輸出成片。

第四層，模板同 override 框架。

今次最重要嘅沉澱，唔只係做出咗一條視頻，而係將模板、座標、證據窗規則、Pixelle override、同步腳本同設計規則一齊沉咗落 skill 裏面。後面再做新題材，唔使從頭試錯，直接沿住現成鏈路行就得。

呢套鏈路點解值錢？因為佢將同一個視頻源拆咗做三種唔同產品形態。

最基礎嘅係 document。

一條公開視頻入嚟，可以直接整理成講稿、紀要、雙語稿、Markdown、Word 文檔。對做研究、做資料沉澱嘅人嚟講，呢一層已經好實用。

再上一層係 newsroom。

呢度適合做 20 到 60 秒嘅中文快報。視頻裏面嘅資訊唔會只係停喺 transcript，而會被轉成可播報嘅 newsroom 文案，再行模板直接出短視頻。

再上一層就係 newsroom-longform。

呢個都係今次升級裏面最關鍵嘅一層。佢唔係簡單加長，而係有明確嘅標題區、證據窗、編輯區同章節節奏，能夠將一條公開視頻變成一條真正嘅欄目片。

呢度最典型嘅例子，就係嗰條 SpaceX IPO 嘅 2 分鐘 warroom 成片。

呢條視頻真正驗證嘅，唔只係能夠渲染出嚟，而係驗證咗默認 longform 模板、證據窗、章節邏輯同編輯台呢整套嘢已經可以穩定運作。

我用codex測咗一下，生成嘅視頻好自然，整體生成時間喺10分鐘左右。

但今次踩出嚟嘅經驗，都好重要。

最關鍵嘅一條係：默認 warroom 模板只適合 9:16 嘅 YouTube Shorts / 豎屏短視頻證據源。

好多人會誤以為短視頻就可以直接塞入模板裏面，其實唔係。普通橫版 YouTube 視頻，就算時長得幾十秒，都會令證據窗顯得似播放器殼，字幕容易被擠壓，成個頁面質感會跌好多。所以而家 skill 裏面已經將呢條經驗寫死咗：默認 longform 模板優先食真 Shorts；如果你唔用呢套模板，或者證據源唔係 9:16，就要準備做額外嘅 UI 同 compositor 調整。

呢個都係點解，video-transcript 而家真正犀利嘅地方，唔只係功能多，而係默認路徑已經成立。

以前做呢啲嘢，最難嘅唔係寫腳本，而係每次都重新答一次呢啲問題：

先抓字幕定係先轉錄？章節點拆？
短視頻同長視頻點分？模板放邊套？
證據窗點處理？多個視頻源點樣混合？
字幕、TTS、視頻合成邊個負責？
啲經驗應該留喺 worktree，定係沉返去 skill？

而家呢啲問題，已經唔使每次都從頭答過。

因為腳本、模板、規則、文檔、README、設計約束、常見坑，都已經一齊並咗入 video-transcript。

更準確嘅講法應該係：video-transcript 而家已經係一條視頻內容編譯鏈。

輸入係一條公開視頻，輸出可以係文檔、短視頻，亦可以係一條 2 分鐘嘅章節型欄目片。

真正稀缺嘅，唔係將字幕抄低，而係將視頻裏面嘅資訊，穩定變成另一種可以發佈、可以複用、可以繼續傳播嘅內容資產。

呢個先係佢最值錢嘅地方。項目地址：github.com/ylouis83/video_transcript ht tps://github.com/ylouis83/video_transcript

我今天發現了一個非常牛x的skill 叫video-transcript 剛開源，這個skills支持公網所有視頻下載（YouTube、B站、抖音等），並用完全由AI驅動完成自定義短視頻的輸出，完全的傻瓜式操作。

我們來看成片，隨便找的一個主題。對着這個skill輸入一句話：近期全網熱點，SpaceX IPO主題的，抓5個手機版本的短視頻合成：

我看了一下整體流程，這個skill 真正完成的，不是一兩個腳本拼起來，而是把一條完整鏈路接通了：公開視頻 -> transcript -> 結構化章節 -> newsroom 腳本 -> 視頻模板渲染 -> 成片輸出。

也就是說，它處理的已經不只是字幕提取，而是視頻內容再生產。這些視頻生成的質量很高，已經足夠我推送抖音或者微信視頻號了。

我詳細看了一下這個skill的實現，先看它接進來的核心框架。

第一層，抓取和轉錄框架。

這一層用的是 yt-dlp + subtitle extraction + Whisper fallback。優先抓原視頻字幕，抓不到再走 Whisper，把原始內容穩定變成 raw_transcript.txt、timestamped_transcript.json、sections.json 和 metadata.json。這一步的意義，不只是拿到文字，而是保留時間、章節和結構，為後面所有再利用打地基。

第二層，story planning 框架。

這次補進來的核心不是再寫一個模板稿，而是 newsroom_story_builder。它會根據 transcript 自動拆章節、抽主線、生成 newsroom frame，讓內容從原視頻裏說了什麼變成這一條視頻應該怎麼講。這一步決定了它能不能從轉錄工具，跨到編輯工具。

第三層，渲染框架。

這部分現在接的是 Pixelle + ffmpeg + TTS + 字幕合成。短視頻模式可以做 20 到 60 秒的中文科技快報，長視頻模式可以做 1 到 3 分鐘的章節型 explainer。也就是說，video-transcript 已經不只是輸出文檔，它能直接輸出成片。

第四層，模板和 override 框架。

這次最重要的沉澱，不只是做出了一條視頻，而是把模板、座標、證據窗規則、Pixelle override、同步腳本和設計規則一起沉到了 skill 裏。後面再做新題材，不用從頭試錯，直接沿着現成鏈路走就行。

這套鏈路為什麼值錢？因為它把同一個視頻源拆成了三種不同產品形態。

最基礎的是 document。

一條公開視頻進來，可以直接整理成講稿、紀要、雙語稿、Markdown、Word 文檔。對做研究、做資料沉澱的人來說，這一層已經很實用。

再往上一層是 newsroom。

這適合做 20 到 60 秒的中文快報。視頻裏的信息不會只停在 transcript，而會被轉成可播報的 newsroom 文案，再走模板直接出短視頻。

再往上一層就是 newsroom-longform。

這也是這次升級裏最關鍵的一層。它不是簡單加長，而是有明確的標題區、證據窗、編輯區和章節節奏，能把一條公開視頻變成一條真正的欄目片。

這裏最典型的例子，就是那條 SpaceX IPO 的 2 分鐘 warroom 成片。

這條視頻真正驗證的，不只是能渲出來，而是驗證了默認 longform 模板、證據窗、章節邏輯和編輯台這整套東西已經能穩定工作。

我用codex測了一下，生成的視頻非常自然，整體生成時間在10分鐘左右。

但這次踩出來的經驗，也很重要。

最關鍵的一條是：默認 warroom 模板只適合 9:16 的 YouTube Shorts / 豎屏短視頻證據源。

很多人會誤以為短視頻就能直接塞進模板裏，其實不是。普通橫版 YouTube 視頻，即使時長只有幾十秒，也會讓證據窗顯得像播放器殼，字幕容易被擠壓，整個頁面質感會掉很多。所以現在 skill 裏已經把這條經驗寫死了：默認 longform 模板優先吃真 Shorts；如果你不用這套模板，或者證據源不是 9:16，就要準備做額外的 UI 和 compositor 調整。

這也是為什麼，video-transcript 現在真正牛逼的地方，不只是功能多，而是默認路徑已經成立。

以前做這種東西，最難的不是寫腳本，而是每次都要重新回答一遍這些問題：

先抓字幕還是先轉錄？章節怎麼拆？
短視頻和長視頻怎麼分？模板放哪套？
證據窗怎麼處理？多個視頻源怎麼混？
字幕、TTS、視頻合成誰來兜？
什麼經驗該留在 worktree，什麼經驗該沉回 skill？

現在這些問題，已經不需要每次從零回答了。

因為腳本、模板、規則、文檔、README、設計約束、常見坑，都已經一起並進了 video-transcript。

更準確的說法應該是：video-transcript 現在已經是一條視頻內容編譯鏈。

輸入是一條公開視頻，輸出可以是文檔、短視頻，也可以是一條 2 分鐘的章節型欄目片。

真正稀缺的，不是把字幕抄下來，而是把視頻裏的信息，穩定變成另一種可以發佈、可以複用、可以繼續傳播的內容資產。

這才是它最值錢的地方。項目地址：github.com/ylouis83/video_transcript ht tps://github.com/ylouis83/video_transcript