絕了!這個視頻生成 Skill封神了

作者:路見遠思
日期:2026年4月21日 下午12:37
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

超勁!呢個視頻生成 Skill 封神咗

整理版摘要

呢篇文章介紹咗一個新開源嘅 Skill 叫 video-transcript,佢可以自動下載 YouTube、B站、抖音等平台嘅公開視頻,然後用 AI 完成轉錄、結構化、腳本生成同渲染,最終輸出成片。作者親身試用後發現,呢個 Skill 唔係單純嘅工具,而係一條完整嘅視頻內容編譯鏈,可以將同一段視頻源變成文檔、短劇或者長片,對內容創作者嚟講好實用。

呢個 Skill 嘅背景係作者見到市面上雖然有好多轉錄工具,但好少可以一條龍做到再生產。作者本身係一個科技自媒體人,成日需要從公開視頻提取資訊然後快速製作新內容。video-transcript 嘅出現解決咗佢嘅痛點,而且唔使每次從頭試錯,因為成條鏈路已經沉澱咗落個 Skill 度。整體結論係:呢個 Skill 真正值錢嘅地方,係將資訊由單向獲取變成可以複用同傳播嘅內容資產。

  • 結論:video-transcript 係一條完整嘅視頻內容編譯鏈,輸入公開視頻,輸出文檔、短劇或長片,實現內容再生產。
  • 方法:採用四層架構——抓取轉錄(yt-dlp+Whisper)、story planning(newsroom_story_builder)、渲染(Pixelle+ffmpeg+TTS)、模板 override(座標、證據窗規則等)。
  • 差異:同一般轉錄工具唔同,佢唔單止提取字幕,仲能自動拆章節、生成 newsroom 腳本、合成短視頻,將同一視頻源轉換成三種產品形態:document、newsroom、newsroom-longform。
  • 啟發:真正稀缺嘅唔係抄低字幕,而係將視頻資訊穩定變成另一種可發佈、可複用、可傳播嘅內容資產,而呢條鏈路打通咗成個流程。
  • 可行動點:如果你需要快速將公開視頻轉成自家內容,可以試用 video-transcript,尤其適合做科技快報同欄目片,生成時間約 10 分鐘,成品質素足以推送抖音或微信視頻號。
值得記低
連結 github.com

video-transcript 項目地址

開源 GitHub 項目,支援 YouTube、B站、抖音等平台視頻下載、轉錄、腳本生成同渲染輸出。

整理重點

一句話生成視頻,背後係完整鏈路

作者今日發現咗一個新開源嘅 Skill,叫 video-transcript。只要輸入一句話,例如「近期全網熱點,SpaceX IPO 主題嘅,抓 5 個手機版本嘅短視頻合成」,佢就會自動完成所有步驟。

呢個 Skill 真正完成嘅,唔係一兩個腳本拼湊,而係一條完整鏈路:公開視頻 -> transcript -> 結構化章節 -> newsroom 腳本 -> 視頻模板渲染 -> 成片輸出。

換句話講,佢處理嘅已經唔只係字幕提取,而係 視頻內容再生產。作者話成片質素好高,足夠推送去抖音或者微信視頻號,成個過程大約 10 分鐘。

整理重點

四層架構,逐層解構

  1. 1 第一層:抓取同轉錄框架。用 yt-dlp + subtitle extraction + Whisper fallback,優先抓原字幕,抓唔到就 Whisper 補底,輸出 raw_transcript.txt 等結構化檔案。
  2. 2 第二層:story planning 框架。用 newsroom_story_builder 自動拆章節、抽主線、生成 newsroom frame,決定條片點樣講,而唔係照稿讀。
  3. 3 第三層:渲染框架。接 Pixelle + ffmpeg + TTS + 字幕合成,支援 20-60 秒短視頻同 1-3 分鐘長視頻。
  4. 4 第四層:模板同 override 框架。將模板、座標、證據窗規則、Pixelle override、同步腳本等一次過沉澱落 Skill,新題材就唔使從頭試錯。

呢套架構嘅價值在於,佢將 同一條視頻源拆成三種唔同產品形態,由文檔到短劇再到長片,都係同一條鏈路出嚟。

整理重點

三種產品形態:文檔、短劇、長片

最基礎嘅係 document。一條公開視頻入嚟,可以整理成講稿、紀要、雙語稿、MarkdownWord 文檔,對做研究同資料沉澱好實用。

再上一層係 newsroom,適合做 20 到 60 秒嘅中文快報。視頻資訊唔會只停喺 transcript,反而會轉成可播報嘅 newsroom 文案,直接出短視頻。

最關鍵嘅係 newsroom-longform。佢有明確嘅標題區、證據窗、編輯區同章節節奏,能將一條公開視頻變成一條真正嘅欄目片。作者用 SpaceX IPO 主題測試,2 分鐘 warroom 成片驗證咗默認 longform 模板、證據窗、章節邏輯同編輯台已經穩定工作。

整理重點

踩坑經驗同真正價值

作者強調,而家 默認路徑已經成立,以前最難嘅唔係寫腳本,而係要每次重新回答「先抓字幕定先轉錄?章節點拆?」等問題。而家呢啲問題都 唔使再從零答,因為腳本、模板、規則、文檔、README、設計約束同常見坑都已經一齊並進咗 video-transcript。

真正稀缺嘅係 將視頻資訊穩定變成另一種可發佈、可複用、可繼續傳播嘅內容資產,而呢個 Skill 正正做到呢一點,呢個先係佢最值錢嘅地方。

我今日發現咗一個好勁嘅skill叫做video-transcript,啱啱開源。呢個skills支援公網所有視頻下載(YouTube、B站、抖音等),仲用完全由AI驅動完成自定義短視頻嘅輸出,完全係傻瓜式操作。
我哋嚟睇成片,是但揾咗一個主題。對住呢個skill輸入一句話:近期全網熱點,SpaceX IPO主題嘅,揾5個手機版本嘅短視頻合成:
我睇咗一下整體流程,呢個skill真正完成嘅,唔係一兩個腳本拼埋一齊,而係將一條完整鏈路接通咗:公開視頻 -> transcript -> 結構化章節 -> newsroom 腳本 -> 視頻模板渲染 -> 成片輸出
即係話,佢處理嘅已經唔只係字幕提取,而係視頻內容再生產。呢啲視頻生成嘅質素好高,已經夠我用嚟推送抖音或者微信視頻號喇。
我詳細睇咗一下呢個skill嘅實現,先睇佢接返嚟嘅核心框架。
圖片

第一層,抓取同轉錄框架。
呢一層用嘅係 yt-dlp + subtitle extraction + Whisper fallback。優先抓原視頻字幕,抓唔到就行 Whisper,將原始內容穩定變成 raw_transcript.txt、timestamped_transcript.json、sections.json 同 metadata.json。呢一步嘅意義,唔只係拎到文字,而係保留時間、章節同結構,為後面所有再利用打地基。
第二層,story planning 框架。
今次補返嚟嘅核心唔係再寫一個模板稿,而係 newsroom_story_builder。佢會根據 transcript 自動拆章節、抽主線、生成 newsroom frame,令內容從原視頻裏面講咗啲乜變成呢條視頻應該點講。呢一步決定咗佢可唔可以從轉錄工具,跨到編輯工具。
第三層,渲染框架
呢部分而家接嘅係 Pixelle + ffmpeg + TTS + 字幕合成。短視頻模式可以做 20 到 60 秒嘅中文科技快報,長視頻模式可以做 1 到 3 分鐘嘅章節型 explainer。即係話,video-transcript 已經唔只係輸出文檔,佢可以直接輸出成片。
第四層,模板同 override 框架。
今次最重要嘅沉澱,唔只係做出咗一條視頻,而係將模板、座標、證據窗規則、Pixelle override、同步腳本同設計規則一齊沉咗落 skill 裏面。後面再做新題材,唔使從頭試錯,直接沿住現成鏈路行就得。
呢套鏈路點解值錢?因為佢將同一個視頻源拆咗做三種唔同產品形態。
最基礎嘅係 document。
一條公開視頻入嚟,可以直接整理成講稿、紀要、雙語稿、Markdown、Word 文檔。對做研究、做資料沉澱嘅人嚟講,呢一層已經好實用。
再上一層係 newsroom。
呢度適合做 20 到 60 秒嘅中文快報。視頻裏面嘅資訊唔會只係停喺 transcript,而會被轉成可播報嘅 newsroom 文案,再行模板直接出短視頻。
再上一層就係 newsroom-longform。
呢個都係今次升級裏面最關鍵嘅一層。佢唔係簡單加長,而係有明確嘅標題區、證據窗、編輯區同章節節奏,能夠將一條公開視頻變成一條真正嘅欄目片。
呢度最典型嘅例子,就係嗰條 SpaceX IPO 嘅 2 分鐘 warroom 成片。
呢條視頻真正驗證嘅,唔只係能夠渲染出嚟,而係驗證咗默認 longform 模板、證據窗、章節邏輯同編輯台呢整套嘢已經可以穩定運作。
我用codex測咗一下,生成嘅視頻好自然,整體生成時間喺10分鐘左右。
圖片
但今次踩出嚟嘅經驗,都好重要。
最關鍵嘅一條係:默認 warroom 模板只適合 9:16 嘅 YouTube Shorts / 豎屏短視頻證據源。
好多人會誤以為短視頻就可以直接塞入模板裏面,其實唔係。普通橫版 YouTube 視頻,就算時長得幾十秒,都會令證據窗顯得似播放器殼,字幕容易被擠壓,成個頁面質感會跌好多。所以而家 skill 裏面已經將呢條經驗寫死咗:默認 longform 模板優先食真 Shorts;如果你唔用呢套模板,或者證據源唔係 9:16,就要準備做額外嘅 UI 同 compositor 調整。
呢個都係點解,video-transcript 而家真正犀利嘅地方,唔只係功能多,而係默認路徑已經成立。
以前做呢啲嘢,最難嘅唔係寫腳本,而係每次都重新答一次呢啲問題:
  • 先抓字幕定係先轉錄?章節點拆?
  • 短視頻同長視頻點分?模板放邊套?
  • 證據窗點處理?多個視頻源點樣混合?
  • 字幕、TTS、視頻合成邊個負責?
  • 啲經驗應該留喺 worktree,定係沉返去 skill?
而家呢啲問題,已經唔使每次都從頭答過。
因為腳本、模板、規則、文檔、README、設計約束、常見坑,都已經一齊並咗入 video-transcript。
圖片
更準確嘅講法應該係:video-transcript 而家已經係一條視頻內容編譯鏈。
輸入係一條公開視頻,輸出可以係文檔、短視頻,亦可以係一條 2 分鐘嘅章節型欄目片。
真正稀缺嘅,唔係將字幕抄低,而係將視頻裏面嘅資訊,穩定變成另一種可以發佈、可以複用、可以繼續傳播嘅內容資產。
呢個先係佢最值錢嘅地方。 項目地址:github.com/ylouis83/video_transcript ht tps://github.com/ylouis83/video_transcript 
我今天發現了一個非常牛x的skill 叫video-transcript 剛開源,這個skills支持公網所有視頻下載(YouTube、B站、抖音等),並用完全由AI驅動完成自定義短視頻的輸出,完全的傻瓜式操作。
我們來看成片,隨便找的一個主題。對着這個skill輸入一句話:近期全網熱點,SpaceX IPO主題的,抓5個手機版本的短視頻合成:
我看了一下整體流程,這個skill 真正完成的,不是一兩個腳本拼起來,而是把一條完整鏈路接通了:公開視頻 -> transcript -> 結構化章節 -> newsroom 腳本 -> 視頻模板渲染 -> 成片輸出
也就是說,它處理的已經不只是字幕提取,而是視頻內容再生產。這些視頻生成的質量很高,已經足夠我推送抖音或者微信視頻號了。
我詳細看了一下這個skill的實現,先看它接進來的核心框架。
圖片

第一層,抓取和轉錄框架。
這一層用的是 yt-dlp + subtitle extraction + Whisper fallback。優先抓原視頻字幕,抓不到再走 Whisper,把原始內容穩定變成 raw_transcript.txt、timestamped_transcript.json、sections.json 和 metadata.json。這一步的意義,不只是拿到文字,而是保留時間、章節和結構,為後面所有再利用打地基。
第二層,story planning 框架。
這次補進來的核心不是再寫一個模板稿,而是 newsroom_story_builder。它會根據 transcript 自動拆章節、抽主線、生成 newsroom frame,讓內容從原視頻裏說了什麼變成這一條視頻應該怎麼講。這一步決定了它能不能從轉錄工具,跨到編輯工具。
第三層,渲染框架
這部分現在接的是 Pixelle + ffmpeg + TTS + 字幕合成。短視頻模式可以做 20 到 60 秒的中文科技快報,長視頻模式可以做 1 到 3 分鐘的章節型 explainer。也就是說,video-transcript 已經不只是輸出文檔,它能直接輸出成片。
第四層,模板和 override 框架。
這次最重要的沉澱,不只是做出了一條視頻,而是把模板、座標、證據窗規則、Pixelle override、同步腳本和設計規則一起沉到了 skill 裏。後面再做新題材,不用從頭試錯,直接沿着現成鏈路走就行。
這套鏈路為什麼值錢?因為它把同一個視頻源拆成了三種不同產品形態。
最基礎的是 document。
一條公開視頻進來,可以直接整理成講稿、紀要、雙語稿、Markdown、Word 文檔。對做研究、做資料沉澱的人來說,這一層已經很實用。
再往上一層是 newsroom。
這適合做 20 到 60 秒的中文快報。視頻裏的信息不會只停在 transcript,而會被轉成可播報的 newsroom 文案,再走模板直接出短視頻。
再往上一層就是 newsroom-longform。
這也是這次升級裏最關鍵的一層。它不是簡單加長,而是有明確的標題區、證據窗、編輯區和章節節奏,能把一條公開視頻變成一條真正的欄目片。
這裏最典型的例子,就是那條 SpaceX IPO 的 2 分鐘 warroom 成片。
這條視頻真正驗證的,不只是能渲出來,而是驗證了默認 longform 模板、證據窗、章節邏輯和編輯台這整套東西已經能穩定工作。
我用codex測了一下,生成的視頻非常自然,整體生成時間在10分鐘左右。
圖片
但這次踩出來的經驗,也很重要。
最關鍵的一條是:默認 warroom 模板只適合 9:16 的 YouTube Shorts / 豎屏短視頻證據源。
很多人會誤以為短視頻就能直接塞進模板裏,其實不是。普通橫版 YouTube 視頻,即使時長只有幾十秒,也會讓證據窗顯得像播放器殼,字幕容易被擠壓,整個頁面質感會掉很多。所以現在 skill 裏已經把這條經驗寫死了:默認 longform 模板優先吃真 Shorts;如果你不用這套模板,或者證據源不是 9:16,就要準備做額外的 UI 和 compositor 調整。
這也是為什麼,video-transcript 現在真正牛逼的地方,不只是功能多,而是默認路徑已經成立。
以前做這種東西,最難的不是寫腳本,而是每次都要重新回答一遍這些問題:
  • 先抓字幕還是先轉錄?章節怎麼拆?
  • 短視頻和長視頻怎麼分?模板放哪套?
  • 證據窗怎麼處理?多個視頻源怎麼混?
  • 字幕、TTS、視頻合成誰來兜?
  • 什麼經驗該留在 worktree,什麼經驗該沉回 skill?
現在這些問題,已經不需要每次從零回答了。
因為腳本、模板、規則、文檔、README、設計約束、常見坑,都已經一起並進了 video-transcript。
圖片
更準確的說法應該是:video-transcript 現在已經是一條視頻內容編譯鏈。
輸入是一條公開視頻,輸出可以是文檔、短視頻,也可以是一條 2 分鐘的章節型欄目片。
真正稀缺的,不是把字幕抄下來,而是把視頻裏的信息,穩定變成另一種可以發佈、可以複用、可以繼續傳播的內容資產。
這才是它最值錢的地方。 項目地址:github.com/ylouis83/video_transcript ht tps://github.com/ylouis83/video_transcript