絕了!這個視頻生成 Skill封神了
整理版優先睇
超勁!呢個視頻生成 Skill 封神咗
呢篇文章介紹咗一個新開源嘅 Skill 叫 video-transcript,佢可以自動下載 YouTube、B站、抖音等平台嘅公開視頻,然後用 AI 完成轉錄、結構化、腳本生成同渲染,最終輸出成片。作者親身試用後發現,呢個 Skill 唔係單純嘅工具,而係一條完整嘅視頻內容編譯鏈,可以將同一段視頻源變成文檔、短劇或者長片,對內容創作者嚟講好實用。
呢個 Skill 嘅背景係作者見到市面上雖然有好多轉錄工具,但好少可以一條龍做到再生產。作者本身係一個科技自媒體人,成日需要從公開視頻提取資訊然後快速製作新內容。video-transcript 嘅出現解決咗佢嘅痛點,而且唔使每次從頭試錯,因為成條鏈路已經沉澱咗落個 Skill 度。整體結論係:呢個 Skill 真正值錢嘅地方,係將資訊由單向獲取變成可以複用同傳播嘅內容資產。
- 結論:video-transcript 係一條完整嘅視頻內容編譯鏈,輸入公開視頻,輸出文檔、短劇或長片,實現內容再生產。
- 方法:採用四層架構——抓取轉錄(yt-dlp+Whisper)、story planning(newsroom_story_builder)、渲染(Pixelle+ffmpeg+TTS)、模板 override(座標、證據窗規則等)。
- 差異:同一般轉錄工具唔同,佢唔單止提取字幕,仲能自動拆章節、生成 newsroom 腳本、合成短視頻,將同一視頻源轉換成三種產品形態:document、newsroom、newsroom-longform。
- 啟發:真正稀缺嘅唔係抄低字幕,而係將視頻資訊穩定變成另一種可發佈、可複用、可傳播嘅內容資產,而呢條鏈路打通咗成個流程。
- 可行動點:如果你需要快速將公開視頻轉成自家內容,可以試用 video-transcript,尤其適合做科技快報同欄目片,生成時間約 10 分鐘,成品質素足以推送抖音或微信視頻號。
video-transcript 項目地址
開源 GitHub 項目,支援 YouTube、B站、抖音等平台視頻下載、轉錄、腳本生成同渲染輸出。
一句話生成視頻,背後係完整鏈路
作者今日發現咗一個新開源嘅 Skill,叫 video-transcript。只要輸入一句話,例如「近期全網熱點,SpaceX IPO 主題嘅,抓 5 個手機版本嘅短視頻合成」,佢就會自動完成所有步驟。
呢個 Skill 真正完成嘅,唔係一兩個腳本拼湊,而係一條完整鏈路:公開視頻 -> transcript -> 結構化章節 -> newsroom 腳本 -> 視頻模板渲染 -> 成片輸出。
換句話講,佢處理嘅已經唔只係字幕提取,而係 視頻內容再生產。作者話成片質素好高,足夠推送去抖音或者微信視頻號,成個過程大約 10 分鐘。
四層架構,逐層解構
- 1 第一層:抓取同轉錄框架。用 yt-dlp + subtitle extraction + Whisper fallback,優先抓原字幕,抓唔到就 Whisper 補底,輸出 raw_transcript.txt 等結構化檔案。
- 2 第二層:story planning 框架。用 newsroom_story_builder 自動拆章節、抽主線、生成 newsroom frame,決定條片點樣講,而唔係照稿讀。
- 3 第三層:渲染框架。接 Pixelle + ffmpeg + TTS + 字幕合成,支援 20-60 秒短視頻同 1-3 分鐘長視頻。
- 4 第四層:模板同 override 框架。將模板、座標、證據窗規則、Pixelle override、同步腳本等一次過沉澱落 Skill,新題材就唔使從頭試錯。
呢套架構嘅價值在於,佢將 同一條視頻源拆成三種唔同產品形態,由文檔到短劇再到長片,都係同一條鏈路出嚟。
三種產品形態:文檔、短劇、長片
最基礎嘅係 document。一條公開視頻入嚟,可以整理成講稿、紀要、雙語稿、Markdown、Word 文檔,對做研究同資料沉澱好實用。
再上一層係 newsroom,適合做 20 到 60 秒嘅中文快報。視頻資訊唔會只停喺 transcript,反而會轉成可播報嘅 newsroom 文案,直接出短視頻。
最關鍵嘅係 newsroom-longform。佢有明確嘅標題區、證據窗、編輯區同章節節奏,能將一條公開視頻變成一條真正嘅欄目片。作者用 SpaceX IPO 主題測試,2 分鐘 warroom 成片驗證咗默認 longform 模板、證據窗、章節邏輯同編輯台已經穩定工作。
踩坑經驗同真正價值
作者強調,而家 默認路徑已經成立,以前最難嘅唔係寫腳本,而係要每次重新回答「先抓字幕定先轉錄?章節點拆?」等問題。而家呢啲問題都 唔使再從零答,因為腳本、模板、規則、文檔、README、設計約束同常見坑都已經一齊並進咗 video-transcript。
真正稀缺嘅係 將視頻資訊穩定變成另一種可發佈、可複用、可繼續傳播嘅內容資產,而呢個 Skill 正正做到呢一點,呢個先係佢最值錢嘅地方。


先抓字幕定係先轉錄?章節點拆? 短視頻同長視頻點分?模板放邊套? 證據窗點處理?多個視頻源點樣混合? 字幕、TTS、視頻合成邊個負責? 啲經驗應該留喺 worktree,定係沉返去 skill?



先抓字幕還是先轉錄?章節怎麼拆? 短視頻和長視頻怎麼分?模板放哪套? 證據窗怎麼處理?多個視頻源怎麼混? 字幕、TTS、視頻合成誰來兜? 什麼經驗該留在 worktree,什麼經驗該沉回 skill?
