我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

作者:柴寶養成計劃
日期:2026年4月2日 上午4:32
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

內容創作者自製開源工具 MediaFlow,集下載、AI 翻譯、字幕編輯於一體,告別多工具切換嘅煩惱

整理版摘要

呢篇文章係一個內容創作者分享佢自己開發嘅開源視頻工具 MediaFlow。作者平時成日要處理影片,發現現有工具分散:用 cobalt 下載、卡卡字幕助手轉錄同翻譯、SubtitleEdit 編輯、Premiere 合成,成個流程好麻煩。於是佢用一個月時間做咗個集下載、AI 翻譯、字幕編輯同合成嘅一站式工具。

工具功能包括:用 yt-dlp 下載大部分網站影片,特別為抖音快手做適配;用 Fast Whisper 做語音轉錄,CLI 版本斷句效果更好;支援 Deepseek API 做翻譯,夠平;字幕編輯可以改時間軸同內容,有波形圖拖動;最後可以合成影片加水印。不過作者話原本想加 AI 增強畫質、去水印等功能,但因為使用率低同依賴大而放棄咗。

作者反思呢個項目係 Vibe Coding 嘅失敗例子:用 Electron 做前端引致打包困難,Codex 重構時又留低好多屎山代碼。佢話如果再做一次,會直接用 Python 做界面,唔好俾 AI 牽住鼻子走。

  • MediaFlow 整合下載、轉錄、翻譯、編輯同合成,一條龍解決影片處理需求。
  • 下載功能支援 YouTubeBilibili、小紅書等主流網站,特別為抖音快手加入適配。
  • 轉錄用 Fast Whisper CLI 版本,可調整參數改善斷句,內置智能分割功能。
  • AI 翻譯推薦用 Deepseek API,平靚正,設定好密鑰即可使用。
  • 字幕編輯係最重嘅功能,支援波形圖拖動時間、右鍵選單識別未轉錄音頻,適合完美主義者。
整理重點

創作初衷:受夠咗多工具切換嘅折磨

作者係一個內容創作者,成日要同影片打交道。佢發現要幫一條冇字幕嘅影片加字幕,需要用cobalt下載、卡卡字幕助手轉錄翻譯、SubtitleEdit編輯,最後用Adobe Premiere合成,成個流程好鬼麻煩。

佢話:「是可忍熟不可忍!」於是用一個月時間自己開發咗MediaFlow,目標係一體化搞掂曬。

整理重點

功能亮點:由下載到合成一條龍

  • 影片下載:用 yt-dlp 支援大部分網站,包括 X、YouTubeBilibili、小紅書;特別為抖音快手做咗 Cookie 管理 適配。
  • 語音轉錄:用 Fast Whisper CLI 版本,可以傳遞參數改善斷句,仲有「智能分割」按鈕分割過長字幕。
  • AI 翻譯:推薦用 Deepseek API,好平,官方網站買嘅話「一塊錢用好幾天」。
  • 字幕編輯:可以喺「編輯選中項」修改內容,喺音頻波形圖拖動時間,右鍵有更多功能。
  • 影片合成:可以調整字幕參數,最重要係可以添加水印。
整理重點

教訓與反思:Vibe Coding 嘅失敗案例

作者承認呢個項目從 Vibe Coding 角度係失敗嘅。佢選用Electron做前端,搞到打包困難,要不停重構;Codex 重構時又為咗兼容舊架構寫咗好多屎山代碼。

作者原本諗住加 AI 畫質增強、去水印、OCR 等功能,但因為使用率低同依賴庫大,最終放棄咗。佢話下次做項目一定先諗「前端定後端」呢個問題。

整理重點

點樣試用同加入?

桌面版仲在打包中,作者話過幾日會出正式版。如果你願意做小白鼠,可以直接下載源碼打包或者加羣試用。

Vibe Coding 有興趣嘅,可以加作者交流羣,備註暗號「MediaFlow」。

⬆️㩒上面嘅藍字撳關注加星標⭐睇更多內容

朋友仔有冇好奇我最近做緊乜嘢?

作為一個內容創作者,成日都要同影片打交道,無論你係純粹搬運、整理文稿,抑或想幫自己條片加字幕,都冇一個工具可以完全解決所有問題。

卡卡字幕助手(VideoCaptioner)應該係目前最完善嘅工具,集下載、AI 翻譯、影片合成於一身。但係!佢仍然冇好似 SubtitleEdit 咁嘅字幕校對同編輯功能,而且下載功能成日失靈。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

於是我諗要幫一條冇字幕嘅影片加字幕,就要先開 cobalt 下載影片,用卡卡字幕助手轉錄字幕同翻譯,用 SubtitleEdit 編輯字幕,最後開 Adobe Premiere 合成影片。

幾咁麻煩!

是可忍孰不可忍!

於是 AI 嘅大手發力喇!我用一個月時間整咗呢個集下載、AI 翻譯、編輯字幕於一身嘅開源影片神器 MediaFlow!

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

下面就等我向大家一一介紹佢嘅功能。

功能介紹

1. 影片下載

下載影片功能用嘅係 yt-dlp,支援互聯網上絕大部分影片網站,包括 X(Twitter)、Youtube、Bilibili、小紅書等。

我仲特登為抖音同快手呢啲 yt-dlp 唔支援嘅網站做咗適配,包括 Cookie 管理等,費咗好多功夫。實際上我並唔需要呢啲網站嘅影片,但為咗大而全所以照做,之後亦拖咗唔少後腿,只能話係個教訓,應該優先做自己真正有需要嘅功能。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!
2. 轉錄字幕

呢方面用咗最流行嘅 Fast Whisper 模型,一開始用咗做咗 Python 內置引擎,但佢嘅斷句有啲問題。於是又下載咗 CLI 版本,CLI 可以傳遞參數,經過不停調整終於出到比較好嘅字幕,改完又改,真係唔易。

但仲有一個潛在問題,一句話可能會太長,所以我加咗個「智能分割」掣,可以自動分割過長嘅字幕。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!
3. AI 翻譯

Deepseek 嘅 API 最平,推薦用呢個,而且效果都唔錯。

需要喺「設定」度揀選並填寫密鑰,喺 官方網站 買就得,一蚊雞可以用幾日!

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!
4. 字幕編輯

呢部分係最重嘅功能,簡單講,你可以喺「編輯選中項」度修改字幕具體內容,喺音頻波形圖度拖拉字幕時間長短。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

滑鼠右鍵仲有好多豐富功能,例如識別某段之前冇被轉錄嘅音頻、智能分割等等。

如果你唔係完美主義者,可能頭三個功能已經滿足到你。但如果你希望字幕正確冇瑕疵,呢部分功能最重要。

修改完字幕之後,就可以㩒上面嘅掣進行影片合成。

5. 影片合成

影片合成界面可以調整字幕嘅各項參數,以及最重要嘅,加水印。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

到呢度,整個功能就完善咗。

我原本仲想加入 AI 畫質提升、影片去水印、OCR 字幕識別等功能,但呢啲功能唔單止使用率低、依賴庫龐大,而且冇幾多人部電腦行得鬱,所以就擱置咗。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

最後,呢個項目嘅桌面版正在打包中,我仲要花幾日確認正式版冇任何 bug,相信好快就會上線。

如果你願意做白老鼠,可以直接 下載源碼 打包或者加羣試嚇,哈哈。

苦澀嘅教訓:

從 Vibe Coding 嘅角度嚟講,呢個項目可以話係失敗嘅,雖然對我個人使用上嚟講係成功嘅。

如果畀我再做一次呢個項目,我唔會再用 Electron 做前端界面,而係直接用 Python 做界面。

前後端架構令打包嗰陣遇到巨大困難,搞到我不得不一次又一次重構。

更差嘅係 Codex 為咗兼容舊架構寫咗無數嘅屎山代碼,簡直折磨。如果你用 Codex 重構,一定要叫佢強制遷移。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

信任 AI,但亦唔好畀 AI 牽住鼻子行。

將來做項目,都要先諗一個問題:前端定後端?

聯絡方式

最後,如果你都對 Vibe Coding 有興趣,歡迎加我入交流羣,加好友備註暗號MediaFlow

我用 AI“抄襲”了 flomo,並且 —— 開源了!

睇到呢度,唔關注嚇嘛?👇
如果你覺得呢篇文章對你有幫助,不妨點讚👍、收藏⭐、分享📤,等更多人見到!
如果你有任何疑問或見解,歡迎喺評論區留言,我哋一齊交流探討!😊
- END -
往期文章:
20 分鐘學完 4 年經濟學
李錄談賣出股票嘅四個理由
越過人類知識嘅邊界:AlphaGo 十週年回望與認知革命
我用 AI「抄襲」咗 flomo,並且 —— 開源咗!
點解馬斯克會執著於能源革命、火星移民同跨行星文明
我哋正在見證二戰後經濟秩序嘅瓦解
英偉達盯上咗肯德基,快餐行業嘅點單姐姐要被 AI 取代咗?


⬆️戳上面的藍字點擊關注加星標⭐觀看更多內容

小夥伴們有沒有好奇我最近在做什麼呢?

作為一個內容創作者,少不了和視頻打交道,無論你只是單純的搬運、整理文稿還是想給自己的視頻加上字幕,都沒有一款工具能徹底解決所有問題。

卡卡字幕助手(VideoCaptioner)應該是目前最完善的工具了,集下載、AI 翻譯、視頻合成於一體。但是!它還是沒有像 SubtitleEdit 一樣的字幕校對和編輯功能,並且下載功能一直抽風。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

於是我想要給一個沒有字幕的視頻加上字幕,就需要先打開cobalt 下載視頻,卡卡字幕助手轉錄字幕和翻譯,SubtitleEdit 編輯字幕,最後打開 Adobe Premiere 合成視頻。

何等的麻煩!

是可忍熟不可忍!

於是 AI 的大手發力了!我用一個月時間做出來這款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器 MediaFlow!

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

下面就由我來向大家一一介紹它的功能。

功能介紹

1. 視頻下載

下載視頻功能使用的 yt-dlp,支持互聯網上絕大多數視頻網站,包括 X(Twitter)、Youtube、Bilibili、小紅書等。

我還特地為抖音和快手等 yt-dlp 不支持的網站做了適配,包括 Cookie 管理等,費了很大的功夫。實際上我並不需要這些網站的視頻,但為了大而全還是做了,後續也拖了不少後腿,只能說是個教訓了,應該優先做自己真正有需求的功能。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!
2. 轉錄字幕

這方面用的最流行的 Fast Whisper 模型,一開始用的做了 Python 內置引擎,但它的斷句有一些問題。於是又下載了 CLI 版本,CLI 可以傳遞參數,經過不停地調整終於能輸出較好的字幕,改了一次又一次,真不容易。

但還有一個潛在的問題,一句話可能過長,因此我加了一個“智能分割”按鈕,可以自動分割過長的字幕。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!
3. AI 翻譯

Deepseek 的 API 最便宜,推薦使用這個,並且效果也不錯。

需要在“設置”裏選擇並填寫密鑰,在 官方網站 購買就行了,一塊錢能用好幾天!

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!
4. 字幕編輯

這部分是最重的功能,簡單來說,你可以在”編輯選中項“裏修改字幕具體的內容,在音頻波形圖裏拖動字幕時間長短。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

鼠標右鍵還有更多豐富的功能,比如說識別某段之前沒有被轉錄的音頻、智能分割等等。

如果你不是一個完美主義者,也許前三個功能就已經能滿足你了。但如果你希望字幕正確且沒有瑕疵,這部分功能最重要。

修改完字幕後,就可以點擊上面的按鈕進行視頻合成了。

5. 視頻合成

視頻合成界面可以調整字幕的各項參數,以及最重要的,添加水印。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

到這裏,整個功能就完善了。

我原本還想加入 AI 畫質高清、視頻去水印、OCR 字幕識別等功能,但這些功能不僅使用率低、依賴庫龐大,並且沒幾個人的電腦能跑得動,也就擱置了。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

最後,這個項目的桌面版正在打包中,我還得花幾天確認正式版沒有任何 bug,相信不久就會上線了。

如果你願意做小白鼠的話,可以直接 下載源碼 打包或者加羣試試,哈哈。

苦澀的教訓:

從 Vibe Coding 的角度來講,這個項目可以說是失敗的,雖然對於我個人使用上來說是成功的。

如果讓我再做一次這個項目,我不會再使用 Electron 做前端界面,而是直接使用 Python 做界面。

前後端架構讓打包時遇到了巨大的困難,以至於我不得不一遍又一遍地重構。

更糟糕的是 Codex 為了兼容舊架構寫了無數的屎山代碼,簡直是折磨。如果你在使用 Codex 重構,一定要讓它強制遷移。

我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!

給予 AI 信賴,但也不要被 AI 牽着鼻子走。

未來做項目時,都得先思考一個問題:前端 or 後端?

聯繫方式

最後,如果你也對 Vibe Coding 感興趣,歡迎加我入交流羣,加好友備註暗號MediaFlow

我用 AI“抄襲”了 flomo,並且 —— 開源了!

看到這兒了,不關注一下嘛?👇
如果你覺得本文對你有幫助,不妨點贊👍、收藏⭐、分享📤,讓更多人看到!
如果你有任何疑問或見解,歡迎在評論區留言,我們一起交流探討!😊
- END -
往期文章:
20 分鐘學完 4 年經濟學
李錄談賣出股票的四個理由
越過人類知識的邊界:AlphaGo 十週年回望與認知革命
我用 AI “抄襲”了 flomo,並且 —— 開源了!
為什麼馬斯克會執着於能源革命、火星移民和跨行星文明
我們正在見證二戰後經濟秩序的瓦解
英偉達盯上了肯德基,快餐行業的點單小姐姐要被 AI 取代了?