我做了一款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器!
整理版優先睇
內容創作者自製開源工具 MediaFlow,集下載、AI 翻譯、字幕編輯於一體,告別多工具切換嘅煩惱
呢篇文章係一個內容創作者分享佢自己開發嘅開源視頻工具 MediaFlow。作者平時成日要處理影片,發現現有工具分散:用 cobalt 下載、卡卡字幕助手轉錄同翻譯、SubtitleEdit 編輯、Premiere 合成,成個流程好麻煩。於是佢用一個月時間做咗個集下載、AI 翻譯、字幕編輯同合成嘅一站式工具。
工具功能包括:用 yt-dlp 下載大部分網站影片,特別為抖音快手做適配;用 Fast Whisper 做語音轉錄,CLI 版本斷句效果更好;支援 Deepseek API 做翻譯,夠平;字幕編輯可以改時間軸同內容,有波形圖拖動;最後可以合成影片加水印。不過作者話原本想加 AI 增強畫質、去水印等功能,但因為使用率低同依賴大而放棄咗。
作者反思呢個項目係 Vibe Coding 嘅失敗例子:用 Electron 做前端引致打包困難,Codex 重構時又留低好多屎山代碼。佢話如果再做一次,會直接用 Python 做界面,唔好俾 AI 牽住鼻子走。
- MediaFlow 整合下載、轉錄、翻譯、編輯同合成,一條龍解決影片處理需求。
- 下載功能支援 YouTube、Bilibili、小紅書等主流網站,特別為抖音快手加入適配。
- 轉錄用 Fast Whisper CLI 版本,可調整參數改善斷句,內置智能分割功能。
- AI 翻譯推薦用 Deepseek API,平靚正,設定好密鑰即可使用。
- 字幕編輯係最重嘅功能,支援波形圖拖動時間、右鍵選單識別未轉錄音頻,適合完美主義者。
創作初衷:受夠咗多工具切換嘅折磨
作者係一個內容創作者,成日要同影片打交道。佢發現要幫一條冇字幕嘅影片加字幕,需要用cobalt下載、卡卡字幕助手轉錄翻譯、SubtitleEdit編輯,最後用Adobe Premiere合成,成個流程好鬼麻煩。
佢話:「是可忍熟不可忍!」於是用一個月時間自己開發咗MediaFlow,目標係一體化搞掂曬。
功能亮點:由下載到合成一條龍
- 影片下載:用 yt-dlp 支援大部分網站,包括 X、YouTube、Bilibili、小紅書;特別為抖音快手做咗 Cookie 管理 適配。
- 語音轉錄:用 Fast Whisper CLI 版本,可以傳遞參數改善斷句,仲有「智能分割」按鈕分割過長字幕。
- AI 翻譯:推薦用 Deepseek API,好平,官方網站買嘅話「一塊錢用好幾天」。
- 字幕編輯:可以喺「編輯選中項」修改內容,喺音頻波形圖拖動時間,右鍵有更多功能。
- 影片合成:可以調整字幕參數,最重要係可以添加水印。
教訓與反思:Vibe Coding 嘅失敗案例
作者承認呢個項目從 Vibe Coding 角度係失敗嘅。佢選用Electron做前端,搞到打包困難,要不停重構;Codex 重構時又為咗兼容舊架構寫咗好多屎山代碼。
作者原本諗住加 AI 畫質增強、去水印、OCR 等功能,但因為使用率低同依賴庫大,最終放棄咗。佢話下次做項目一定先諗「前端定後端」呢個問題。
點樣試用同加入?
桌面版仲在打包中,作者話過幾日會出正式版。如果你願意做小白鼠,可以直接下載源碼打包或者加羣試用。
對 Vibe Coding 有興趣嘅,可以加作者交流羣,備註暗號「MediaFlow」。
⬆️㩒上面嘅藍字撳關注加星標⭐睇更多內容!
朋友仔有冇好奇我最近做緊乜嘢?
作為一個內容創作者,成日都要同影片打交道,無論你係純粹搬運、整理文稿,抑或想幫自己條片加字幕,都冇一個工具可以完全解決所有問題。
卡卡字幕助手(VideoCaptioner)應該係目前最完善嘅工具,集下載、AI 翻譯、影片合成於一身。但係!佢仍然冇好似 SubtitleEdit 咁嘅字幕校對同編輯功能,而且下載功能成日失靈。

於是我諗要幫一條冇字幕嘅影片加字幕,就要先開 cobalt 下載影片,用卡卡字幕助手轉錄字幕同翻譯,用 SubtitleEdit 編輯字幕,最後開 Adobe Premiere 合成影片。
幾咁麻煩!
是可忍孰不可忍!
於是 AI 嘅大手發力喇!我用一個月時間整咗呢個集下載、AI 翻譯、編輯字幕於一身嘅開源影片神器 MediaFlow!

下面就等我向大家一一介紹佢嘅功能。
功能介紹
1. 影片下載
下載影片功能用嘅係 yt-dlp,支援互聯網上絕大部分影片網站,包括 X(Twitter)、Youtube、Bilibili、小紅書等。
我仲特登為抖音同快手呢啲 yt-dlp 唔支援嘅網站做咗適配,包括 Cookie 管理等,費咗好多功夫。實際上我並唔需要呢啲網站嘅影片,但為咗大而全所以照做,之後亦拖咗唔少後腿,只能話係個教訓,應該優先做自己真正有需要嘅功能。

2. 轉錄字幕
呢方面用咗最流行嘅 Fast Whisper 模型,一開始用咗做咗 Python 內置引擎,但佢嘅斷句有啲問題。於是又下載咗 CLI 版本,CLI 可以傳遞參數,經過不停調整終於出到比較好嘅字幕,改完又改,真係唔易。
但仲有一個潛在問題,一句話可能會太長,所以我加咗個「智能分割」掣,可以自動分割過長嘅字幕。

3. AI 翻譯
Deepseek 嘅 API 最平,推薦用呢個,而且效果都唔錯。
需要喺「設定」度揀選並填寫密鑰,喺 官方網站 買就得,一蚊雞可以用幾日!

4. 字幕編輯
呢部分係最重嘅功能,簡單講,你可以喺「編輯選中項」度修改字幕具體內容,喺音頻波形圖度拖拉字幕時間長短。

滑鼠右鍵仲有好多豐富功能,例如識別某段之前冇被轉錄嘅音頻、智能分割等等。
如果你唔係完美主義者,可能頭三個功能已經滿足到你。但如果你希望字幕正確冇瑕疵,呢部分功能最重要。
修改完字幕之後,就可以㩒上面嘅掣進行影片合成。
5. 影片合成
影片合成界面可以調整字幕嘅各項參數,以及最重要嘅,加水印。

到呢度,整個功能就完善咗。
我原本仲想加入 AI 畫質提升、影片去水印、OCR 字幕識別等功能,但呢啲功能唔單止使用率低、依賴庫龐大,而且冇幾多人部電腦行得鬱,所以就擱置咗。

最後,呢個項目嘅桌面版正在打包中,我仲要花幾日確認正式版冇任何 bug,相信好快就會上線。
如果你願意做白老鼠,可以直接 下載源碼 打包或者加羣試嚇,哈哈。
苦澀嘅教訓:
從 Vibe Coding 嘅角度嚟講,呢個項目可以話係失敗嘅,雖然對我個人使用上嚟講係成功嘅。
如果畀我再做一次呢個項目,我唔會再用 Electron 做前端界面,而係直接用 Python 做界面。
前後端架構令打包嗰陣遇到巨大困難,搞到我不得不一次又一次重構。
更差嘅係 Codex 為咗兼容舊架構寫咗無數嘅屎山代碼,簡直折磨。如果你用 Codex 重構,一定要叫佢強制遷移。

信任 AI,但亦唔好畀 AI 牽住鼻子行。
將來做項目,都要先諗一個問題:前端定後端?
聯絡方式
最後,如果你都對 Vibe Coding 有興趣,歡迎加我入交流羣,加好友備註暗號MediaFlow。

⬆️戳上面的藍字點擊關注加星標⭐觀看更多內容!
小夥伴們有沒有好奇我最近在做什麼呢?
作為一個內容創作者,少不了和視頻打交道,無論你只是單純的搬運、整理文稿還是想給自己的視頻加上字幕,都沒有一款工具能徹底解決所有問題。
卡卡字幕助手(VideoCaptioner)應該是目前最完善的工具了,集下載、AI 翻譯、視頻合成於一體。但是!它還是沒有像 SubtitleEdit 一樣的字幕校對和編輯功能,並且下載功能一直抽風。

於是我想要給一個沒有字幕的視頻加上字幕,就需要先打開cobalt 下載視頻,卡卡字幕助手轉錄字幕和翻譯,SubtitleEdit 編輯字幕,最後打開 Adobe Premiere 合成視頻。
何等的麻煩!
是可忍熟不可忍!
於是 AI 的大手發力了!我用一個月時間做出來這款集下載、AI 翻譯、編輯字幕於一體的開源視頻神器 MediaFlow!

下面就由我來向大家一一介紹它的功能。
功能介紹
1. 視頻下載
下載視頻功能使用的 yt-dlp,支持互聯網上絕大多數視頻網站,包括 X(Twitter)、Youtube、Bilibili、小紅書等。
我還特地為抖音和快手等 yt-dlp 不支持的網站做了適配,包括 Cookie 管理等,費了很大的功夫。實際上我並不需要這些網站的視頻,但為了大而全還是做了,後續也拖了不少後腿,只能說是個教訓了,應該優先做自己真正有需求的功能。

2. 轉錄字幕
這方面用的最流行的 Fast Whisper 模型,一開始用的做了 Python 內置引擎,但它的斷句有一些問題。於是又下載了 CLI 版本,CLI 可以傳遞參數,經過不停地調整終於能輸出較好的字幕,改了一次又一次,真不容易。
但還有一個潛在的問題,一句話可能過長,因此我加了一個“智能分割”按鈕,可以自動分割過長的字幕。

3. AI 翻譯
Deepseek 的 API 最便宜,推薦使用這個,並且效果也不錯。
需要在“設置”裏選擇並填寫密鑰,在 官方網站 購買就行了,一塊錢能用好幾天!

4. 字幕編輯
這部分是最重的功能,簡單來說,你可以在”編輯選中項“裏修改字幕具體的內容,在音頻波形圖裏拖動字幕時間長短。

鼠標右鍵還有更多豐富的功能,比如說識別某段之前沒有被轉錄的音頻、智能分割等等。
如果你不是一個完美主義者,也許前三個功能就已經能滿足你了。但如果你希望字幕正確且沒有瑕疵,這部分功能最重要。
修改完字幕後,就可以點擊上面的按鈕進行視頻合成了。
5. 視頻合成
視頻合成界面可以調整字幕的各項參數,以及最重要的,添加水印。

到這裏,整個功能就完善了。
我原本還想加入 AI 畫質高清、視頻去水印、OCR 字幕識別等功能,但這些功能不僅使用率低、依賴庫龐大,並且沒幾個人的電腦能跑得動,也就擱置了。

最後,這個項目的桌面版正在打包中,我還得花幾天確認正式版沒有任何 bug,相信不久就會上線了。
如果你願意做小白鼠的話,可以直接 下載源碼 打包或者加羣試試,哈哈。
苦澀的教訓:
從 Vibe Coding 的角度來講,這個項目可以說是失敗的,雖然對於我個人使用上來說是成功的。
如果讓我再做一次這個項目,我不會再使用 Electron 做前端界面,而是直接使用 Python 做界面。
前後端架構讓打包時遇到了巨大的困難,以至於我不得不一遍又一遍地重構。
更糟糕的是 Codex 為了兼容舊架構寫了無數的屎山代碼,簡直是折磨。如果你在使用 Codex 重構,一定要讓它強制遷移。

給予 AI 信賴,但也不要被 AI 牽着鼻子走。
未來做項目時,都得先思考一個問題:前端 or 後端?
聯繫方式
最後,如果你也對 Vibe Coding 感興趣,歡迎加我入交流羣,加好友備註暗號MediaFlow。
