剪映轉字幕要 SVIP?我用 Codex 5 分鐘自己做了一個免費的
整理版優先睇
用 Codex 5分鐘自製免費字幕工具,唔使俾剪映 SVIP 錢
作者係一個成日要整字幕嘅內容創作者,遇到剪映「音頻轉字幕」功能要 SVIP,佢係 VIP 但唔係 SVIP,好唔忿氣。佢諗:與其俾錢,不如用 AI 幫自己做一個。結果佢用 OpenAI 嘅 Codex,花咗大約 5 分鐘,由零開始整咗個音頻轉字幕工具,仲可以喺本地運行,唔使上傳任何檔案。
整體結論係:AI 編程工具已經將開發門檻降到好低,唔識寫程式嘅人都可以透過自然語言指令整到自己需要嘅功能。作者分享咗佢用 Codex 嘅 5 個步驟:先用 Plan 模式規劃、Review 方案、等 Codex 自動生成、處理報錯、最後優化體驗加進度條同網頁界面。佢強調呢個方法唔係鼓勵重複造輪子,而係當現成工具太貴、難用或有私隱問題時,可以用 AI 自製解決方案。
- 用 Codex 嘅 Plan 模式先規劃,唔好急住寫 code,可以慳好多試錯時間
- 生成方案後要 Review 同精簡,唔需要嘅部分可以叫 Codex 去掉,例如測試部分
- 遇到報錯直接將錯誤訊息貼俾 Codex,佢會分析原因並提供修正方法
- 作者用本地已有嘅語音模型,叫 Codex 直接搜尋緩存目錄複用,唔使自己揾路徑
- 最終工具係本地 Web 頁面,拖拽上傳音頻就有 SRT 字幕,完美匹配剪映
完整版教學影片
文末嘅影片連結,詳細展示開發過程
開源項目獲取方式
關注公眾號發送「字幕」可獲取代碼
點解要用 Codex 自製字幕工具?
作者係一個成日要整字幕嘅內容創作者,發現剪映嘅「音頻轉字幕」功能要 SVIP 先用到,但佢只係普通 VIP,覺得好唔抵。以前遇到呢啲情況,只有兩個選擇:俾錢或者放棄。但今次佢諗到第三條路:用 AI 編程工具自己整一個。
結果佢用咗 OpenAI Codex,花咗大約 5 分鐘就整咗個音頻轉字幕工具。呢個工具可以 本地運行,唔使上傳任何檔案,生成嘅 SRT 字幕檔可以直接導入剪映,完美匹配。
5 步開發流程
- 1 用 Plan 模式先規劃,輸入需求:「開發一個音頻轉字幕功能,使用本地模型,不調用外部 API,請先給出實施步驟」。Codex 會畀一份清晰方案,仲會問你問題嚟確認細節。
- 2 Review 方案,精簡唔需要嘅部分,例如作者覺得唔使測試,就叫 Codex 刪走。確認無問題就點「Implement Plan」開始執行。
- 3 等 Codex 自動生成,大概 4-5 分鐘,會自動建立項目文件、README、依賴安裝命令等。有唔明可以直接問 Codex。
- 4 處理報錯:第一次運行實有錯誤,將錯誤訊息複製俾 Codex,佢會分析原因畀新命令。作者遇到模型下載卡住,叫 Codex 搜尋本地緩存目錄,發現已有可用模型,直接改 code 複用。
- 5 優化體驗:加進度條令顯示更直觀,再整一個 Web 頁面,支援拖拽上傳音頻、顯示處理進度、一鍵下載 SRT 檔案。
驗證結果同最終感受
打開剪映,導入生成嘅 SRT 檔案,隱藏原字幕,播放影片——字幕同音頻完美匹配,分段都好自然。成個過程 本地運行,唔依靠外部服務,音頻檔案唔會上傳到任何平台。
作者話,以前遇到軟件功能要付費,只得兩個選項:俾錢或者放棄。而家多咗第三個:用 AI 工具自己做一個。呢個唔係鼓勵重複造輪子,而係當你真係需要某個功能,而現成工具要收費、唔好用、或者有私隱顧慮嘅時候,AI 編程工具係一個好認真嘅選項。門檻比你想象中低好多。
有一日我想幫條片加字幕,打開剪映,發現「音頻轉字幕」功能要 SVIP。我係 VIP,但唔係 SVIP,爭咗一個檔次。
以前可能就忍咗,一係畀錢,一係揾其他軟件。但係今次我想轉個諗法——可唔可以用 AI 幫我做一個?
結果用咗大概 5 分鐘,我用 Codex 開發咗一個音頻轉字幕工具。上傳音頻,自動生成 SRT 字幕文件,導入剪映完美匹配。免費,喺本地運行,唔會上傳任何文件。
完整版視頻喺文末!
先講下 Codex 係咩
Codex 係 OpenAI 推出嘅 AI 編程工具,可以透過自然語言指令幫你寫 code、執行任務、除錯。你唔需要識編程,只需要識「提出需求」。
類似嘅工具仲有 Cursor、GitHub Copilot、Claude Code,思路都差唔多——你話想要咩,AI 幫你實現。

完整開發過程,分 5 步走
第一步:用 Plan 模式先規劃,唔好急住寫 code
打開 Codex,新建目錄,切換到 Plan 模式,輸入:「開發一個音頻轉字幕功能,用本地模型,唔 call 外部 API,請先畀出實施步驟」。

Codex 會畀你一份清晰嘅方案。呢一步嘅好處係佢會先理清思路,而唔係一嚟就寫 code,後面少走好多彎路。
當你做一啲比較複雜嘅項目嘅時候,我推薦你一定要先開 Plan 做合理嘅規劃
同時,喺 Codex 開始輸出方案嘅時候,佢會問你一啲問題,你要回答佢,例如:

呢啲決定可以幫 Codex 設計一個可行嘅方案。
第二步:睇下方案,刪走唔需要嘅部分
當方案生成完,就要審視一次,例如我覺得唔需要測試部分,直接同 Codex 講刪咗佢,叫佢修改方案。


確認冇問題,㩒「Implement Plan」開始執行。
第三步:等佢行完,睇下生成咗啲咩
Codex 大概會做 4–5 分鐘,自動生成項目文件、README、依賴安裝命令等。有唔明嘅地方可以直接問佢,例如「呢個參數係做咩㗎」,佢會解釋清楚。


第四步:執行遇到錯誤?繼續餵畀佢
第一次運行難免有錯誤。將報錯信息 copy 畀 Codex,佢會分析原因,畀新 command。

我遇到模型下載卡住嘅問題,因為我本地其實有一個語音模型,所以我叫 Codex 直接搜本地緩存目錄,發現我已經有一個可用嘅模型,直接幫我改 code 重用佢——呢啲操作完全唔需要我手動揾路徑。

第五步:優化體驗——加 progress bar,做 Web 頁面
Command line 行得通之後,我嫌冇進度條睇起嚟唔直觀,叫佢加一個。之後又叫佢整一個簡單嘅 Web 頁面,可以 drag & drop 上傳音頻、顯示處理進度、一鍵下載 SRT 文件。

最終產品形態:一個喺瀏覽器入面用得嘅本地字幕生成工具。
驗證結果
打開剪映,導入生成嘅 SRT 文件,隱藏原字幕,播放條片——字幕同音頻完美匹配,分段亦都好自然。
成個過程係本地運行,唔依賴外部服務,音頻文件唔會上傳到任何平台。

成個過程唔需要識編程。只需要識提需求、識睇報錯、識同 AI 互動。
我想講嘅
以前遇到「軟件功能要畀錢」呢種情況,選項得兩個:畀錢,或者放棄。
而家多咗第三個:用 AI 工具自己整一個。
呢個唔係話每次都去重複造輪子,而係話:當你真係需要某個功能,而現成工具要收費、唔好用、或者有私隱顧慮嘅時候,AI 編程工具係一個值得認真考慮嘅選項。
門檻比你嘅想像低好多。
項目已開源,關注公眾號發送消息 「字幕」 ,獲取代碼
完整版視頻:
有一天我想給視頻加字幕,打開剪映,發現「音頻轉字幕」功能需要 SVIP。我是 VIP,但不是 SVIP,差了一個檔次。
以前可能就忍了,要麼付錢,要麼找其他軟件。但這次我想換個思路——能不能用 AI 幫我做一個?
結果花了大概 5 分鐘,我用 Codex 開發了一個音頻轉字幕工具。上傳音頻,自動生成 SRT 字幕文件,導入剪映完美匹配。免費,本地運行,不上傳任何文件。
完整版視頻在文末!
先說說 Codex 是什麼
Codex 是 OpenAI 推出的 AI 編程工具,可以通過自然語言指令幫你寫代碼、執行任務、調試報錯。你不需要會編程,只需要會「提需求」。
類似的工具還有 Cursor、GitHub Copilot、Claude Code,思路都差不多——你說想要什麼,AI 來實現。

完整開發過程,分 5 步走
第一步:用 Plan 模式先規劃,不急着寫代碼
打開 Codex,新建目錄,切換到 Plan 模式,輸入:「開發一個音頻轉字幕功能,使用本地模型,不調用外部 API,請先給出實施步驟」。

Codex 會給你一份清晰的方案。這一步的好處是它會先把思路理清楚,而不是上來就寫代碼,後面少走很多彎路。
當你做一些比較複雜的項目的時候,我推薦你一定要先開啓Plan進行合理的規劃
同時在Codex真的開始輸出方案的時候,他會像你詢問一些問題讓你做出回答例如:

這些決定能幫助Codex設計一個可行的方案。
第二步:Review 方案,精簡不需要的部分
當方案生成完畢,就需要審視一遍,例如我覺得不需要測試部分,直接告訴 Codex 去掉,讓它修改方案。


確認沒問題,點「Implement Plan」開始執行。
第三步:等它跑完,看看生成了什麼
Codex 大概工作 4–5 分鐘,自動生成項目文件、README、依賴安裝命令等。有不懂的地方直接問它,比如「這個參數是做什麼的」,它會解釋清楚。


第四步:執行遇到報錯?繼續餵給它
第一次運行難免有錯誤。把報錯信息複製給 Codex,它分析原因,給出新命令。

我遇到了模型下載卡住的問題,因為我本地其實是有一個語音模型的因此我讓Codex直接搜索本地緩存目錄,發現我已經有一個可用的模型,直接幫我修改代碼複用它——這些操作完全不需要我手動查找路徑。

第五步:優化體驗——加進度條,做 Web 頁面
命令行跑起來之後,我嫌沒有進度條看起來不直觀,讓它加了一個。之後又讓它做了一個簡單的 Web 頁面,可以拖拽上傳音頻、顯示處理進度、一鍵下載 SRT 文件。

最終產品形態:一個能在瀏覽器裏用的本地字幕生成工具。
驗證結果
打開剪映,導入生成的 SRT 文件,隱藏原字幕,播放視頻——字幕和音頻完美匹配,分段也很自然。
整個過程本地運行,不依賴外部服務,音頻文件不會上傳到任何平台。

整個過程不需要會編程。只需要會提需求、會看報錯、會和 AI 交互。
我想說的
以前遇到「軟件功能要付費」這種情況,選項只有兩個:付錢,或者放棄。
現在多了第三個:用 AI 工具自己做一個。
這不是說每次都去重複造輪子,而是說:當你真的需要某個功能,而現成工具要收費、不好用、或者有隱私顧慮的時候,AI 編程工具是一個值得認真考慮的選項。
門檻比你想象的低很多。
項目已開源,關注公眾號發送消息 “字幕” ,獲取代碼
完整版視頻: