讓Claude Code搞定視頻下載、字幕提取和自動配音

作者：蒼一AI編程

日期：2026年4月20日下午4:25

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用Claude Code一站式處理視頻：下載、轉文字、自動配音

整理版摘要

呢篇文章係由一位做咗13年後端開發嘅作者蒼一分享，佢正探索點樣用AI由產品到開發嘅全生命週期最佳實踐。作者發現平時睇技術演講影片，要下載、提取字幕、手動清理，搞一大輪先開始寫筆記。另外錄產品演示影片冇配音，又唔想自己錄，好麻煩。於是佢利用Claude Code嘅能力，整咗一個開源嘅video-skills工具集，將下載影片、提取字幕同自動配音三個功能變成自然語言指令。整體結論係：以前要喺五六個工具之間來回切換嘅流程，家陣幾句說話就搞掂，大幅提升效率。

video-skills底層用咗yt-dlp、ffmpeg同Azure Speech等工具，但封裝得好易用。用家可以喺Claude Code直接叫佢下載影片、轉文字，或者自動配音。支援YouTube、Bilibili等上千平台。另外介紹咗兩個主要場景：將YouTube影片轉成乾淨文字筆記，同埋幫已經錄好畫面嘅演示影片自動加上解說配音。作者仲提醒，如果影片冇內嵌字幕就要配API key，配音就要Azure密鑰。

整體嚟講，呢個工具令到影片處理變得極之簡單，適合經常用到影片內容嘅開發者同內容創作者。

video-skills整合咗下載、字幕提取、自動配音三個功能，變成Claude Code自然語言指令，免去工具切換。
字幕提取優先讀取內嵌字幕，冇先至用語音轉寫，節省時間同API成本。
自動配音功能會分析畫面內容生成解說詞，用Azure TTS合成語音，自動對齊時間線。
安裝簡單，可以喺Claude Code用plugin指令或npx安裝，系統依賴只需yt-dlp同ffmpeg。
呢個方案嘅關鍵係將複雜工具鏈封裝成技能，令非技術用家都可以用自然語言處理影片，啟發係：工具封裝可以大幅降低使用門檻。

值得記低

連結 github.com

video-skills GitHub 倉庫

開源嘅視頻處理技能集合，支援下載、字幕提取同自動配音

整理重點

以前搞影片，麻煩到想放棄

作者蒼一係一位後端開發者，平時睇技術演講影片成日想整理成文字筆記。但係過程好折騰：先要揾在線下載工具，再揾字幕提取服務，字幕格式亂曬又要手動清理，搞咗半個鐘都未開始寫筆記。

搞影片嘅最大問題係工具鏈太碎，未開始已經想放棄。

仲有一個更頭痛嘅情況：錄完產品演示影片，畫面好靚但冇聲音。自己配音要反覆調語氣節奏，兩三分鐘嘅片可以搞一兩個鐘。

整理重點

video-skills：三個核心功能一條龍

video-skills係一個開源嘅視頻處理技能集合，核心功能有三個：

下載視頻：支援 YouTube、Bilibili、Twitter/X 等上千平台，底層用 yt-dlp。
提取字幕：優先讀取內嵌字幕，冇先用語音轉寫，省時省錢。
自動配音：根據畫面內容生成解說詞，用 Azure TTS 合成語音嵌入，畫聲自動對齊。

呢三個功能可以獨立用，亦可以串成一條流水線。

安裝方法有兩種：喺 Claude Code 入面用 /plugin marketplace add feiskyer/video-skills，或者用 npx 指令。系統依賴只係 yt-dlp 同 ffmpeg，macOS 上 Homebrew 一行搞掂。

整理重點

實戰：YouTube 影片自動變文字

打開 Claude Code，直接叫佢下載影片：「幫我下載呢個影片」，download-video 就會用 yt-dlp 拉落嚟，預設放喺 ~/Downloads/Videos/。

跟住叫佢：「將啱啱下載嘅影片轉成文字」，transcribe-video 會先檢查有冇內嵌字幕。如果有就用字幕，又快又唔使 API 額度；冇先用語音轉寫。

輸出嘅文字稿會自動清理時間戳同格式標籤，直接畀你乾淨純文字。最後叫 Claude 做個摘要，幾分鐘搞掂。

如果影片冇內嵌字幕，要建立 ~/.transcribe_video.env 設定 OPENAI_API_KEY，亦支援其他兼容 OpenAI 嘅服務。

整理重點

實戰：演示影片自動配音

錄好畫面之後，一句話搞掂：「畀呢個演示影片加上中文配音 demo.mp4」。

Claude Code 會先按固定間隔截幀，分析每個時間點嘅畫面內容，建立場景時間表。然後逐段寫解說詞，每段長度控制在時間窗口嘅 80% 以內，自然留停頓。

最後調用 Azure TTS 逐段生成語音，按時間戳拼接到影片軌道，完全唔使手動對齊。

配音功能需要配置 Azure 密鑰，建立 ~/.narrate_video.env，設定 AZURE_SPEECH_KEY 同 AZURE_SPEECH_REGION。

整理重點

封裝嘅威力：複雜工具變成一句話

video-skills 本質上係將 yt-dlp、ffmpeg、Azure Speech 等工具同 AI 接口封裝成 Claude Code 技能。

作者仲提醒：如果怕文章太長，可以關注佢嘅 ima 知識號，隨時查閲更新。

大家好，我係蒼一，一個做咗13年後端開發嘅人，正在探索AI編程，由產品到開發嘅全生命週期最佳實踐。如果你有興趣，歡迎關注👇，睇嚇我點樣自我革命。

睇技術演講片嘅時候，成日想將重點整理成文字。以前嘅做法係咁：先揾在線下載工具將條片存落嚟，再揾字幕提取服務，拎到嘅字幕格式乜都有，手動清理嚇又半個鐘過去。揾完一輪工具，筆記都仲未寫一個字。

仲有個更頭痛嘅情況。錄完一段產品演示片，畫面唔錯，但冇配聲。自己配音要不斷調整語氣同節奏，錄兩三分鐘嘅片段可能要搞一兩個鐘。

Claude Code 識得寫 code，可唔可以順便搞埋呢啲片嘅嘢？於是就有咗 video-skills。

呢套工具包含啲乜

video-skills 係一個開源嘅視頻處理技能集合，核心功能有三個。

下載影片。支援 YouTube、Bilibili、Twitter/X 在內嘅過千個平台，底層用嘅係 yt-dlp。

提取字幕。優先讀取影片內嵌嘅字幕軌道，如果真係冇先叫語音轉寫接口，慳時間又慳錢。

自動配音。根據畫面內容生成解說詞，再合成語音嵌入影片，畫面同聲音自動對齊。

呢三個功能可以單獨用，亦可以串成一條流水線。

怎麼裝

安裝方式有兩種。

喺 Claude Code 裏面直接執行：

/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills

或者用 npx：

npx skills add feiskyer/video-skills

系統依賴得兩個：yt-dlp 同 ffmpeg。macOS 上用 Homebrew 一行搞掂：

brew install yt-dlp ffmpeg

Linux 同 Windows 環境可以叫 AI 幫你自動安裝呢啲依賴。

場景一：YouTube 片轉文字筆記

打開 Claude Code，將條片嘅連結掉過去就得：

幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU

download-video 叫 yt-dlp 將條片拉落嚟，默認存到 ~/Downloads/Videos/。如果你淨係要音頻，或者想指定解像度，用自然語言講一聲就得。

下載完之後繼續講：

把剛下載的視頻轉成文字

transcribe-video 嘅處理邏輯幾聰明。佢會先檢查條片本身有冇內嵌字幕。YouTube 上好多片自帶字幕，質素通常比語音識別高一大截，處理速度快，而且唔會消耗 API 額度。只有當條片真係冇字幕嗰陣，先會行語音轉寫接口做語音識別。

輸出嘅文字稿會自動清理走時間戳、格式標籤呢啲雜亂嘢，直接俾一份乾淨嘅純文字你。

拎到文字稿之後再叫 Claude 做個摘要，成個流程幾分鐘搞掂。

如果你條片冇內嵌字幕，就需要配一個 API Key。創建 ~/.transcribe_video.env 檔案：

OPENAI_API_KEY=your-key-here

亦都支援其他兼容 OpenAI 接口嘅服務，加上 OPENAI_API_BASE 環境變數指去對應嘅地址就得。

場景二：演示片自動配音

自己錄產品演示最煩就係配音呢個環節。講錯嘢、食螺絲、節奏時快時慢，錄完仲要逐格剪，兩分鐘嘅片可以搞一個下晝。

而家錄好畫面之後，一句說話搞掂：

給這個演示視頻加上中文配音 demo.mp4

Claude Code 會先對條片按固定間隔截幀，分析每個時間點屏幕上展示緊乜嘢內容，建立一個場景時間表。然後根據畫面內容逐段寫解說詞。每段文字嘅長度控制在對應時間窗口嘅 80% 以內，段落之間自然留出停頓，聽落唔會好似趕時間咁。

最後叫 Azure TTS 逐段生成語音，按時間戳拼接到影片軌道裏面。成個過程唔需要手動對齊，亦唔使來回調時間線。

配音功能需要設定 Azure 嘅密鑰。創建 ~/.narrate_video.env：

AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

底層做咗啲乜

video-skills 本質上就係將 yt-dlp、ffmpeg、Azure Speech 呢啲命令行工具同 AI 接口封裝成 Claude Code 可以直接叫嘅技能。但封裝之後嘅使用體驗完全係另一個層次，以前要喺五六個工具之間來回切換嘅流程，而家變成幾句自然語言就搞得掂。

https://github.com/feiskyer/video-skills

如果嫌篇文章太長、驚之後蕩失路，可以關注下面嘅 ima 知識號，等呢篇文章成為你嘅知識顧問，隨時隨地等你提問。

知識號裏面嘅內容會以筆記形式分享，可以根據大家嘅反饋同實測情況，實時更新，保證最新方案嘅穩定同可用。

【ima知識庫】蒼一AI編程

大家好，我是蒼一，一個幹了13年的後端開發，正在探索AI編程，從產品到開發的全生命週期最佳實踐，如果您感興趣，歡迎關注👇，看我如何自我革命。

看技術演講視頻，經常想把要點整理成文字。以前的做法是這樣的：先搜在線下載工具把視頻存下來，再找字幕提取服務，拿到的字幕格式五花八門，手動清理一遍又半小時過去了。工具找了一圈，筆記還一個字沒寫。

還有個更頭疼的情況。錄完一段產品演示視頻，畫面挺好，但沒配聲音。自己配音要反覆調語氣和節奏，錄個兩三分鐘的片段可能要折騰一兩個小時。

Claude Code 能寫代碼，能不能順便把這些視頻的活也幹了？於是有了 video-skills。

這套工具包含什麼

video-skills 是一個開源的視頻處理技能集合，核心功能有三個。

下載視頻。支持 YouTube、Bilibili、Twitter/X 在內的上千個平台，底層用的是 yt-dlp。

提取字幕。優先讀取視頻內嵌的字幕軌道，實在沒有才調用語音轉寫接口，省時也省錢。

自動配音。根據畫面內容生成解說詞，再合成語音嵌進視頻，畫面和聲音自動對齊。

這三個功能可以單獨調用，也能串成一條流水線。

怎麼裝

安裝方式有兩種。

在 Claude Code 裏直接執行：

/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills

或者用 npx：

npx skills add feiskyer/video-skills

系統依賴只有兩個：yt-dlp 和 ffmpeg。macOS 上用 Homebrew 一行搞定：

brew install yt-dlp ffmpeg

Linux 和 Windows 環境可以讓 AI 幫你自動安裝這些依賴。

場景一：YouTube 視頻轉文字筆記

打開 Claude Code，把視頻連結扔過去就行：

幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU

download-video 調用 yt-dlp 把視頻拉下來，默認存到 ~/Downloads/Videos/。如果你只要音頻，或者想指定分辨率，用自然語言說一下就好。

下載完接着說：

把剛下載的視頻轉成文字

transcribe-video 的處理邏輯比較聰明。它會先檢查視頻本身有沒有內嵌字幕。YouTube 上不少視頻自帶字幕，質量通常比語音識別高出一截，處理速度快，而且不消耗 API 額度。只有視頻確實沒有字幕的時候，才會走語音轉寫接口做語音識別。

輸出的文字稿會自動清理掉時間戳、格式標籤之類的雜亂內容，直接給你一份乾淨的純文本。

拿到文字稿再讓 Claude 做個摘要，整套流程幾分鐘搞定。

如果你的視頻沒有內嵌字幕，需要配一個 API Key。創建 ~/.transcribe_video.env 文件：

OPENAI_API_KEY=your-key-here

也支持其他兼容 OpenAI 接口的服務，加上 OPENAI_API_BASE 環境變量指向對應的地址就行。

場景二：演示視頻自動配音

自己錄產品演示最煩的就是配音環節。口誤、卡殼、節奏忽快忽慢，錄完還得一幀一幀剪，兩分鐘的視頻能搞一下午。

現在錄好畫面之後，一句話搞定：

給這個演示視頻加上中文配音 demo.mp4

Claude Code 會先對視頻按固定間隔截幀，分析每個時間點屏幕上在展示什麼內容，建立一個場景時間表。然後根據畫面內容逐段寫解說詞。每段文字的長度控制在對應時間窗口的 80% 以內，段落之間自然留出停頓，聽起來不會像趕時間。

最後調用 Azure TTS 逐段生成語音，按時間戳拼接到視頻軌道里。整個過程不需要手動對齊，也不需要反覆調時間線。

配音功能需要配置 Azure 的密鑰。創建 ~/.narrate_video.env：

AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

底層做了什麼

video-skills 本質上就是把 yt-dlp、ffmpeg、Azure Speech 這些命令行工具和 AI 接口封裝成了 Claude Code 能直接調用的技能。但封裝之後的使用體驗完全是另一個級別，以前要在五六個工具之間來回切換的流程，現在變成幾句自然語言就能完成。

https://github.com/feiskyer/video-skills

如果嫌文章太長、怕後面走丟，可以關注下面的ima知識號，讓這篇文章成為你的知識顧問，隨時隨地等候你的提問。

知識號中內容會以筆記形式分享，可以根據大家反饋和實測情況，實時更新，保證最新方案的穩定、可用。

【ima知識庫】蒼一AI編程