讓Claude Code搞定視頻下載、字幕提取和自動配音
整理版優先睇
用Claude Code一站式處理視頻:下載、轉文字、自動配音
呢篇文章係由一位做咗13年後端開發嘅作者蒼一分享,佢正探索點樣用AI由產品到開發嘅全生命週期最佳實踐。作者發現平時睇技術演講影片,要下載、提取字幕、手動清理,搞一大輪先開始寫筆記。另外錄產品演示影片冇配音,又唔想自己錄,好麻煩。於是佢利用Claude Code嘅能力,整咗一個開源嘅video-skills工具集,將下載影片、提取字幕同自動配音三個功能變成自然語言指令。整體結論係:以前要喺五六個工具之間來回切換嘅流程,家陣幾句說話就搞掂,大幅提升效率。
video-skills底層用咗yt-dlp、ffmpeg同Azure Speech等工具,但封裝得好易用。用家可以喺Claude Code直接叫佢下載影片、轉文字,或者自動配音。支援YouTube、Bilibili等上千平台。另外介紹咗兩個主要場景:將YouTube影片轉成乾淨文字筆記,同埋幫已經錄好畫面嘅演示影片自動加上解說配音。作者仲提醒,如果影片冇內嵌字幕就要配API key,配音就要Azure密鑰。
整體嚟講,呢個工具令到影片處理變得極之簡單,適合經常用到影片內容嘅開發者同內容創作者。
- video-skills整合咗下載、字幕提取、自動配音三個功能,變成Claude Code自然語言指令,免去工具切換。
- 字幕提取優先讀取內嵌字幕,冇先至用語音轉寫,節省時間同API成本。
- 自動配音功能會分析畫面內容生成解說詞,用Azure TTS合成語音,自動對齊時間線。
- 安裝簡單,可以喺Claude Code用plugin指令或npx安裝,系統依賴只需yt-dlp同ffmpeg。
- 呢個方案嘅關鍵係將複雜工具鏈封裝成技能,令非技術用家都可以用自然語言處理影片,啟發係:工具封裝可以大幅降低使用門檻。
video-skills GitHub 倉庫
開源嘅視頻處理技能集合,支援下載、字幕提取同自動配音
以前搞影片,麻煩到想放棄
作者蒼一係一位後端開發者,平時睇技術演講影片成日想整理成文字筆記。但係過程好折騰:先要揾在線下載工具,再揾字幕提取服務,字幕格式亂曬又要手動清理,搞咗半個鐘都未開始寫筆記。
搞影片嘅最大問題係工具鏈太碎,未開始已經想放棄。
仲有一個更頭痛嘅情況:錄完產品演示影片,畫面好靚但冇聲音。自己配音要反覆調語氣節奏,兩三分鐘嘅片可以搞一兩個鐘。
video-skills:三個核心功能一條龍
video-skills係一個開源嘅視頻處理技能集合,核心功能有三個:
- 下載視頻:支援 YouTube、Bilibili、Twitter/X 等上千平台,底層用 yt-dlp。
- 提取字幕:優先讀取內嵌字幕,冇先用語音轉寫,省時省錢。
- 自動配音:根據畫面內容生成解說詞,用 Azure TTS 合成語音嵌入,畫聲自動對齊。
呢三個功能可以獨立用,亦可以串成一條流水線。
安裝方法有兩種:喺 Claude Code 入面用 /plugin marketplace add feiskyer/video-skills,或者用 npx 指令。系統依賴只係 yt-dlp 同 ffmpeg,macOS 上 Homebrew 一行搞掂。
實戰:YouTube 影片自動變文字
打開 Claude Code,直接叫佢下載影片:「幫我下載呢個影片」,download-video 就會用 yt-dlp 拉落嚟,預設放喺 ~/Downloads/Videos/。
跟住叫佢:「將啱啱下載嘅影片轉成文字」,transcribe-video 會先檢查有冇內嵌字幕。如果有就用字幕,又快又唔使 API 額度;冇先用語音轉寫。
輸出嘅文字稿會自動清理時間戳同格式標籤,直接畀你乾淨純文字。最後叫 Claude 做個摘要,幾分鐘搞掂。
如果影片冇內嵌字幕,要建立 ~/.transcribe_video.env 設定 OPENAI_API_KEY,亦支援其他兼容 OpenAI 嘅服務。
實戰:演示影片自動配音
錄好畫面之後,一句話搞掂:「畀呢個演示影片加上中文配音 demo.mp4」。
Claude Code 會先按固定間隔截幀,分析每個時間點嘅畫面內容,建立場景時間表。然後逐段寫解說詞,每段長度控制在時間窗口嘅 80% 以內,自然留停頓。
最後調用 Azure TTS 逐段生成語音,按時間戳拼接到影片軌道,完全唔使手動對齊。
配音功能需要配置 Azure 密鑰,建立 ~/.narrate_video.env,設定 AZURE_SPEECH_KEY 同 AZURE_SPEECH_REGION。
封裝嘅威力:複雜工具變成一句話
video-skills 本質上係將 yt-dlp、ffmpeg、Azure Speech 等工具同 AI 接口封裝成 Claude Code 技能。
作者仲提醒:如果怕文章太長,可以關注佢嘅 ima 知識號,隨時查閲更新。
大家好,我係蒼一,一個做咗13年後端開發嘅人,正在探索AI編程,由產品到開發嘅全生命週期最佳實踐。如果你有興趣,歡迎關注👇,睇嚇我點樣自我革命。
睇技術演講片嘅時候,成日想將重點整理成文字。以前嘅做法係咁:先揾在線下載工具將條片存落嚟,再揾字幕提取服務,拎到嘅字幕格式乜都有,手動清理嚇又半個鐘過去。揾完一輪工具,筆記都仲未寫一個字。
仲有個更頭痛嘅情況。錄完一段產品演示片,畫面唔錯,但冇配聲。自己配音要不斷調整語氣同節奏,錄兩三分鐘嘅片段可能要搞一兩個鐘。
Claude Code 識得寫 code,可唔可以順便搞埋呢啲片嘅嘢?於是就有咗 video-skills。
呢套工具包含啲乜
video-skills 係一個開源嘅視頻處理技能集合,核心功能有三個。
下載影片。支援 YouTube、Bilibili、Twitter/X 在內嘅過千個平台,底層用嘅係 yt-dlp。
提取字幕。優先讀取影片內嵌嘅字幕軌道,如果真係冇先叫語音轉寫接口,慳時間又慳錢。
自動配音。根據畫面內容生成解說詞,再合成語音嵌入影片,畫面同聲音自動對齊。
呢三個功能可以單獨用,亦可以串成一條流水線。
怎麼裝
安裝方式有兩種。
喺 Claude Code 裏面直接執行:
/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills
或者用 npx:
npx skills add feiskyer/video-skills
系統依賴得兩個:yt-dlp 同 ffmpeg。macOS 上用 Homebrew 一行搞掂:
brew install yt-dlp ffmpeg
Linux 同 Windows 環境可以叫 AI 幫你自動安裝呢啲依賴。
場景一:YouTube 片轉文字筆記
打開 Claude Code,將條片嘅連結掉過去就得:
幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU
download-video 叫 yt-dlp 將條片拉落嚟,默認存到 ~/Downloads/Videos/。如果你淨係要音頻,或者想指定解像度,用自然語言講一聲就得。
下載完之後繼續講:
把剛下載的視頻轉成文字
transcribe-video 嘅處理邏輯幾聰明。佢會先檢查條片本身有冇內嵌字幕。YouTube 上好多片自帶字幕,質素通常比語音識別高一大截,處理速度快,而且唔會消耗 API 額度。只有當條片真係冇字幕嗰陣,先會行語音轉寫接口做語音識別。
輸出嘅文字稿會自動清理走時間戳、格式標籤呢啲雜亂嘢,直接俾一份乾淨嘅純文字你。
拎到文字稿之後再叫 Claude 做個摘要,成個流程幾分鐘搞掂。
如果你條片冇內嵌字幕,就需要配一個 API Key。創建 ~/.transcribe_video.env 檔案:
OPENAI_API_KEY=your-key-here
亦都支援其他兼容 OpenAI 接口嘅服務,加上 OPENAI_API_BASE 環境變數指去對應嘅地址就得。
場景二:演示片自動配音
自己錄產品演示最煩就係配音呢個環節。講錯嘢、食螺絲、節奏時快時慢,錄完仲要逐格剪,兩分鐘嘅片可以搞一個下晝。
而家錄好畫面之後,一句說話搞掂:
給這個演示視頻加上中文配音 demo.mp4
Claude Code 會先對條片按固定間隔截幀,分析每個時間點屏幕上展示緊乜嘢內容,建立一個場景時間表。然後根據畫面內容逐段寫解說詞。每段文字嘅長度控制在對應時間窗口嘅 80% 以內,段落之間自然留出停頓,聽落唔會好似趕時間咁。
最後叫 Azure TTS 逐段生成語音,按時間戳拼接到影片軌道裏面。成個過程唔需要手動對齊,亦唔使來回調時間線。
配音功能需要設定 Azure 嘅密鑰。創建 ~/.narrate_video.env:
AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus
底層做咗啲乜
video-skills 本質上就係將 yt-dlp、ffmpeg、Azure Speech 呢啲命令行工具同 AI 接口封裝成 Claude Code 可以直接叫嘅技能。但封裝之後嘅使用體驗完全係另一個層次,以前要喺五六個工具之間來回切換嘅流程,而家變成幾句自然語言就搞得掂。
https://github.com/feiskyer/video-skills
如果嫌篇文章太長、驚之後蕩失路,可以關注下面嘅 ima 知識號,等呢篇文章成為你嘅知識顧問,隨時隨地等你提問。
知識號裏面嘅內容會以筆記形式分享,可以根據大家嘅反饋同實測情況,實時更新,保證最新方案嘅穩定同可用。
【ima知識庫】蒼一AI編程

大家好,我是蒼一,一個幹了13年的後端開發,正在探索AI編程,從產品到開發的全生命週期最佳實踐,如果您感興趣,歡迎關注👇,看我如何自我革命。
看技術演講視頻,經常想把要點整理成文字。以前的做法是這樣的:先搜在線下載工具把視頻存下來,再找字幕提取服務,拿到的字幕格式五花八門,手動清理一遍又半小時過去了。工具找了一圈,筆記還一個字沒寫。
還有個更頭疼的情況。錄完一段產品演示視頻,畫面挺好,但沒配聲音。自己配音要反覆調語氣和節奏,錄個兩三分鐘的片段可能要折騰一兩個小時。
Claude Code 能寫代碼,能不能順便把這些視頻的活也幹了?於是有了 video-skills。
這套工具包含什麼
video-skills 是一個開源的視頻處理技能集合,核心功能有三個。
下載視頻。支持 YouTube、Bilibili、Twitter/X 在內的上千個平台,底層用的是 yt-dlp。
提取字幕。優先讀取視頻內嵌的字幕軌道,實在沒有才調用語音轉寫接口,省時也省錢。
自動配音。根據畫面內容生成解說詞,再合成語音嵌進視頻,畫面和聲音自動對齊。
這三個功能可以單獨調用,也能串成一條流水線。
怎麼裝
安裝方式有兩種。
在 Claude Code 裏直接執行:
/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills
或者用 npx:
npx skills add feiskyer/video-skills
系統依賴只有兩個:yt-dlp 和 ffmpeg。macOS 上用 Homebrew 一行搞定:
brew install yt-dlp ffmpeg
Linux 和 Windows 環境可以讓 AI 幫你自動安裝這些依賴。
場景一:YouTube 視頻轉文字筆記
打開 Claude Code,把視頻連結扔過去就行:
幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU
download-video 調用 yt-dlp 把視頻拉下來,默認存到 ~/Downloads/Videos/。如果你只要音頻,或者想指定分辨率,用自然語言說一下就好。
下載完接着說:
把剛下載的視頻轉成文字
transcribe-video 的處理邏輯比較聰明。它會先檢查視頻本身有沒有內嵌字幕。YouTube 上不少視頻自帶字幕,質量通常比語音識別高出一截,處理速度快,而且不消耗 API 額度。只有視頻確實沒有字幕的時候,才會走語音轉寫接口做語音識別。
輸出的文字稿會自動清理掉時間戳、格式標籤之類的雜亂內容,直接給你一份乾淨的純文本。
拿到文字稿再讓 Claude 做個摘要,整套流程幾分鐘搞定。
如果你的視頻沒有內嵌字幕,需要配一個 API Key。創建 ~/.transcribe_video.env 文件:
OPENAI_API_KEY=your-key-here
也支持其他兼容 OpenAI 接口的服務,加上 OPENAI_API_BASE 環境變量指向對應的地址就行。
場景二:演示視頻自動配音
自己錄產品演示最煩的就是配音環節。口誤、卡殼、節奏忽快忽慢,錄完還得一幀一幀剪,兩分鐘的視頻能搞一下午。
現在錄好畫面之後,一句話搞定:
給這個演示視頻加上中文配音 demo.mp4
Claude Code 會先對視頻按固定間隔截幀,分析每個時間點屏幕上在展示什麼內容,建立一個場景時間表。然後根據畫面內容逐段寫解說詞。每段文字的長度控制在對應時間窗口的 80% 以內,段落之間自然留出停頓,聽起來不會像趕時間。
最後調用 Azure TTS 逐段生成語音,按時間戳拼接到視頻軌道里。整個過程不需要手動對齊,也不需要反覆調時間線。
配音功能需要配置 Azure 的密鑰。創建 ~/.narrate_video.env:
AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus
底層做了什麼
video-skills 本質上就是把 yt-dlp、ffmpeg、Azure Speech 這些命令行工具和 AI 接口封裝成了 Claude Code 能直接調用的技能。但封裝之後的使用體驗完全是另一個級別,以前要在五六個工具之間來回切換的流程,現在變成幾句自然語言就能完成。
https://github.com/feiskyer/video-skills
如果嫌文章太長、怕後面走丟,可以關注下面的ima知識號,讓這篇文章成為你的知識顧問,隨時隨地等候你的提問。
知識號中內容會以筆記形式分享,可以根據大家反饋和實測情況,實時更新,保證最新方案的穩定、可用。
【ima知識庫】蒼一AI編程
