用 Claude Code 處理視頻太麻煩,我順手寫了個 Skill

作者:Feisky
日期:2026年4月15日 上午11:58
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Claude Code Skill 自動處理 YouTube 影片下載、轉文字同配音,一條指令搞掂。

整理版摘要

呢篇文章係由開源開發者 Feisky 分享點樣用 Claude Code 嘅 Skill 系統簡化影片處理流程。作者發現平時要將 YouTube 技術演講變文字筆記好麻煩:要先揾工具下載、再揾工具提取字幕,字幕格式亂到嘔,半個鐘都未開始寫筆記。另外錄產品 DEMO 嘅時候畫面有但冇聲,自己錄成日口食同卡殼。佢就想:既然 Claude Code 可以幫手寫 code,點解唔可以幫手處理影片?於是就整咗個 video-skills 開源計劃。

video-skills 包含三個核心技能:download-video(從超過1000個平台下載影片)、transcribe-video(提取字幕,優先內嵌字幕,冇先至用 API 轉錄)、narrate-video(自動生成配音並對齊畫面節奏)。呢三個技能可以分開用,亦可以串聯。例如最常用嘅流程係:下載 YouTube 影片 → 轉成文字 → 用文字稿做筆記。或者錄完 DEMO → 叫 Claude 睇畫面寫解說詞 → 生成配音合成。

安裝方面,可以喺 Claude Code 用指令直接加 plugin,或者用 npx 安裝。前置依賴只需要 yt-dlp 同 ffmpeg,macOS 用 Homebrew 裝就得,其他平台 AI 可以自動裝。設定環境變數就可以用 OpenAIAzure 嘅服務。作者強調呢個 Skill 其實只係包裝咗現有工具,但用自然語言操作嘅體驗流暢好多…

  • video-skills 將影片處理(下載、轉錄、配音)整合成 Claude Code 嘅 Skill,一條自然語言指令搞掂,大幅節省時間。
  • 方法:透過三個技能組合(download-video, transcribe-video, narrate-video)解決常見影片工作流,支援 YouTubeBilibili 等平台。
  • 差異:內嵌字幕優先,慳 API 成本;配音功能可自動分析畫面生成解說詞並對齊時間點。
  • 啟發:將繁瑣嘅 CLI 工具同 AI 調用包裝成 Skill,令非技術用戶都可以用自然語言操作,係 Claude Code 生態嘅實用擴展。
  • 可行動點:有需要嘅話可以用 npx skills add feiskyer/video-skills 安裝,設定好 OpenAIAzure 密鑰即可使用。
值得記低
連結 github.com

video-skills GitHub

GitHub 倉庫,包含源碼、安裝說明及文檔

筆記

安裝指令

npx skills add feiskyer/video-skills

筆記

transcribe-video 環境變數

創建 ~/.transcribe_video.env,設定 OPENAI_API_KEY=your-key-here,可選 OPENAI_API_BASE

筆記

narrate-video 環境變數

創建 ~/.narrate_video.env,設定 AZURE_SPEECH_KEY=your-key-here、AZURE_SPEECH_REGION=eastus

整理重點

問題背景:影片處理嘅煩惱

作者發現平時想將 YouTube 技術演講變文字筆記,流程勁麻煩:先揾在線工具下載影片,再揾工具提取字幕,字幕格式亂到要手動清理,搞成半個鐘都未開始寫筆記。

另一個場景係錄產品 DEMO,畫面有但冇聲,自己錄成日口食同卡殼,每次都要反覆調節奏。

Claude Code 可以幫手寫 code,點解唔可以幫手處理影片?

於是佢乾脆自己寫咗個 video-skills Skill 集合,一條指令解決成個流程。

整理重點

video-skills 三大核心技能

video-skills 包含三個技能,可以單獨用或者串聯使用。

  • download-video:從 YouTubeBilibiliTwitter/X 等超過 1000 個平台下載影片。只要自然語言講低要求,例如只要音頻或者指定 720p 都得。
  • transcribe-video:提取影片字幕,優先走內嵌字幕,質量好又快,唔使花 API 錢;冇內嵌字幕先用 gpt-4o-transcribe 轉錄。
  • narrate-video:自動生成配音,畫面同語音節奏對齊。

內嵌字幕優先

gpt-4o-transcribe

整理重點

實戰場景一:YouTube 影片變文字筆記

上週 Andrej Karpathy 有個新訪談成個幾鐘,作者想先拎文字稿睇重點。打開 Claude Code 就咁講:「幫我下載呢個影片 https://www.youtube.com/watch?v=kwSVtQ7dziU」,download-video 就用 yt-dlp 拉落嚟,預存放喺 ~/Downloads/Videos/。

一條指令下載完

跟住再講「把啱啱下載嘅影片轉成文字」,transcribe-video 會先 check 有冇內嵌字幕,有就用,冇先 call API。輸出嘅文字稿自動清理咗時間戳同格式標籤,乾淨純文本。

最後叫 Claude 做個摘要,成個流程一氣呵成。

唔使另外揾工具

整理重點

實戰場景二:錄完 DEMO 自動配音

以前自己錄 DEMO 成日口誤、卡殼、節奏唔啱,剪輯搞成半日。而家錄好影片就講一句:「俾呢個 DEMO 影片加上中文配音 demo.mp4」

使用前要配置 Azure 密鑰,建立 ~/.narrate_video.env 設定 AZURE_SPEECH_KEY 同 AZURE_SPEECH_REGION。

80% 文字量

自然留白

整理重點

安裝同配置

安裝有兩種方式:喺 Claude Code 直接用 /plugin marketplace add feiskyer/video-skills/plugin install video-skills@video-skills,或者用 npx 指令。

npx 安裝 bash
npx skills add feiskyer/video-skills

前置依賴得兩個:yt-dlp 同 ffmpeg。macOS 用 Homebrew 裝:

macOS 安裝依賴 bash
brew install yt-dlp ffmpeg

其他平台可以叫 AI 自動安裝。如果用到轉錄或配音功能,要設定對應環境變數。

transcribe-video 環境變數 bash
# ~/.transcribe_video.env
OPENAI_API_KEY=your-key-here
# 可選其他兼容 OpenAI API 平台
# OPENAI_API_BASE=https://...
narrate-video 環境變數 bash
# ~/.narrate_video.env
AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

yt-dlp

ffmpeg

睇 YouTube 上面嘅技術演講,遇到講得好好嘅,想將重點記低。以前嘅流程係:先揾個在線工具下載影片,再揾個工具提取字幕,字幕格式亂七八糟仲要手動清理。成個流程落嚟,淨係揾工具都花咗半個鐘,筆記仲未開始寫。

另一個場景更加麻煩。錄完一段產品 DEMO,畫面有咗,但係冇聲音,自己錄需要反覆調整節奏。每次喺度諗,Claude Code 可以幫我寫代碼,點解唔可以幫我處理呢啲影片嘅嘢?

諗咗諗,索性自己寫一個。

於是就有咗 video-skills

video-skills 係我開源嘅一個影片處理 Skill 集合,包含三個技能:

  • • download-video:由 YouTube、Bilibili、Twitter/X 等超過 1000 個平台下載影片
  • • transcribe-video:提取影片字幕,優先行內嵌字幕,冇嘅話先叫 API 去做轉錄
  • • narrate-video:幫影片自動生成配音,畫面同語音節奏對齊

三個技能可以單獨用,亦可以串埋一齊用。例如我最常用嘅流程係:下載一個 YouTube 影片 → 轉做文字 → 拎住文字稿去做筆記整理。或者錄完一段 DEMO → 叫 Claude 睇住畫面寫解說詞 → 生成配音合返入影片。

安裝有兩種方式。喺 Claude Code 裏面直接:

/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills

或者用 npx:

npx skills add feiskyer/video-skills

前置依賴就得兩個:yt-dlp 和 ffmpeg,macOS 用 Homebrew 裝就得:

brew install yt-dlp ffmpeg

其他平台可以叫 AI 幫你自動安裝。

下面按我自己最常用嘅兩個場景,睇嚇佢哋嘅用法。

場景一:YouTube 影片變文字筆記

上個星期見到 Andrej Karpathy 一個新訪談,個幾鐘,想先拎到文字稿揀重點睇。打開 Claude Code,將條連結掟入去:

幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU

download-video 會用 yt-dlp 將影片拉落嚟,存去 ~/Downloads/Videos/。淨係要音頻、指定 720p 呢啲,直接用自然語言講就得。

下載完之後跟住轉文字:

把剛下載的視頻轉成文字

transcribe-video 會先檢查影片有冇內嵌字幕。YouTube 上面好多影片自帶字幕,質素比語音識別好,速度快,關鍵係唔使花 API 嘅錢。只有冇字幕嘅時候先行 OpenAI 嘅 gpt-4o-transcribe。轉出嚟嘅文字稿自動清理咗時間戳同格式標籤,直接就係乾淨嘅純文本。拎到文字稿再叫 Claude 做個摘要,成個流程一氣呵成。

冇內嵌字幕嘅影片需要配置 API Key,建立 ~/.transcribe_video.env

OPENAI_API_KEY=your-key-here

都支援其他兼容 OpenAI API 嘅平台,加上 OPENAI_API_BASE 就行。

不過下載同轉錄只解決咗睇影片嘅問題。如果你仲需要編輯影片呢?例如錄咗個產品 DEMO,畫面有咗,但係冇聲音點算?

場景二:錄完 DEMO 自動配音

以前自己錄個影片 DEMO,成日出現口誤、卡殼、節奏唔啱等等嘅問題,錄完仲要花好長時間去剪輯,搞半日先攪得掂。

而家錄好影片,直接一句話就可以攪掂配音問題:

給這個 DEMO 視頻加上中文配音 demo.mp4

Claude Code 會先每隔幾秒截幀,睇每個時間點屏幕上面發生緊咩嘢,建立一個場景時間表。然後根據畫面寫帶時間戳嘅解說詞,每段文字量只係佔時間窗口嘅 80%,段落之間自然留白。最後叫 Azure TTS 逐段生成語音,按時間戳合成返入影片度。

不過使用時需要注意,配置 Azure 金鑰,建立 ~/.narrate_video.env 並設定:

AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

寫喺最後

video-skills 做嘅嘢其實唔複雜,只係將 yt-dlp、ffmpeg、同埋 Azure Speech 呢啲命令行工具同 AI 調用包入咗 Skill,但用起上嚟嘅流暢度完全唔同。有興趣嘅話可以直接安裝嚟試嚇:npx skills add feiskyer/video-skills

video-skills GitHub 係 https://github.com/feiskyer/video-skills,有任何問題歡迎貢獻完善。


如果覺得有幫助,歡迎關注我嘅公眾號 Feisky,呢度會持續分享 AI 編程同 AI Agent 嘅實戰經驗同踩坑記錄。

看 YouTube 上的技術演講,遇到講得特別好的,想把要點記下來。以前的流程是:先找個在線工具下載視頻,再找個工具提取字幕,字幕格式亂七八糟還得手動清理。一套下來,光找工具就花了半小時,筆記還沒開始寫。

另一個場景更折騰。錄完一段產品 DEMO,畫面有了,但沒有聲音,自己錄需要反覆調節奏。每次都在想,Claude Code 能幫我寫代碼,為什麼不能幫我處理這些視頻的活?

想了想,乾脆自己寫一個。

於是就有了 video-skills

video-skills 是我開源的一個視頻處理 Skill 集合,包含三個技能:

  • • download-video:從 YouTube、Bilibili、Twitter/X 等 1000 多個平台下載視頻
  • • transcribe-video:提取視頻字幕,優先走內嵌字幕,沒有才調 API 去轉錄
  • • narrate-video:給視頻自動生成配音,畫面和語音節奏對齊

三個技能可以單獨用,也可以串起來。比如我最常用的流程是:下載一個 YouTube 視頻 → 轉成文字 → 拿着文字稿去做筆記整理。或者錄完一段 DEMO → 讓 Claude 看着畫面寫解說詞 → 生成配音合進視頻。

安裝有兩種方式。在 Claude Code 裏直接:

/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills

或者用 npx:

npx skills add feiskyer/video-skills

前置依賴就兩個:yt-dlp 和 ffmpeg,macOS 用 Homebrew 裝就行:

brew install yt-dlp ffmpeg

其他平台可以讓 AI 幫你自動安裝。

下面按我自己最常用的兩個場景,看看它們的用法。

場景一:YouTube 視頻變文字筆記

上週看到 Andrej Karpathy 一個新訪談,一個多小時,想先拿到文字稿挑重點看。打開 Claude Code,把連結丟進去:

幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU

download-video 會用 yt-dlp 把視頻拉下來,存到 ~/Downloads/Videos/。只要音頻、指定 720p 這些,直接用自然語言說就行。

下載完接着轉文字:

把剛下載的視頻轉成文字

transcribe-video 會先檢查視頻有沒有內嵌字幕。YouTube 上很多視頻自帶字幕,質量比語音識別好,速度快,關鍵是不花 API 的錢。只有沒字幕的時候才走 OpenAI 的 gpt-4o-transcribe。轉出來的文字稿自動清理了時間戳和格式標籤,直接就是乾淨的純文本。拿到文字稿再讓 Claude 做個摘要,整個流程一氣呵成。

沒有內嵌字幕的視頻需要配置 API Key,創建 ~/.transcribe_video.env

OPENAI_API_KEY=your-key-here

也支持其他兼容 OpenAI API 的平台,加上 OPENAI_API_BASE 就行。

不過下載和轉錄只解決了看視頻的問題。如果你還需要編輯視頻呢?比如錄了個產品 DEMO,畫面有了,但沒聲音怎麼辦?

場景二:錄完 DEMO 自動配音

以前自己錄個視頻 DEMO,經常出現口誤、卡殼、節奏不對等等的問題,錄完還要花很長時間去剪輯,折騰半天才能搞定。

現在錄好視頻,直接一句話就可以搞定配音問題:

給這個 DEMO 視頻加上中文配音 demo.mp4

Claude Code 會先每隔幾秒截幀,看每個時間點屏幕上在發生什麼,建一個場景時間表。然後根據畫面寫帶時間戳的解說詞,每段文字量只佔時間窗口的 80%,段落之間自然留白。最後調 Azure TTS 逐段生成語音,按時間戳合成到視頻裏。

不過使用時需要注意,配置 Azure 密鑰,創建 ~/.narrate_video.env 並設置:

AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

寫在最後

video-skills 做的事情其實並不複雜,只是把 yt-dlp、ffmpeg、還有 Azure Speech 這些命令行工具和 AI 調用包進了 Skill,但用起來的流暢度完全不一樣。感興趣的話可以直接安裝來試試:npx skills add feiskyer/video-skills

video-skills GitHub 為 https://github.com/feiskyer/video-skills,有任何問題歡迎貢獻完善。


如果覺得有幫助,歡迎關注我的公眾號 Feisky,這裏會持續分享 AI 編程和 AI Agent 的實戰經驗和踩坑記錄。