用 Claude Code 處理視頻太麻煩,我順手寫了個 Skill

作者：Feisky

日期：2026年4月15日上午11:58

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用 Claude Code Skill 自動處理 YouTube 影片下載、轉文字同配音，一條指令搞掂。

整理版摘要

呢篇文章係由開源開發者 Feisky 分享點樣用 Claude Code 嘅 Skill 系統簡化影片處理流程。作者發現平時要將 YouTube 技術演講變文字筆記好麻煩：要先揾工具下載、再揾工具提取字幕，字幕格式亂到嘔，半個鐘都未開始寫筆記。另外錄產品 DEMO 嘅時候畫面有但冇聲，自己錄成日口食同卡殼。佢就想：既然 Claude Code 可以幫手寫 code，點解唔可以幫手處理影片？於是就整咗個 video-skills 開源計劃。

video-skills 包含三個核心技能：download-video（從超過1000個平台下載影片）、transcribe-video（提取字幕，優先內嵌字幕，冇先至用 API 轉錄）、narrate-video（自動生成配音並對齊畫面節奏）。呢三個技能可以分開用，亦可以串聯。例如最常用嘅流程係：下載 YouTube 影片 → 轉成文字 → 用文字稿做筆記。或者錄完 DEMO → 叫 Claude 睇畫面寫解說詞 → 生成配音合成。

安裝方面，可以喺 Claude Code 用指令直接加 plugin，或者用 npx 安裝。前置依賴只需要 yt-dlp 同 ffmpeg，macOS 用 Homebrew 裝就得，其他平台 AI 可以自動裝。設定環境變數就可以用 OpenAI 或 Azure 嘅服務。作者強調呢個 Skill 其實只係包裝咗現有工具，但用自然語言操作嘅體驗流暢好多…

video-skills 將影片處理（下載、轉錄、配音）整合成 Claude Code 嘅 Skill，一條自然語言指令搞掂，大幅節省時間。
方法：透過三個技能組合（download-video, transcribe-video, narrate-video）解決常見影片工作流，支援 YouTube、Bilibili 等平台。
差異：內嵌字幕優先，慳 API 成本；配音功能可自動分析畫面生成解說詞並對齊時間點。
啟發：將繁瑣嘅 CLI 工具同 AI 調用包裝成 Skill，令非技術用戶都可以用自然語言操作，係 Claude Code 生態嘅實用擴展。
可行動點：有需要嘅話可以用 npx skills add feiskyer/video-skills 安裝，設定好 OpenAI 或 Azure 密鑰即可使用。

值得記低

連結 github.com

video-skills GitHub

GitHub 倉庫，包含源碼、安裝說明及文檔

筆記

安裝指令

npx skills add feiskyer/video-skills

筆記

transcribe-video 環境變數

創建 ~/.transcribe_video.env，設定 OPENAI_API_KEY=your-key-here，可選 OPENAI_API_BASE

筆記

narrate-video 環境變數

創建 ~/.narrate_video.env，設定 AZURE_SPEECH_KEY=your-key-here、AZURE_SPEECH_REGION=eastus

整理重點

問題背景：影片處理嘅煩惱

作者發現平時想將 YouTube 技術演講變文字筆記，流程勁麻煩：先揾在線工具下載影片，再揾工具提取字幕，字幕格式亂到要手動清理，搞成半個鐘都未開始寫筆記。

另一個場景係錄產品 DEMO，畫面有但冇聲，自己錄成日口食同卡殼，每次都要反覆調節奏。

Claude Code 可以幫手寫 code，點解唔可以幫手處理影片？

於是佢乾脆自己寫咗個 video-skills Skill 集合，一條指令解決成個流程。

整理重點

video-skills 三大核心技能

video-skills 包含三個技能，可以單獨用或者串聯使用。

download-video：從 YouTube、Bilibili、Twitter/X 等超過 1000 個平台下載影片。只要自然語言講低要求，例如只要音頻或者指定 720p 都得。
transcribe-video：提取影片字幕，優先走內嵌字幕，質量好又快，唔使花 API 錢；冇內嵌字幕先用 gpt-4o-transcribe 轉錄。
narrate-video：自動生成配音，畫面同語音節奏對齊。

內嵌字幕優先

gpt-4o-transcribe

整理重點

實戰場景一：YouTube 影片變文字筆記

上週 Andrej Karpathy 有個新訪談成個幾鐘，作者想先拎文字稿睇重點。打開 Claude Code 就咁講：「幫我下載呢個影片 https://www.youtube.com/watch?v=kwSVtQ7dziU」，download-video 就用 yt-dlp 拉落嚟，預存放喺 ~/Downloads/Videos/。

一條指令下載完

跟住再講「把啱啱下載嘅影片轉成文字」，transcribe-video 會先 check 有冇內嵌字幕，有就用，冇先 call API。輸出嘅文字稿自動清理咗時間戳同格式標籤，乾淨純文本。

最後叫 Claude 做個摘要，成個流程一氣呵成。

唔使另外揾工具

整理重點

實戰場景二：錄完 DEMO 自動配音

以前自己錄 DEMO 成日口誤、卡殼、節奏唔啱，剪輯搞成半日。而家錄好影片就講一句：「俾呢個 DEMO 影片加上中文配音 demo.mp4」

使用前要配置 Azure 密鑰，建立 ~/.narrate_video.env 設定 AZURE_SPEECH_KEY 同 AZURE_SPEECH_REGION。

80% 文字量

自然留白

整理重點

安裝同配置

安裝有兩種方式：喺 Claude Code 直接用 /plugin marketplace add feiskyer/video-skills/plugin install video-skills@video-skills，或者用 npx 指令。

npx 安裝 bash

npx skills add feiskyer/video-skills

前置依賴得兩個：yt-dlp 同 ffmpeg。macOS 用 Homebrew 裝：

macOS 安裝依賴 bash

brew install yt-dlp ffmpeg

其他平台可以叫 AI 自動安裝。如果用到轉錄或配音功能，要設定對應環境變數。

transcribe-video 環境變數 bash

# ~/.transcribe_video.env
OPENAI_API_KEY=your-key-here
# 可選其他兼容 OpenAI API 平台
# OPENAI_API_BASE=https://...

narrate-video 環境變數 bash

# ~/.narrate_video.env
AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

yt-dlp

ffmpeg

睇 YouTube 上面嘅技術演講，遇到講得好好嘅，想將重點記低。以前嘅流程係：先揾個在線工具下載影片，再揾個工具提取字幕，字幕格式亂七八糟仲要手動清理。成個流程落嚟，淨係揾工具都花咗半個鐘，筆記仲未開始寫。

另一個場景更加麻煩。錄完一段產品 DEMO，畫面有咗，但係冇聲音，自己錄需要反覆調整節奏。每次喺度諗，Claude Code 可以幫我寫代碼，點解唔可以幫我處理呢啲影片嘅嘢？

諗咗諗，索性自己寫一個。

於是就有咗 video-skills

video-skills 係我開源嘅一個影片處理 Skill 集合，包含三個技能：

• download-video：由 YouTube、Bilibili、Twitter/X 等超過 1000 個平台下載影片
• transcribe-video：提取影片字幕，優先行內嵌字幕，冇嘅話先叫 API 去做轉錄
• narrate-video：幫影片自動生成配音，畫面同語音節奏對齊

三個技能可以單獨用，亦可以串埋一齊用。例如我最常用嘅流程係：下載一個 YouTube 影片 → 轉做文字 → 拎住文字稿去做筆記整理。或者錄完一段 DEMO → 叫 Claude 睇住畫面寫解說詞 → 生成配音合返入影片。

安裝有兩種方式。喺 Claude Code 裏面直接：

/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills

或者用 npx：

npx skills add feiskyer/video-skills

前置依賴就得兩個：yt-dlp 和 ffmpeg，macOS 用 Homebrew 裝就得：

brew install yt-dlp ffmpeg

其他平台可以叫 AI 幫你自動安裝。

下面按我自己最常用嘅兩個場景，睇嚇佢哋嘅用法。

場景一：YouTube 影片變文字筆記

上個星期見到 Andrej Karpathy 一個新訪談，個幾鐘，想先拎到文字稿揀重點睇。打開 Claude Code，將條連結掟入去：

幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU

download-video 會用 yt-dlp 將影片拉落嚟，存去 ~/Downloads/Videos/。淨係要音頻、指定 720p 呢啲，直接用自然語言講就得。

下載完之後跟住轉文字：

把剛下載的視頻轉成文字

transcribe-video 會先檢查影片有冇內嵌字幕。YouTube 上面好多影片自帶字幕，質素比語音識別好，速度快，關鍵係唔使花 API 嘅錢。只有冇字幕嘅時候先行 OpenAI 嘅 gpt-4o-transcribe。轉出嚟嘅文字稿自動清理咗時間戳同格式標籤，直接就係乾淨嘅純文本。拎到文字稿再叫 Claude 做個摘要，成個流程一氣呵成。

冇內嵌字幕嘅影片需要配置 API Key，建立 ~/.transcribe_video.env：

OPENAI_API_KEY=your-key-here

都支援其他兼容 OpenAI API 嘅平台，加上 OPENAI_API_BASE 就行。

不過下載同轉錄只解決咗睇影片嘅問題。如果你仲需要編輯影片呢？例如錄咗個產品 DEMO，畫面有咗，但係冇聲音點算？

場景二：錄完 DEMO 自動配音

以前自己錄個影片 DEMO，成日出現口誤、卡殼、節奏唔啱等等嘅問題，錄完仲要花好長時間去剪輯，搞半日先攪得掂。

而家錄好影片，直接一句話就可以攪掂配音問題：

給這個 DEMO 視頻加上中文配音 demo.mp4

Claude Code 會先每隔幾秒截幀，睇每個時間點屏幕上面發生緊咩嘢，建立一個場景時間表。然後根據畫面寫帶時間戳嘅解說詞，每段文字量只係佔時間窗口嘅 80%，段落之間自然留白。最後叫 Azure TTS 逐段生成語音，按時間戳合成返入影片度。

不過使用時需要注意，配置 Azure 金鑰，建立 ~/.narrate_video.env 並設定：

AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

寫喺最後

video-skills 做嘅嘢其實唔複雜，只係將 yt-dlp、ffmpeg、同埋 Azure Speech 呢啲命令行工具同 AI 調用包入咗 Skill，但用起上嚟嘅流暢度完全唔同。有興趣嘅話可以直接安裝嚟試嚇：npx skills add feiskyer/video-skills。

video-skills GitHub 係 https://github.com/feiskyer/video-skills，有任何問題歡迎貢獻完善。

如果覺得有幫助，歡迎關注我嘅公眾號 Feisky，呢度會持續分享 AI 編程同 AI Agent 嘅實戰經驗同踩坑記錄。

看 YouTube 上的技術演講，遇到講得特別好的，想把要點記下來。以前的流程是：先找個在線工具下載視頻，再找個工具提取字幕，字幕格式亂七八糟還得手動清理。一套下來，光找工具就花了半小時，筆記還沒開始寫。

另一個場景更折騰。錄完一段產品 DEMO，畫面有了，但沒有聲音，自己錄需要反覆調節奏。每次都在想，Claude Code 能幫我寫代碼，為什麼不能幫我處理這些視頻的活？

想了想，乾脆自己寫一個。

於是就有了 video-skills

video-skills 是我開源的一個視頻處理 Skill 集合，包含三個技能：

• download-video：從 YouTube、Bilibili、Twitter/X 等 1000 多個平台下載視頻
• transcribe-video：提取視頻字幕，優先走內嵌字幕，沒有才調 API 去轉錄
• narrate-video：給視頻自動生成配音，畫面和語音節奏對齊

三個技能可以單獨用，也可以串起來。比如我最常用的流程是：下載一個 YouTube 視頻 → 轉成文字 → 拿着文字稿去做筆記整理。或者錄完一段 DEMO → 讓 Claude 看着畫面寫解說詞 → 生成配音合進視頻。

安裝有兩種方式。在 Claude Code 裏直接：

/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills

或者用 npx：

npx skills add feiskyer/video-skills

前置依賴就兩個：yt-dlp 和 ffmpeg，macOS 用 Homebrew 裝就行：

brew install yt-dlp ffmpeg

其他平台可以讓 AI 幫你自動安裝。

下面按我自己最常用的兩個場景，看看它們的用法。

場景一：YouTube 視頻變文字筆記

上週看到 Andrej Karpathy 一個新訪談，一個多小時，想先拿到文字稿挑重點看。打開 Claude Code，把連結丟進去：

幫我下載這個視頻 https://www.youtube.com/watch?v=kwSVtQ7dziU

download-video 會用 yt-dlp 把視頻拉下來，存到 ~/Downloads/Videos/。只要音頻、指定 720p 這些，直接用自然語言說就行。

下載完接着轉文字：

把剛下載的視頻轉成文字

transcribe-video 會先檢查視頻有沒有內嵌字幕。YouTube 上很多視頻自帶字幕，質量比語音識別好，速度快，關鍵是不花 API 的錢。只有沒字幕的時候才走 OpenAI 的 gpt-4o-transcribe。轉出來的文字稿自動清理了時間戳和格式標籤，直接就是乾淨的純文本。拿到文字稿再讓 Claude 做個摘要，整個流程一氣呵成。

沒有內嵌字幕的視頻需要配置 API Key，創建 ~/.transcribe_video.env：

OPENAI_API_KEY=your-key-here

也支持其他兼容 OpenAI API 的平台，加上 OPENAI_API_BASE 就行。

不過下載和轉錄只解決了看視頻的問題。如果你還需要編輯視頻呢？比如錄了個產品 DEMO，畫面有了，但沒聲音怎麼辦？

場景二：錄完 DEMO 自動配音

以前自己錄個視頻 DEMO，經常出現口誤、卡殼、節奏不對等等的問題，錄完還要花很長時間去剪輯，折騰半天才能搞定。

現在錄好視頻，直接一句話就可以搞定配音問題：

給這個 DEMO 視頻加上中文配音 demo.mp4

Claude Code 會先每隔幾秒截幀，看每個時間點屏幕上在發生什麼，建一個場景時間表。然後根據畫面寫帶時間戳的解說詞，每段文字量只佔時間窗口的 80%，段落之間自然留白。最後調 Azure TTS 逐段生成語音，按時間戳合成到視頻裏。

不過使用時需要注意，配置 Azure 密鑰，創建 ~/.narrate_video.env 並設置：

AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

寫在最後

video-skills 做的事情其實並不複雜，只是把 yt-dlp、ffmpeg、還有 Azure Speech 這些命令行工具和 AI 調用包進了 Skill，但用起來的流暢度完全不一樣。感興趣的話可以直接安裝來試試：npx skills add feiskyer/video-skills。

video-skills GitHub 為 https://github.com/feiskyer/video-skills，有任何問題歡迎貢獻完善。

如果覺得有幫助，歡迎關注我的公眾號 Feisky，這裏會持續分享 AI 編程和 AI Agent 的實戰經驗和踩坑記錄。