用 Claude Code 處理視頻太麻煩,我順手寫了個 Skill
整理版優先睇
用 Claude Code Skill 自動處理 YouTube 影片下載、轉文字同配音,一條指令搞掂。
呢篇文章係由開源開發者 Feisky 分享點樣用 Claude Code 嘅 Skill 系統簡化影片處理流程。作者發現平時要將 YouTube 技術演講變文字筆記好麻煩:要先揾工具下載、再揾工具提取字幕,字幕格式亂到嘔,半個鐘都未開始寫筆記。另外錄產品 DEMO 嘅時候畫面有但冇聲,自己錄成日口食同卡殼。佢就想:既然 Claude Code 可以幫手寫 code,點解唔可以幫手處理影片?於是就整咗個 video-skills 開源計劃。
video-skills 包含三個核心技能:download-video(從超過1000個平台下載影片)、transcribe-video(提取字幕,優先內嵌字幕,冇先至用 API 轉錄)、narrate-video(自動生成配音並對齊畫面節奏)。呢三個技能可以分開用,亦可以串聯。例如最常用嘅流程係:下載 YouTube 影片 → 轉成文字 → 用文字稿做筆記。或者錄完 DEMO → 叫 Claude 睇畫面寫解說詞 → 生成配音合成。
安裝方面,可以喺 Claude Code 用指令直接加 plugin,或者用 npx 安裝。前置依賴只需要 yt-dlp 同 ffmpeg,macOS 用 Homebrew 裝就得,其他平台 AI 可以自動裝。設定環境變數就可以用 OpenAI 或 Azure 嘅服務。作者強調呢個 Skill 其實只係包裝咗現有工具,但用自然語言操作嘅體驗流暢好多…
- video-skills 將影片處理(下載、轉錄、配音)整合成 Claude Code 嘅 Skill,一條自然語言指令搞掂,大幅節省時間。
- 方法:透過三個技能組合(download-video, transcribe-video, narrate-video)解決常見影片工作流,支援 YouTube、Bilibili 等平台。
- 差異:內嵌字幕優先,慳 API 成本;配音功能可自動分析畫面生成解說詞並對齊時間點。
- 啟發:將繁瑣嘅 CLI 工具同 AI 調用包裝成 Skill,令非技術用戶都可以用自然語言操作,係 Claude Code 生態嘅實用擴展。
- 可行動點:有需要嘅話可以用 npx skills add feiskyer/video-skills 安裝,設定好 OpenAI 或 Azure 密鑰即可使用。
video-skills GitHub
GitHub 倉庫,包含源碼、安裝說明及文檔
安裝指令
npx skills add feiskyer/video-skills
transcribe-video 環境變數
創建 ~/.transcribe_video.env,設定 OPENAI_API_KEY=your-key-here,可選 OPENAI_API_BASE
narrate-video 環境變數
創建 ~/.narrate_video.env,設定 AZURE_SPEECH_KEY=your-key-here、AZURE_SPEECH_REGION=eastus
問題背景:影片處理嘅煩惱
作者發現平時想將 YouTube 技術演講變文字筆記,流程勁麻煩:先揾在線工具下載影片,再揾工具提取字幕,字幕格式亂到要手動清理,搞成半個鐘都未開始寫筆記。
另一個場景係錄產品 DEMO,畫面有但冇聲,自己錄成日口食同卡殼,每次都要反覆調節奏。
Claude Code 可以幫手寫 code,點解唔可以幫手處理影片?
於是佢乾脆自己寫咗個 video-skills Skill 集合,一條指令解決成個流程。
video-skills 三大核心技能
video-skills 包含三個技能,可以單獨用或者串聯使用。
- download-video:從 YouTube、Bilibili、Twitter/X 等超過 1000 個平台下載影片。只要自然語言講低要求,例如只要音頻或者指定 720p 都得。
- transcribe-video:提取影片字幕,優先走內嵌字幕,質量好又快,唔使花 API 錢;冇內嵌字幕先用 gpt-4o-transcribe 轉錄。
- narrate-video:自動生成配音,畫面同語音節奏對齊。
內嵌字幕優先
gpt-4o-transcribe
實戰場景一:YouTube 影片變文字筆記
上週 Andrej Karpathy 有個新訪談成個幾鐘,作者想先拎文字稿睇重點。打開 Claude Code 就咁講:「幫我下載呢個影片 https://www.youtube.com/watch?v=kwSVtQ7dziU」,download-video 就用 yt-dlp 拉落嚟,預存放喺 ~/Downloads/Videos/。
一條指令下載完
跟住再講「把啱啱下載嘅影片轉成文字」,transcribe-video 會先 check 有冇內嵌字幕,有就用,冇先 call API。輸出嘅文字稿自動清理咗時間戳同格式標籤,乾淨純文本。
最後叫 Claude 做個摘要,成個流程一氣呵成。
唔使另外揾工具
實戰場景二:錄完 DEMO 自動配音
以前自己錄 DEMO 成日口誤、卡殼、節奏唔啱,剪輯搞成半日。而家錄好影片就講一句:「俾呢個 DEMO 影片加上中文配音 demo.mp4」
使用前要配置 Azure 密鑰,建立 ~/.narrate_video.env 設定 AZURE_SPEECH_KEY 同 AZURE_SPEECH_REGION。
80% 文字量
自然留白
安裝同配置
安裝有兩種方式:喺 Claude Code 直接用 /plugin marketplace add feiskyer/video-skills/plugin install video-skills@video-skills,或者用 npx 指令。
npx skills add feiskyer/video-skills
前置依賴得兩個:yt-dlp 同 ffmpeg。macOS 用 Homebrew 裝:
brew install yt-dlp ffmpeg
其他平台可以叫 AI 自動安裝。如果用到轉錄或配音功能,要設定對應環境變數。
# ~/.transcribe_video.env
OPENAI_API_KEY=your-key-here
# 可選其他兼容 OpenAI API 平台
# OPENAI_API_BASE=https://...
# ~/.narrate_video.env
AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus
yt-dlp
ffmpeg