我用Claude Code親手搭了一套視頻轉講稿工具,全程沒寫一行代碼
整理版優先睇
用Claude Code零代碼整咗套視頻下載轉講稿工具,仲用Skill-creator評估調優
呢篇文章係作者自己嘅實戰經驗。佢見到Anthropic更新咗Skill-creator,加入咗完整評估體系,於是決定由零開始,用Claude Code整出一套視頻處理工具。作者嘅處境係一個想自動化工作流嘅開發者,佢想解決嘅問題係:點樣唔寫code就用AI建立可靠嘅技能包,而且確保佢哋識得正確觸發。佢嘅結論係:Skills本身係共識,但評估體系先係真正補返嘅關鍵;全程零代碼,門檻極低,值得大家試。
文章首先介紹咗Skills嘅概念——即係畀Claude掛上去嘅「技能包」,而Skill-creator就係用嚟創造其他Skills嘅母技能。新版Skill-creator加入咗三個評估代理(analyzer、comparator、grader)同完整腳本,令你可以量化技能效果。作者跟住示範點樣逐步建立兩個Skill:一個係yt-dlp視頻下載,另一個係視頻轉講稿,而且仲遇到咗B站cookies同ffmpeg合併嘅實際問題。
最後,佢用Skill-creator嘅描述調優功能解決咗兩個Skill嘅觸發衝突,自動生成測試集同可視化界面,優化咗觸發邏輯。作者強調,呢套評估體系解決咗以前做完Skill唔知好唔好用嘅痛點,令數據擺出來,好不好用一眼見真章。
- Skills係畀Claude掛上嘅技能包,而Skill-creator係用嚟創造Skills嘅母技能,新版加入咗完整評估體系。
- 作者全程無寫一行code,用Claude Code自動完成安裝依賴、創建Skills、測試調優。
- 實戰中遇到B站cookies加密同ffmpeg缺失問題,分別用Chrome擴展同winget安裝解決。
- Skill-creator嘅描述調優功能可以自動生成測試用例(含邊界情況)同可視化界面,防止Skills觸發衝突。
- 評估體系係Skills生態最關鍵嘅環節,令你可以量化技能效果,唔再靠自我感覺。
Anthropic Skills 倉庫
包含Skill-creator及所有Skills源碼
yt-dlp
支援1000+網站嘅視頻下載工具
ffmpeg
用於合併視頻與音頻文件
Get cookies.txt LOCALLY
Chrome擴展,用於導出B站cookies解決登錄問題
Skills係乜?點解Skill-creator咁重要?
Skills就係畀Claude掛上去嘅「技能包」。雖然Claude本身好叻,但某啲任務佢唔擅長,或者你想佢跟特定規則做。Skills就係將呢啲規則、流程、工具使用方式寫成一個SKILL.md檔,放喺.claude/skills/目錄下,Claude讀到之後就會照做。
Skills就係畀Claude掛上去嘅「技能包」
而Skill-creator,就係用嚟創造其他Skills嘅母技能。作者話,舊版做完Skill完全唔知好唔好用,全靠自我感覺。新版Skill-creator補返呢個痛點,加入咗評估體系,包括評估代理、基準測試同描述調優工具。
第一步:更新Skill-creator
作者喺Claude Code直接叫佢去GitHub拉取最新版Skill-creator,自動安裝到指定目錄。成個過程一兩分鐘就搞掂。
skill-creator/
├── SKILL.md
├── agents/
│ ├── analyzer.md
│ ├── comparator.md
│ └── grader.md
├── eval-viewer/
│ ├── generate_review.py
│ └── viewer.html
└── scripts/
├── improve_description.py
├── run_eval.py
├── run_loop.py
└── ...
agents/入面係三個評估代理,scripts/係評估、基準測試、描述調優嘅完整腳本
第二步:整yt-dlp視頻下載Skill
作者叫Claude Code將yt-dlp整成一個Skill,佢自動做咗三件事:檢測未安裝時自動pip install、創建SKILL.md、寫好觸發條件同下載命令。
自動pip install yt-dlp
測試B站連結時遇到兩個插曲:第一個係B站需要登錄cookies,而Chrome 127+加密咗,要用Get cookies.txt LOCALLY擴展導出;第二個係視頻同音頻分開下載,要用ffmpeg合併。Claude Code都自動搞掂咗。
- 1 B站cookies問題:裝Chrome擴展Get cookies.txt LOCALLY,登錄後導出cookies檔案擺到指定路徑。
- 2 ffmpeg缺失:Claude Code用winget install ffmpeg安裝,然後自動合併兩個檔案成完整mp4。
第三步:整視頻轉講稿Skill
作者要求Claude Code創建一個Skill:畀一條視頻連結,就能輸出文字版講稿,如果係外語就同時畀原文同中文版。Claude Code問咗幾個細節(輸出格式、無字幕時用Whisper?保存位置?)之後就自動創建好。
自動檢測到英文字幕(en-orig)
測試用一個英文YouTube片,結果好乾淨:提取字幕、清洗、翻譯成中文,輸出兩個檔案(原文版同中文版),中文翻譯好流暢。
第四步:解決兩個Skill嘅觸發衝突
問題嚟喇:yt-dlp同video-transcript嘅觸發條件都係「畀一個視頻連結」,Claude點知你想下載定係要講稿?作者用Skill-creator嘅描述調優功能搞掂。
用Skill-creator嘅描述調優功能
- 1 自動修改YAML描述,加上明確邊界說明,例如yt-dlp描述末尾加「Do NOT use when user wants text/transcript」。
- 2 自動生成兩組測試用例(每組20條),包括10條應該觸發同10條唔應該觸發嘅情況,仲有故意嘅邊界case。
- 3 生成HTML可視化界面,喺瀏覽器逐條確認觸發開關,匯出後後台最多跑5輪迭代,自動將最優描述寫返落SKILL.md。
作者話呢個可視化界面好實用,見到邊啲Case判斷錯可以直接改,唔使自己諗規則。
幾點感受同建議
作者總結:Skills已經係共識,但評估體系先係真正補返嘅關鍵。新版Skill-creator解決咗做完Skill唔知好唔好用嘅痛點。全程零代碼,門檻極低。
評估體系先係真正補返嘅關鍵
- 將Skill-creator更新到最新版。
- 將日常最高頻嘅工作流整成一個Skill。
- 用評估體系跑一遍,睇下效果。
最近睇到一篇文章(https://mp.weixin.qq.com/s/vjMG8i7DwQ7R2B1C4AVQdA ),介紹Anthropic靜靜雞更新咗Skills生態入面嘅核心工具——Skill-creator。
睇完之後我決定自己動手整返一次,由零開始,成個過程記錄低。
先講結論
成個過程落嚟,我完成咗呢幾件事:
•將Skill-creator更新到最新版(支援評估、基準測試、描述調優)•做咗一個yt-dlp影片下載Skill,支援YouTube、B站等1000+網站•做咗一個影片轉講稿Skill,英文影片自動輸出中英雙語講稿•用可視化界面確認咗兩個Skill嘅觸發測試集,防止衝突
全程冇手寫一行代碼,Claude Code自己搞掂曬。
咩係Skills?
簡單講,Skills就係畀Claude掛上去嘅「技能包」。
Claude本身好勁,但有啲任務佢唔擅長,或者你想佢跟返你嘅規矩嚟做。Skills就係將呢啲規則、流程、工具使用方式,寫成一個SKILL.md檔案,放喺.claude/skills/目錄下面,Claude讀到之後就知點樣做嘢喇。
而Skill-creator,係用嚟創造其他Skills嘅母技能。今次佢迎嚟咗重大更新,加咗完整嘅評估體系。
第一步:更新Skill-creator
喺Claude Code入面直接講呢句:
https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個skills更新了,幫我更新到最新版本,安裝到 C:\Users\Administrator\.claude\skills\ 目錄下Claude Code會自動去GitHub拉返曬所有檔案,大概一兩分鐘就搞掂。
更新後嘅目錄結構係咁樣:
skill-creator/
├── SKILL.md
├── agents/
│ ├── analyzer.md
│ ├── comparator.md
│ └── grader.md
├── eval-viewer/
│ ├── generate_review.py
│ └── viewer.html
└── scripts/
├── improve_description.py
├── run_eval.py
├── run_loop.py
└── ...agents/入面係三個評估代理,scripts/入面係評估、基準測試、描述調優嘅完整腳本。呢啲就係新版嘅核心能力。
第二步:整yt-dlp影片下載Skill
同Claude Code講:
幫我把 https://github.com/yt-dlp/yt-dlp 做成一個skill,能從YouTube、B站等視頻網站下載視頻到本地佢自動做咗三件事:
1.偵測到yt-dlp未安裝,自動pip install yt-dlp2.創建C:\Users\Administrator\.claude\skills\yt-dlp\SKILL.md3.寫好觸發條件、下載指令、常見報錯處理
Skill建立好之後,我直接掟咗一個B站連結測試。遇到咗兩個小插曲:
插曲一:B站需要登入cookies
Chrome 127+對cookies做咗新加密,yt-dlp冇辦法直接讀取。解決方法係裝一個Chrome擴充功能Get cookies.txt LOCALLY,喺B站登入狀態下導出cookies檔案,儲存去到:
C:\Users\Administrator\.claude\cookies\www.bilibili.com_cookies.txt插曲二:影片同音頻係分開嘅
下載完發現有兩個檔案,影片檔案同音頻檔案冇合併。原因係唔見咗ffmpeg。叫Claude Code執行:
幫我安裝ffmpeg然後合併這兩個文件它用winget install ffmpeg安裝好之後,自動揾到ffmpeg路徑,合併咗成一個完整嘅mp4。
最終下載成功,49MB嘅完整影片檔案。
第三步:整影片轉講稿Skill
同Claude Code講:
我想創建一個skill,我希望能夠實現我給了一個視頻連結,它能夠把文字版的講稿發給我,如果是別的語言,最好是把原語言版和中文版的講稿文檔給我。佢問咗幾個細節問題,例如輸出格式、冇字幕時係咪用Whisper轉寫、儲存位置等。確認之後,Skill好快就建立好。
測試用嘅係一個英文YouTube影片,結果:
•自動偵測到英文字幕(en-orig)•提取並清洗成純文字•翻譯成中文•輸出兩個檔案:視頻標題_en.txt 和 視頻標題_中文.txt
效果非常乾淨,中文翻譯都好流暢,完全用得。
第四步:解決兩個Skill嘅觸發衝突
而家問題嚟喇。
yt-dlp同video-transcript,觸發條件都係「畀一個影片連結」。Claude點知你想下載影片,定係想要講稿?
呢個就需要用Skill-creator嘅描述調優功能。
同Claude Code講:
我現在有兩個skill都跟視頻連結相關,一個是yt-dlp負責下載視頻,一個是video-transcript負責生成講稿,我擔心觸發會打架,請幫我用skill-creator優化這兩個skill的描述,防止衝突。佢做咗幾件事:
首先,幫兩個Skill嘅YAML描述加咗明確嘅邊界說明。例如yt-dlp嘅描述尾尾加咗:
Do NOT use this skill when the user wants text, transcript, lecture notes, or subtitle text — use video-transcript for that.
然後,自動生成了兩組測試用例,每組20條:
•10條「應該觸發」嘅情況•10條「唔應該觸發」嘅情況
邊界case設計得幾得意,專門將模糊地帶放埋入去,例如「幫我下載呢條片嘅字幕」呢種兩邊都可能觸發嘅情況。
最後,生成咗一個HTML可視化界面,喺瀏覽器入面打開:
界面入面每一條測試用例右邊都有開關,標住Yes/No,你可以逐條確認。覺得邊條判斷唔啱,直接撥開關或者刪咗佢。確認完撳Export Eval Set導出,優化循環就會喺後台啟動,最多跑5輪迭代,自動將最優描述寫返入SKILL.md。
幾點感受
Skills已經係共識,但評估體系先係缺咗嗰塊。
而家個個都知道Skills重要,各式各樣技能包周圍都係。但整完之後好唔好用、觸發準唔準、有冇冗餘,幾乎冇人認真量化過。新版Skill-creator補返嘅,正正係呢個最關鍵嘅環節。
新版Skill-creator解決咗最大嘅痛點。
以前整完一個Skill,完全唔知好唔好用,全靠自己感覺。而家有咗評估體系,數據擺出嚟,好唔好用一眼就睇到。
全程零代碼。
由安裝依賴到建立Skill到測試調優,我冇手動寫過一行代碼。呢個對於唔識寫程式嘅人嚟講,門檻好低。
最後
如果你都用緊Claude Code,強烈建議:
1.將Skill-creator更新到最新版2.將你日常最高頻嘅工作流程,整成一個Skill3.用評估體系行一次,睇下效果
最近看到一篇文章(https://mp.weixin.qq.com/s/vjMG8i7DwQ7R2B1C4AVQdA ),介紹Anthropic悄悄更新了Skills生態裏的核心工具——Skill-creator。
看完之後我決定自己動手復刻一遍,從零開始,把整個過程記錄下來。
先說結論
整個過程下來,我完成了這幾件事:
•把Skill-creator更新到最新版(支持評估、基準測試、描述調優)•做了一個yt-dlp視頻下載Skill,支持YouTube、B站等1000+網站•做了一個視頻轉講稿Skill,英文視頻自動輸出中英雙語講稿•用可視化界面確認了兩個Skill的觸發測試集,防止衝突
全程沒有手寫一行代碼,Claude Code自己搞定了一切。
什麼是Skills?
簡單說,Skills就是給Claude掛上去的"技能包"。
Claude本身很強,但有些任務它不擅長,或者你希望它按你的規矩來做。Skills就是把這些規則、流程、工具使用方式,寫成一個SKILL.md文件,放在.claude/skills/目錄下,Claude讀到之後就知道該怎麼幹了。
而Skill-creator,是用來創造其他Skills的母技能。這次它迎來了重大更新,加入了完整的評估體系。
第一步:更新Skill-creator
在Claude Code裏直接發這句話:
https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個skills更新了,幫我更新到最新版本,安裝到 C:\Users\Administrator\.claude\skills\ 目錄下Claude Code會自動去GitHub拉取所有文件,大概一兩分鐘就完成了。
更新後的目錄結構長這樣:
skill-creator/
├── SKILL.md
├── agents/
│ ├── analyzer.md
│ ├── comparator.md
│ └── grader.md
├── eval-viewer/
│ ├── generate_review.py
│ └── viewer.html
└── scripts/
├── improve_description.py
├── run_eval.py
├── run_loop.py
└── ...agents/裏是三個評估代理,scripts/裏是評估、基準測試、描述調優的完整腳本。這些就是新版的核心能力。
第二步:做yt-dlp視頻下載Skill
告訴Claude Code:
幫我把 https://github.com/yt-dlp/yt-dlp 做成一個skill,能從YouTube、B站等視頻網站下載視頻到本地它自動做了三件事:
1.檢測到yt-dlp未安裝,自動pip install yt-dlp2.創建C:\Users\Administrator\.claude\skills\yt-dlp\SKILL.md3.寫好觸發條件、下載命令、常見報錯處理
Skill創建好之後,我直接扔了一個B站連結測試。遇到了兩個插曲:
插曲一:B站需要登錄cookies
Chrome 127+對cookies做了新加密,yt-dlp無法直接讀取。解決方法是裝一個Chrome擴展Get cookies.txt LOCALLY,在B站登錄狀態下導出cookies文件,保存到:
C:\Users\Administrator\.claude\cookies\www.bilibili.com_cookies.txt插曲二:視頻和音頻是分開的
下載完發現有兩個文件,視頻文件和音頻文件沒有合併。原因是缺少ffmpeg。讓Claude Code執行:
幫我安裝ffmpeg然後合併這兩個文件它用winget install ffmpeg安裝好之後,自動找到ffmpeg路徑,合併成了一個完整的mp4。
最終下載成功,49MB的完整視頻文件。
第三步:做視頻轉講稿Skill
告訴Claude Code:
我想創建一個skill,我希望能夠實現我給了一個視頻連結,它能夠把文字版的講稿發給我,如果是別的語言,最好是把原語言版和中文版的講稿文檔給我。它問了幾個細節問題,比如輸出格式、無字幕時是否用Whisper轉寫、保存位置等。確認後,Skill很快就創建好了。
測試用的是一個英文YouTube視頻,結果:
•自動檢測到英文字幕(en-orig)•提取並清洗成純文本•翻譯成中文•輸出兩個文件:視頻標題_en.txt 和 視頻標題_中文.txt
效果非常乾淨,中文翻譯也很流暢,完全可用。
第四步:解決兩個Skill的觸發衝突
現在問題來了。
yt-dlp和video-transcript,觸發條件都是"給一個視頻連結"。Claude怎麼知道你是想下載視頻,還是想要講稿?
這就需要用Skill-creator的描述調優功能。
告訴Claude Code:
我現在有兩個skill都跟視頻連結相關,一個是yt-dlp負責下載視頻,一個是video-transcript負責生成講稿,我擔心觸發會打架,請幫我用skill-creator優化這兩個skill的描述,防止衝突。它做了幾件事:
首先,給兩個Skill的YAML描述加上了明確的邊界說明。比如yt-dlp的描述末尾加上:
Do NOT use this skill when the user wants text, transcript, lecture notes, or subtitle text — use video-transcript for that.
然後,自動生成了兩組測試用例,每組20條:
•10條"應該觸發"的情況•10條"不應該觸發"的情況
邊界case設計得很有意思,專門把模糊地帶放進去,比如"幫我下載這個視頻的字幕"這種兩邊都可能觸發的情況。
最後,生成了一個HTML可視化界面,在瀏覽器裏打開:
界面裏每一條測試用例右邊都有開關,標着Yes/No,你可以逐條確認。覺得哪條判斷不對,直接撥開關或者刪掉。確認完點Export Eval Set導出,優化循環就會在後台啓動,最多跑5輪迭代,自動把最優描述寫回SKILL.md。
幾點感受
Skills已經是共識,但評估體系才是缺的那塊。
現在大家都知道Skills重要,各種技能包滿天飛。但做完之後好不好用、觸發準不準、有沒有冗餘,幾乎沒人認真量化過。新版Skill-creator補上的,正是這個最關鍵的環節。
新版Skill-creator解決了最大的痛點。
之前做完一個Skill,完全不知道好不好用,全靠自我感覺。現在有了評估體系,數據擺出來,好不好用一眼就見真章。
全程零代碼。
從安裝依賴到創建Skill到測試調優,我沒有手動寫過一行代碼。這對於不懂編程的人來說,門檻極低。
最後
如果你也在用Claude Code,強烈建議:
1.把Skill-creator更新到最新版2.把你日常最高頻的工作流,做成一個Skill3.用評估體系跑一遍,看看效果