Claude悄悄更新了Skills生成器，這絕對是一次史詩級升級。

作者：數字生命卡茲克

日期：2026年3月11日上午2:05

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Claude Skill-creator 史詩級更新：加入評估系統、多代理測試，每個 Skill 都值得重新優化

整理版摘要

呢篇文章係由卡茲克同可達寫嘅，佢哋一直關注 Claude Skills 生態。Anthropic 官方今次更新咗 Skill-creator，一口氣加咗四個新功能：評估系統、基準測試、多代理並行測試同描述調優。以前做完一個 Skill 係黑盒，完全唔知好唔好用、觸發得啱唔啱。今次更新補齊咗呢個痛點，令到 Skill 創作可以數據驅動，作者極力推薦所有用家更新同重新優化手上嘅 Skill。

作者用自己做嘅一個「影片轉講稿」Skill 示範成個流程：先自然語言描述需求，等 Skill-creator 自動設計；出嚟嘅結果排版唔靚，可以叫佢改進；然後驚同另一個下載影片嘅 Skill「打架」，就用評估系統自動生成 20 條測試查詢（10 條應觸發、10 條唔應觸發），逐條確認後跑優化循環，最終描述會自動寫入 SKILL.md。之後仲可以跑全面評估，4 個獨立子代理同時測試，量化通過率同 token 成本，結果一目瞭然。

作者強調，評估嘅價值唔止係睇數據，仲可以發現隱藏問題（例如官方 PDF Skill 處理表格會放歪），然後針對性修復，形成「測試、發現、修、再測」嘅閉環。Skills 實際上分兩種：能力提升型（教 Claude 做唔擅長嘅事）同編碼偏好型（按流程規範行事），評估方向有啲唔同。總括而言，呢次更新係 Skills 生態嘅一大步，所有 Skill 都值得用新版本過一次。

新 Skill-creator 加入評估系統、基準測試、多代理並行測試、描述調優四大功能，補齊創作後無法評估嘅痛點。
評估系統可自動生成應觸發同唔應觸發嘅查詢樣本，用戶可以手動調整，再跑多輪迭代優化描述。
多代理並行測試喺獨立環境運行，避免上下文污染，支援 A/B 盲評，量化通過率同 token 成本。
描述調優功能自動優化 Skill 觸發描述，官方測試 5 個文檔類 Skill 觸發率都有提升，有效防止 Skill 打架。
作者以影片轉講稿 Skill 為例，展示由創建到評估優化嘅完整流程，認為所有 Skills 都值得重新優化一次。

值得記低

連結 github.com

Skill-creator GitHub 倉庫

Anthropic 官方 Skills 生成器嘅最新版本，可直接畀 Agent 自動更新。

整理重點

今次更新有幾大件事？

上星期作者發現 Anthropic 嘅 Skills 倉庫有更新，原來係 Skill-creator 迎來咗一次史詩級升級。呢個母 Skills 可以話係成個 Skills 生態嘅基石，之前最大嘅痛點係做完出嚟係黑盒，完全唔知好唔好用。

今次一口氣加咗四個新能力：評估系統、基準測試、多代理並行測試同描述調優，將成個創作流程變得嚴謹咗好多。

1 評估系統：跑完直接話你知個 Skill 得唔得，仲可以自動生成應觸發同唔應觸發嘅查詢樣本。
2 基準測試：將通過率、耗時、token 用量全部量化，一目瞭然。
3 多代理並行測試：每個測試喺乾淨環境獨立跑，支援 A/B 盲評，結果唔會互相污染。
4 描述調優：自動幫你改 Skill 描述，做到該觸發嘅觸發，唔該觸發嘅唔好亂觸發。

整理重點

點樣更新同用新功能？

更新方法超簡單，直接將下面呢句說話發畀你嘅 Agent（無論係 Claude Code、OpenClaw 定 OpenCode）就得：

更新 Skill-creator 嘅指令 text

https://github.com/anthropics/skills/tree/main/skills/skill-creator，呢個 skills 更新咗，幫我更新到最新版本

作者用一個新 Skill 做 demo：想要畀個影片連結，就自動生成文字版講稿，最好中文英文雙語。佢直接同 Skill-creator 講「我想創建一個 skill，能夠將影片連結轉成文字講稿，如果是其他語言就畀原語言同中文版」，跟住佢會問幾個問題，大約 3-5 分鐘就整好。

出嚟嘅結果開頭排版好差，一大坨字。作者叫佢優化，改進之後就變得排版清晰，段落分明。

整理重點

點樣用評估系統避免 Skills 打架？

作者本身有個 yt-dlp Skill 負責下載影片，而家多咗個講稿生成 Skill，兩個都係畀影片連結就觸發，好驚佢哋「打架」——即係該觸發嘅唔觸發，唔該觸發嘅亂觸發。

於是用新嘅評估系統：佢會先讀取當前 Skill 描述，然後自動生成兩組查詢—— 應觸發嘅 10 條同唔應觸發嘅 10 條，仲故意放埋邊界情況入去，逼模型喺模糊地帶做判斷。

確認之後，優化循環就會喺後台啟動，最多跑 5 輪，每輪做三件事測試評估，大約 10-20 分鐘。跑完會顯示一個巨型表格，綠色剔號表示觸發成功，紅色交叉表示冇觸發。佢將樣本分成 60% 訓練集同 40% 測試集，防止過擬合。最終最優描述會自動寫返入 SKILL.md，全程唔使你手動。

整理重點

全面評估：多代理並行測試同基準對比

觸發準確唔代表實際表現好，所以仲要行全面評估。作者揀咗全面評估，Skill-creator 會根據功能自動設計三類測試場景同量化驗收標準。跟住一次過啟動 4 個獨立子代理同時跑，每個喺完全乾淨嘅環境</highlight>獨立運行，有自己嘅 token 計數同時間指標，唔會有上下文污染。

測試完會彈出評估頁面，有兩個標籤頁：輸出標籤頁可以直接睇每個測試用例嘅輸出，下面仲有反饋框，你可以標註邊度唔啱、邊度要改進；另一個係基準測試標籤頁，顯示有 Skill vs 無 Skill</highlight> 嘅量化對比。

1 作者示範嘅講稿 Skill：有 Skill 通過率 100%，無 Skill 基線 9%，差值 91.5%。
2 費用：有 Skill 每次約 4000 token，無 Skill 1750 token，多咗 2250，但對比產出嘅結果，值得。

Anthropic 官方用一個 PDF Skill 做例子：之前處理表格成日放歪，因為冇明確字段引導。經評估發現問題，修復定位邏輯後就解決咗。而且評估結果會存喺本地，下次改進時會直接帶入上次標註嘅問題，形成完整嘅測試、發現、修、再測</highlight> 循環。

作者最後提醒，Skills 分兩種：能力提升型</highlight>（教 Claude 做唔擅長嘅事）同編碼偏好型</highlight>（按流程規範行事）。評估方向有啲唔同：能力提升型測模型更新之後個 Skill 仲有冇存在必要，用 A/B 測試；編碼偏好型測佢有冇跟足你嘅流程、有冇漏步驟。作者強烈建議大家更新 Skill-creator 後，將手上所有 Skills 都重新優化同評估一次，因為 Skills 就係 Agent 生態嘅基石。

上個禮拜直播嘅時候，發現Anthropic嘅skills倉庫居然有更新咗。

㩒入去一睇，然後居然發現咗一個超級剛需嘅Skills迎嚟咗更新。

就係呢個，甚至可以話係整個Skills生態嘅基石。

Skill-creator。

可以話，而家小龍蝦嘅能力可以咁強，有一半嘅原因都要歸功於Skills，而呢啲Skills可以被創造出嚟，幾乎都要歸功於呢個母Skills。Skill-creator。

我相信，任何一個睇過我哋過去關於Skills嘅文章，或者玩過Skills嘅朋友，都絕對唔可能對呢個Skill-creator陌生。

簡單總結就係，呢個係Anthropic官方出嘅Skills生成器。

你可以用口描述出你嘅需求，然後直接用Skill-creator，幫你做成一個Skill。

如果有唔瞭解嘅，可以去睇一下我哋過去嘅呢一篇文章：一文帶你睇懂，火爆全網嘅Skills到底係個咩嚟。自己覺得寫得都算詳細。

呢個星期終於有時間，詳細翻咗一下今次更新嘅Skill-creator嘅文檔，然後發現，今次真係可以話，係史詩級更新都唔過分，強咗太多太多喇。

所以我覺得，值得寫一篇文章，嚟同大家傾下，今次Skill-creator更新嘅新特性同新功能。

真係，所有嘅skills，都值得重新優化一次。

非常簡單咁講，今次佢哋一口氣加咗4個全新嘅能力，分別係：

1. 評估系統，跑完直接話畀你知呢個skill到底得唔得。

2. 基準測試，將通過率、耗時、token用量，全部量化曬。

3. 多代理並行測試，每個測試喺乾淨嘅環境裏面獨立跑，支援A/B盲評，結果唔會互相污染。

4. 描述調優，可以自動幫你改skill描述，應該觸發嘅觸發，唔應該觸發嘅就唔好亂咁觸發。

之前的Skill-creator其實一路都有個痛點，就係你生成完嘅Skills，其實係個黑盒，你完全唔知道，呢個Skills到底好唔好用，佢嘅質量點樣，佢嘅觸發機制合唔合理。

用我哋現代成日提嘅工業化體系嚟講，就係缺少咗一個好重要嘅嘢，評估機制。

評估太重要喇，一個好嘅評估，真係可以引領方向。

而而家，新版嘅Skill-creator，直接將整個評估體系，全部補返曬。

我好推薦大家，一定要更新到最新版。

更新方式都究極無敵簡單，你直接將呢段話，發畀你嘅Agent就得，無論係Claude code、OpenClaw、OpenCode等等等等：

https://github.com/anthropics/skills/tree/main/skills/skill-creator，呢個skills更新咗，幫我更新到最新版本

係，就咁一句話。

然後你嘅Agent，就會自己去更新喇。

好快，就更新完咗。

我用一個案例，嚟同大家演示一下新版Skill-creator嘅能力。

喺之前有一篇文章入面，我將Github上面嘅yt-dlp做咗一個Skill，可以從YouTube、B站等各種視頻網站下載視頻。

但其實我哋後來發現，淨係識得下載視頻仲唔夠。

我仲希望拎到視頻連結之後，可以直接生成文字版嘅講稿。

而且如果係英文或者其他語言嘅視頻，最好可以直接畀我中英雙語嘅講稿文檔。

所以啱啱好，藉住呢個機會，我就用skill-creator又搓咗一個新skill。

提示詞好簡單。

我想創建一個skill，我希望可以實現我畀咗一個視頻連結，佢能夠將文字版嘅講稿發畀我，如果係其他語言，最好就係將原語言版同中文版嘅講稿文檔畀我。

佢會先問你幾個問題，確認需求細節，然後開始幫你設計整個skill。

大概3到5分鐘，呢個Skill就設計完咗。

我拎一個OpenClaw創始人嘅YouTube訪談視頻嚟試一下。

就畀咗一個YouTube嘅連結。

五分鐘之後，中文版嘅講稿就出咗嚟。

不過，其實有個問題。。。

呢一大嚿文字堆埋一齊，字又細又逼。

根本冇辦法睇。

呢個時候你就可以繼續對話，叫佢幫你優化，幫你改進呢個skill。

新版嘅Skill-creator，喺改進嘅能力上，都有啲提升。

改進之後嘅效果：

幾乎完美。

排版清晰，段落分明，咁先似一個文檔應有嘅樣。

但呢個仲未完。

但呢個時候，一個頭痛嘅問題就嚟咗，我驚我嘅skills觸發會打架。

因為我而家有兩個skill都同視頻連結相關。

一個係yt-dlp，負責下載視頻到本地。

一個係啱啱做嘅講稿生成，負責將視頻轉成文字。

兩個skill嘅觸發條件都係畀一個視頻連結，我驚佢哋會打架，就係出現應該觸發嘅唔觸發，唔應該觸發嘅亂咁觸發。

噉就可以用Skill-creator嘅評估體系喇，叫佢嚟幫你，進行優化skill描述。

佢會先讀取你當前skill嘅描述，然後話畀你知接下來要做四件事：

自動生成兩組查詢，應該觸發嘅10條同唔應該觸發嘅10條。

設計得幾有意思。

特登將邊界情況都擺埋入去，逼模型喺模糊地帶做判斷。

然後，直接生成咗一個網頁，畀你確認，特別厲害。

真係，我用嘅時候都嚇親咗。

所有查詢排喺界面裏面，每一條右邊有個開關，標示住係咪應該觸發。

你可以逐條睇一次，覺得邊條判斷唔啱，直接關就得。

打個譬如，第三條呢種情況，我唔想佢再觸發，我就直接叫佢關咗佢就得。

然後仲有唔應該觸發嘅10條，我睇咗一次，冇咩問題。

所有嘢都確認之後，呢個時候，你㩒導出評估集，就搞掂啦。

確認完樣本之後，優化循環會喺後台啟動，最多跑5輪迭代。

每一輪做三件事嚟幫你進行測試同評估，整個過程大約需要10-20分鐘。

佢仲會定期匯報進度。

跑完之後你就會見到一個巨型表格。

每一列係一個查詢樣本，每一行係一個迭代版本嘅描述。

綠色剔表示觸發成功，紅色交叉表示冇觸發。

藍色列係測試集，其餘係訓練集。

佢將樣本分成60%訓練集同40%測試集，喺訓練集上迭代優化，最終用測試集上嘅表現嚟揀，防止過度擬合。

跑完之後，最優嘅描述會自動寫返落你嘅SKILL.md，全程唔使你鬱手。

Anthropic官方喺自己6個文檔類skill上測咗一次，5個觸發率都有提升。

淨係用新版嘅skill-creator優化咗一次，真係好撚勁。

通過呢一步，可以大大提升你嘅Skills嘅觸發準確率。

但觸發啱咗，並唔等於OK。

所以，你嘅Skill裝上咗並且可以穩定觸發之後，到底喺實際任務上表現點樣，呢個能力，都仲要評估一下。

我就繼續拎呢個啱啱做好嘅skill嚟跑一次，帶大家睇下整個過程。

直接對啱啱嗰個skill進行一下評估。

佢會先將你嘅skill文件完整讀一次，搞清楚呢個skill嘅核心流程係咩。

然後佢會問你：你更想測邊方面？

我揀咗全面評估。

佢根據skill嘅功能，自動設計咗三類測試場景，同時設計咗量化驗收標準。

確認方案之後，佢一次過啟動咗4個獨立子代理，同時跑。

今次4個並行嘅Agent嚟進行測試，就幾正喇。

以前其實你都可以做啲簡單嘅評估，不過，最大嘅問題，就係會按順序跑，一個跑完再跑下一個。

不過大家都知道，上下文管理有幾重要，前一個任務累積嘅上下文，會污染後一個嘅結果。

你以為係skill嘅功勞，但其實完全係對話歷史幫咗手。

今次嘅評估，就對路咗好多。

每個代理都喺完全乾淨嘅環境裏面獨立運行，有自己嘅token計數同時間指標。

互相之間零交叉。

結果更快，數據更乾淨。

等緊嘅時候，佢都順手就將量化評分腳本都準備好曬。

等測試結果返嚟之後，就直接自動檢查格式係咪符合要求，好多小細節全部喺裏面。

測試跑完，瀏覽器會彈出評估查看頁面，有兩個標籤頁。

輸出標籤頁，可以直接睇每個測試用例嘅輸出。

下面仲有一個反饋框，你可以直接標註邊度唔啱、邊度需要改進。

呢啲反饋會被存起嚟，下次改進skill嘅時候直接用。

另一個係基準測試標籤頁，可以睇有skill vs 無skill。

通過量化對比，一目瞭然。

數據呢方面，都係極度量化。

有skill嘅通過率100%，無skill基線9%，差值91.5%。

費用上，有skill每次大約4000token，無skill1750token，差咗2250。

但呢個係skill帶來嘅額外消耗，對比產出嘅結果，值得。

但評估嘅價值遠唔止於此。

Anthropic官方都舉咗個例子。

佢哋有個PDF skill，之前喺處理表格時會出錯。

Claude需要將文字精確噉放喺特定座標上，但因為冇明確嘅字段做引導，成日放歪。

呢個問題喺評估過程中被發現，再進行修復改進定位邏輯之後，問題就解決咗。

即係話，揾到問題之後唔使從頭嚟過。

評估結果會存喺本地，下次你用skill-creator改進呢個skill嘅時候，佢會將上次標註嘅問題直接帶入去，針對嗰度改。

改完再跑一次評估，睇下有冇提升。

測試、發現、修、再測，呢個循環係完整嘅。

Anthropic將軟件開發嘅一啲嚴謹做法，例如測試、基準、迭代改進等等，今次引入Skills嘅創作流程。

真係，厲害太多喇。

呢個絕對對所有人嚟講，都係一個史詩級增強。

你要知道，小龍蝦點解咁強，可以做咁多嘢，其實真係唔係因為佢本身有幾勁，純粹係因為，佢身上掛住嘅Skills，太多喇，嗰啲都係一個又一個嘅技能包。

可以話，Skills，就係整個Agent未來大繁榮生態嘅基石，而我自己，都一路極力睇好同強力推廣各種各樣嘅Skills。

所以，我極度建議，大家將Skill-creator更新到最新版，然後將你自己所有嘅Skills，都進行優化同評估一次。

當然，你要先分清楚，你寫嘅Skills係邊種。

因為本質上，Skills其實分兩種。

第一種係能力提升型。

就係教Claude做佢本來唔擅長嘅嘢。

例如官方嘅前端設計skill、文檔創建skill，裏面寫咗大量技巧，係你淨係靠Prompt根本拎唔到嘅效果。

我哋大多數人自己搓嘅skill，基本都係呢類。

第二種官方叫編碼偏好型。

就係話畀Claude跟你嘅規矩嚟做。

Claude本身每一步都可以做到，但你嘅skill將呢啲步驟跟你團隊嘅流程串起咗嚟。

例如一個會議紀要整理skill，跟你哋公司固定嘅格式，自動將錄音轉成帶行動項嘅文檔。

或者一個週報生成skill，從各個平台裏面拉數據，跟你想要嘅格式排好。

你可以將呢種，理解成一個Workflow，就係一個工作流。

對呢兩種類型，評估嘅方向會稍微有啲唔同。

對於能力提升型，測嘅係模型更新之後呢個skill仲有冇存在嘅必要。

用A/B測試對比，有skill同冇skill各跑一次。

結果如果差唔多，呢個skill就可以退休喇。

編碼偏好型測嘅係另一件事，佢有冇乖乖地跟你嘅流程行？

有冇漏咗步驟？有冇自作主張改咗順序？有冇唔記得你特別講過嘅某個要求？

所以會稍微有啲分別，呢個大家自己評估嘅時候，可以注意一下。

返轉頭諗下，以前整完一個skill，其實都係自我感覺良好。

但講真話，全部係黑盒，根本唔知道應該點樣評估。

而家就舒服好多喇。

評估跑一次，數據擺出嚟，好唔好用，一眼就見真章。

所有嘅Skills，真係都值得重新優化同評估一次。

Skills生態。

感覺又會迎嚟一波大繁榮喇。

以上，既然睇到呢度，如果覺得唔錯，順手㩒個讚、睇、轉發三連啦，如果想第一時間收到推送，都可以畀我個星標⭐～多謝你睇我嘅文章，我哋，下次再見。

>/ 作者：卡茲克、可達

>/ 投稿或爆料，請聯絡電郵：wzglyay@virxact.com

上週直播的時候，發現Anthropic的skills倉庫居然有更新了。

點進去一看，然後居然發現了一個超級剛需的Skills迎來了更新。

就是這個，甚至可以說是整個Skills生態的基石。

Skill-creator。

可以說，現在小龍蝦的能力能這麼強，有一半的原因都要歸功於Skills，而這些Skills能被創造出來，幾乎都要歸功於這個母Skills，Skill-creator。

我相信，任何一個看過我們過去關於Skills的文章，或者玩過Skills的朋友，都絕對不可能對這個Skill-creator陌生。

簡單總結就是，這是Anthropic官方出的Skills生成器。

你可以用嘴描述出你的需求，然後直接用Skill-creator，幫你做成一個Skill。

如果有不瞭解的，可以去看一下我們過去的這一篇文章：一文帶你看懂，火爆全網的Skills到底是個啥。自認為寫的還是比較詳細的。

這周終於有時間，詳細翻了一下這次更新的Skill-creator的文檔，然後發現，這次真的可以說，是史詩級更新也不為過，強了太多太多了。

所以我覺得，值得寫一篇文章，來給大家聊聊，這次Skill-creator更新的新特性和新功能。

真的，所有的skills，都值得重新優化一遍。

非常簡單的說，這次他們一口加了4個全新的能力，分別是：

1. 評估系統，跑完直接告訴你這個skill到底行不行。

2. 基準測試，把通過率、耗時、token用量，全都量化。

3. 多代理並行測試，每個測試在乾淨的環境裏獨立跑，支持A/B盲評，結果不互相污染。

4. 描述調優，可以自動幫你改skill描述，該觸發的觸發，不該觸發的就別亂觸發。

之前的Skill-creator其實一直有個痛點，就是你生成完的Skills，其實是個黑盒，你完全不知道，這個Skills到底好不好用，它的質量怎麼樣，它的觸發機制合不合理。

用我們現代經常提的工業化體系來說，就是缺少了一個很重要的東西，評估機制。

評估太重要了，一個好的評估，是真的可以引領方向的。

而現在，新版的Skill-creator，直接把整個評估體系，全都補上了。

我極力推薦大家，一定要更新到最新版。

更新方式也究極無敵簡單，你直接把這段話，發給你的Agent就行，無論是Claude code、OpenClaw、OpenCode等等等等：

https://github.com/anthropics/skills/tree/main/skills/skill-creator，這個skills更新了，幫我更新到最新版本

對，就這麼一句話。

然後你的Agent，就會自己去更新了。

很快，就更新完了。

我用一個案例，來給大家演示一下新版Skill-creator的能力。

在之前有一篇文章中，我把Github上的yt-dlp做成了一個Skill，能從YouTube、B站等各種視頻網站下載視頻。

但其實我們後來發現，光能下載視頻還不夠。

我還希望拿到視頻連結之後，能直接生成文字版的講稿。

而且如果是英文或其他語言的視頻，最好能直接給我中英雙語的講稿文檔。

所以正好，藉着這個機會，我就用skill-creator又搓了一個新skill。

提示詞很簡單。

我想創建一個skill，我希望能夠實現我給了一個視頻連結，它能夠把文字版的講稿發給我，如果是別的語言，最好是把原語言版和中文版的講稿文檔給我。

它會先問你幾個問題，確認需求細節，然後開始幫你設計整個skill。

大概3到5分鐘，這個Skill就設計完了。

我拿一個OpenClaw創始人的YouTube訪談視頻來試一下。

就給了一個YouTube的連結。

五分鐘後，中文版的講稿就出來了。

但是，其實有個問題。。。

這一大坨文字堆在一起，字又小又擠。

根本沒法看。

這時候你就可以繼續對話，讓它給你優化，幫你改進這個skill。

新版的Skill-creator，在改進的能力上，也有一些提升。

改進之後的效果：

幾乎完美。

排版清晰，段落分明，這才像個文檔該有的樣子。

但這還沒完。

但這個時候，一個頭疼的問題就來了，我害怕我的skills觸發會打架。

因為我現在有兩個skill都跟視頻連結相關。

一個是yt-dlp，負責下載視頻到本地。

一個是剛做的講稿生成，負責把視頻轉成文字。

兩個skill的觸發條件都是給一個視頻連結，我害怕他們會打架，就是出現該觸發的不觸發，不該觸發的亂觸發。

那就可以使用Skill-creator的評估體系了，讓它來幫你，進行優化skill描述。

它受會先讀取你當前skill的描述，然後告訴你接下來要做四件事：

自動生成兩組查詢，應觸發的10條和不應觸發的10條。

設計得很有意思。

故意把邊界情況都擺進去，逼模型在模糊地帶做判斷。

然後，直接生成了一個網頁，讓你確認，特別牛逼。

真的，我用到的時候都驚呆了。

所有查詢排在界面裏，每一條右邊有個開關，標着是否應該觸發。

你可以逐條看一遍，覺得哪條判斷不對，直接關就行。

打個比方，第三條這種情況，我不想讓它再觸發了，我就直接讓它關掉就行。

然後還有不應該觸發的10條，我看了一遍，沒啥問題。

所有的都確認之後，這時候，你點導出評估集，就完事啦。

確認完樣本之後，優化循環會在後台啓動，最多跑5輪迭代。

每一輪做三件事來幫你進行測試和評估，整個過程大約需要10-20分鐘。

它害會定期彙報進度。

跑完之後就是你就能看到一個巨型表格。

每一列是一個查詢樣本，每一行是一個迭代版本的描述。

綠色勾對勾表示觸發成功，紅色叉×表示沒觸發。

藍色列是測試集，其餘是訓練集。

它把樣本分成60%訓練集和40%測試集，在訓練集上迭代優化，最終用測試集上的表現來選，防止過擬合。

跑完之後，最優的描述會自動寫回你的SKILL.md，全程不用你動手。

Anthropic官方在自己6個文檔類skill上測了一下，5個觸發率都有提升。

僅僅就用新版的skill-creator優化了一下，真的很牛逼。

通過這一步，能大大提升你的Skills的觸發準確率。

但觸發對了，並不等於OK。

所以，你的Skill裝上並且能穩定觸發之後，到底在實際任務上表現如何，這個能力，也還要評估一下。

我就繼續拿這個剛做好的skill來跑一遍，帶你大家看看整個過程。

直接對剛剛那個skill進行一下評估。

它會先把你的skill文件完整讀一遍，搞清楚這個skill的核心流程是什麼。

然後它會問你：你更想測哪個方面？

我選了全面評估。

它根據skill的功能，自動設計了三類測試場景，同時設計了量化驗收標準。

確認方案之後，它一次性啓動了4個獨立子代理，同時跑。

這次4個並行的Agent來進行測試，就很香了。

以前其實你也可以做一些簡單的評估，但是，最大的問題，就是會按順序跑，一個跑完再跑下一個。

但是大家都知道，上下文管理有多重要，前一個任務積累的上下文，會污染後一個的結果。

你以為是skill的功勞，但，其實完全是對話歷史幫了忙。

這次的評估，就對味了很多。

每個代理都在完全乾淨的環境裏獨立運行，有自己的token 計數和時間指標。

互相之間零交叉。

結果更快，數據更乾淨。

等待的時候，它也順手就把量化評分腳本也準備好了。

等測試結果回來之後，就直接自動檢查格式是否符合要求，很多小細節全都在裏面。

測試跑完，瀏覽器會里彈出評估查看頁面，有兩個標籤頁。

輸出標籤頁，可以直接看每個測試用例的輸出。

下面還有一個反饋框，你可以直接標註哪裏不對、哪裏需要改進。

這些反饋會被存起來，下次改進skill的時候直接用。

另一個是基準測試標籤頁，可以看有skill vs 無skill。

通過量化對比，一目瞭然。

數據這塊，也是極度量化。

有skill的通過率100%，無skill基線9%，差值91.5%。

費用上，有skill每次大約4000token，無skill1750token，差了2250。

但這是skill帶來的額外消耗，對比產出的結果，值得。

但評估的價值遠不止於此。

Anthropic官方也舉了個例子。

他們有個PDF skill，之前在處理表格時會出錯。

Claude需要把文字精確的放在特定座標上，但因為沒有明確的字段做引導，經常放歪。

這個問題在評估過程中被發現，再進行修復改進定位邏輯後，問題就解決了。

也就是說，找到問題之後不用從頭來過。

評估結果會存在本地，下次你用skill-creator改進這個skill的時候，它會把上次標註的問題直接帶進去，針對那裏改。

改完再跑一遍評估，看有沒有提升。

測試、發現、修、再測，這個循環是完整的。

Anthropic把軟件開發的一些嚴謹做法，比如測試、基準、迭代改進等等，這次引入Skills的創作流程。

真的，牛逼太多了。

這絕對對於所有人來說，都是一個史詩級增強。

你要知道，小龍蝦為什麼那麼強，能做那麼多的事，其實真不是因為他本身有多牛逼，純粹是因為，它身上掛的SKills，太多了，那都是一個一個的技能包。

可以說，Skills，就是整個Agent未來大繁榮生態的基石，而我自己，也一直極力的看好和強力推廣各種各樣的Skills。

所以，我極度建議，大家把Skill-creator更新到最新版，然後把你自己所有的Skills，都進行優化和評估一遍。

當然，你得先分清楚，你寫的Skills是哪種。

因為本質上，Skills其實分兩種。

第一種是能力提升型。

就是教Claude做它本來不擅長的事。

比如官方的前端設計skill、文檔創建skill，裏面寫了大量技巧，是你光靠Prompt根本拿不到的效果。

我們大多數人自己搓的skill，基本也都是這類。

第二種官方叫編碼偏好型。

就是告訴Claude按你的規矩來。

Claude本身每一步都能做，但你的skill把這些步驟按你團隊的流程串起來了。

比如一個會議紀要整理skill，按你們公司固定的格式，自動把錄音轉成帶行動項的文檔。

或者一個週報生成skill，從各個平台里拉數據，按你要的格式排好。

你可以把這種，理解成一個Workflow，就是一個工作流。

對這兩種類型，評估的方向會稍微不太一樣。

對於能力提升型，測的是模型更新之後這個skill還有沒有存在的必要。

用A/B測試對比，有skill和沒skill各跑一次。

結果如果差不多，這個skill就可以退休了。

編碼偏好型測的是另一件事，它有沒有老老實實按你的流程走？

有沒有漏步驟？有沒有自作主張改了順序？有沒有忘了你特別說過的某個要求？

所以會稍稍有一些區別，這個大家在自己評估的時候，可以注意一下。

回頭想想，以前造完一個skill，其實也就是自我感覺良好。

但說實話，全是黑盒，根本不知道該怎麼評估。

現在就舒服多了。

評估跑一遍，數據擺出來，好不好用，一眼就見真章。

所有的Skills，真的都值得重新優化和評估一遍。

Skills生態。

感覺又要迎來一波大繁榮了。

以上，既然看到這裏了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標⭐～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克、可達

>/ 投稿或爆料，請聯繫郵箱：wzglyay@virxact.com