Skill-creator悄悄迎來史詩級更新，所有Skills都值得重寫一遍。

作者：可可耐特

日期：2026年5月13日下午6:25

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Anthropic 為 Skill-Creator 加入評估系統，所有 Skills 都值得重寫一次

整理版摘要

呢篇文章係由作者「可可耐特」嘅自身經驗出發。作者一直有玩 Claude 嘅 Skills 生態，之前寫過一篇好詳細嘅 Skills 教學。今次佢發現 Anthropic 嘅官方程式倉庫入面，嗰個核心嘅母 Skill——Skill-creator，靜雞雞迎來咗一次史詩級更新。作者認為，呢次更新解決咗一直以嚟整 Skills 嘅最大痛點：做完一個 Skill 之後，完全係黑盒，根本唔知佢好唔好用、觸發準唔準、跨場景穩唔穩定。而家 Anthropic 直接將醫藥行業嘅雙盲對照試驗嗰套搬過嚟，加咗評估系統、基準測試、多代理並行測試同描述自動調優。

成篇文章嘅結論係：呢次更新標誌住 Skills 從手工作坊跳到工業化階段，所有整過 Skills 嘅人都應該第一時間更新 Skill-creator，然後將自己啲 Skill 逐個跑一次評估流程，等問題自己浮出水面。作者仲親身示範咗用新版搓一個講稿生成 Skill，同埋展示咗描述調優點樣解決「兩個 Skill 撞車」嘅問題。

總括嚟講，呢篇文章唔單止係一個產品更新消息，仲係一個實戰指南，教你點樣用好呢套新工具去提升 Skills 嘅質素同可信度。

Skill-creator 新增評估系統、基準測試、多代理並行測試同描述自動調優，等 Skills 創作從黑盒變透明
評估系統採用醫藥行業雙盲對照設計：有 Skill vs 無 Skill，乾淨環境隔離，量化打分
描述調優功能會自動生成「應該觸發」同「唔應該觸發」各 10 條查詢，用戶確認後進行最多 5 輪迭代，將觸發率大幅提升
多代理並行測試解決咗之前串行測試嘅上下文污染問題，結果更乾淨、更可信
Skills 分為「能力提升型」同「流程封裝型」，兩者評估方向唔同：前者測有無存在必要，後者測有無跟足流程

值得記低

連結 github.com

Skill-creator GitHub 倉庫

今次更新嘅官方 Skill-creator 倉庫，包含最新版本嘅程式碼同文檔。

整理重點

呢次更新有咩咁把炮？

以前做完一個 Skill，你完全係矇查查：觸發係咪啱？描述寫得掂唔掂？換個情境仲會唔會鬱？全部都係黑盒。Anthropic 今次一次過加咗 4 個能力，直接將呢層黑盒撕開。

1 一套評估系統：跑完你即刻知道個 Skill 到底得唔得
2 基準測試體系：通過率、耗時、消耗 token，全部量化曬
3 多代理並行測試：每個測試放喺獨立小房間，A/B 盲評，唔會互相污染
4 描述自動調優：自動幫你改寫 Skill 描述，該觸發嘅唔漏，唔該觸發嘅唔亂來

整理重點

用新版即刻搓一個講稿 Skill

作者用新版 Skill-creator 搓咗一個新 Skill：畀個視頻連結，就出文字版講稿，外語視頻仲要原文加雙語對照。提示詞好簡單，但新版本唔會即刻開幹，反而反問幾個問題確認需求。

3 到 5 分鐘，成個 Skill 就搭好

作者用 Peter 嘅 YouTube 訪談實測，出到中文版講稿，但排版麻麻。佢冇手動改 code，直接對住 Skill 對話叫佢再改一版，新版本喺迭代改寫方面都有提升。

改完之後排版清晰，段落分明，標題層級齊曬

整理重點

描述調優——解決兩個 Skill 撞車嘅最大武器

作者手頭有兩個 Skill 都同視頻連結有關：一個係 yt-dlp 用嚟下載，一個係新做嘅講稿生成。兩個都係「畀個視頻連結」去觸發，咁點知你想做邊樣？以前要自己肉眼盯住改描述，而家新版 Skill-creator 直接接管。

1 佢會自動生成兩組查詢：一組係「應該觸發嘅 10 條」，一組係「唔應該觸發嘅 10 條」，專挑灰色地帶邊界情況
2 彈一個網頁畀你逐條確認，每條右邊有個開關，覺得唔啱就直接 flip
3 確認完之後，後台自動行最多 5 輪優化循環，每輪做 3 件事，約 10-20 分鐘
4 跑完出一個巨表，顯示每個迭代版本喺訓練集同測試集上嘅觸發結果，最優描述會自動寫返入 SKILL.md

整理重點

真正幹活——全面評估個講稿 Skill

觸發搞掂之後，就要測真實效果。作者對個講稿 Skill 開全面評估，新版會先啃曬成個 Skill 文件，然後畀選項你揀想測邊方面。佢揀咗全面評估，系統自動設計三類測試場景，每個都有量化驗收標準。

一口氣並行啟動 4 個獨立子代理同時跑

以前串行測試會有上下文污染問題，前一個任務積累嘅嘢會影響後一個結果。而家每個代理喺完全乾淨嘅環境跑，token 計數、耗時獨立計算，互相零交叉。

整理重點

評估嘅真正價值：閉住眼都可以修 Bug

Anthropic 舉咗一個例子：佢哋有個 PDF Skill，處理表格時成日出錯，Claude 要將文字塞到指定座標，但因為冇明確字段引導，經常放歪。呢種 bug 靠肉眼好難測到。跑一次評估之後問題就被定位，改咗定位邏輯就搞掂。

評估結果會存在本地，下次改 Skill 時直接帶入上次標註過嘅問題

呢個係測試 → 發現 → 改 → 再測嘅完整循環，同軟件工程嘅單元測試一模一樣。

能力提升型：教 Claude 做佢本來唔叻嘅事，例如前端設計、文檔創建；評估測有無存在必要
流程封裝型：將你團隊嘅流程串起嚟，例如會議紀要、週報；評估測有冇跟足你嘅步驟

模型每升一代，都會有一堆能力提升型 Skill 自然被淘汰，呢個係健康嘅

前兩日直播完之後，我順手睇咗一眼Anthropic嘅Skills倉庫。

結果喺最新Commit裏面，見到一個令我即刻坐直咗嘅更新。

Skill-creator。

嗰個俾我反覆講過無數次嘅母Skill，靜靜雞迎嚟咗一波超大更新。

你要知道，小龍蝦而家可以咁犀利，本質上一半功勞要歸落Skills度。

而所有呢啲Skills可以造出嚟，又幾乎都要多謝呢個Skill-creator。

佢就係成個Skills生態嘅引擎。

之前未接觸過Skills嘅朋友，可以先睇一眼這篇，應該係全網講Skills講得最詳細嗰篇之一。

返番正題。

呢個星期夜晚抽咗啲時間，將今次更新嘅文檔由頭到尾睇曬。

睇完之後我得一個判斷——今次更新，等於俾成個Skills生態加咗一層底座。

之前所有自己整Skill嘅人，其實都畀同一個問題困住咗——

你做完一個Skill，根本唔知佢好唔好用。係觸發啱咗，定係佢自己亂估？寫嘅描述合唔合理？換個上下文仲行唔行得通？

全部都係黑盒。

而而家，呢層黑盒畀Anthropic一手撕開咗。

我極力推薦，大家先將Skill-creator更新到最新版本。

更新方法簡單到離譜，同你嘅Agent講一句就得，無論係Claude Code、小龍蝦定OpenCode，都一樣：

https://github.com/anthropics/skills/tree/main/skills/skill-creator，呢個skills更新咗，幫我更新到最新版本

係，就咁一句。

Agent自己會去拉。

幾分鐘之內，更新就搞掂咗。

今次新版本一口氣加咗4個功能：

一套評估系統：行完之後你可以直接知道，呢個Skill到底掂唔掂
基準測試體系：通過率、耗時、消耗嘅token，全部量化曬畀你
多代理並行測試：每個測試塞入一個乾淨獨立嘅小房間行，A/B盲評，互相唔污染
描述自動調優：自動幫你改寫Skill描述，該觸發嘅唔好漏，唔應該觸發嘅唔好亂嚟

我見到呢份清單嘅第一反應係——

呢個唔就係將醫藥行業嘅雙盲隨機對照試驗嗰套，原封不動搬咗過Skills度咩？

醫藥行業有個鐵律：一隻藥到底有冇效，淨係睇研發自己口講「有效」，冇人理你。

你要設實驗組、設對照組，將研究人員同受試者都蒙在鼓裏，行完之後睇量化指標，差距大唔大先算數。

人類用咗一百幾年先將呢套嘢打磨乾淨。

而Anthropic今次相當於將同一套，原封不動搬咗畀Skills——有Skill vs 冇Skill，乾淨環境隔離，並行行，量化打分。

工業化嘅本質就係評估。

一旦評估體系立咗起身，成個嘢就由手工作坊跳咗去流水線。

理論講到呢度先。

直接上案例。

1. 順手用新版Skill-creator，再整一個Skill

我之前寫過一篇文章，將GitHub上面嘅yt-dlp封裝成一個Skill，可以從YouTube、B站、小紅書等各種視頻網站下載視頻。

但用咗一排之後，我自己發現，淨係將視頻下載落嚟係唔夠嘅。

我好多場景其實係咁——碌到一個外國嘅長訪問，我冇耐性一邊睇一邊記，我想要嘅係文字版講稿，最好原文加中文雙語對照排好直接send俾我。

啱啱好趁今次更新，我用新版Skill-creator又整咗一個新Skill。

提示詞極簡單：

我想做個skill，畀一個視頻連結，可以直接出文字版講稿，如果係外語視頻，就俾我原文加中文雙語版。

佢冇急住開工。

反而反問咗我幾個問題，確認需求細節，然後先開始設計成個Skill。

3到5分鐘，成個Skill就整好咗。

我攞小龍蝦老竇Peter嘅一個YouTube訪問嚟試。

直接將連結掟入去。

5分鐘之後，中文版講稿出咗嚟。

但是。

一大段文字黐埋一齊。

字細，行密，睇到頭痛。

當時我冇特登去手動改佢嘅code，直接對住個Skill繼續對話，叫佢再改一版。

新版Skill-creator喺迭代改寫呢方面，都有啲提升。

改完之後再行一次：

排版清晰，段落分明，標題層次齊曬。

咁先似份可以畀人睇嘅文件。

到呢一步，Skill本身算係整咗出嚟。

但真正嘅麻煩，先啱啱開始。

2. 描述調優——解決衝突最勁嘅工具

我而家手上有兩個Skill都同視頻連結有關。

一個係之前嘅yt-dlp，做嘅係將視頻下載到本地。

一個係啱啱整完嘅講稿生成，做嘅係將視頻轉成文字。

佢哋嘅觸發條件都係——「畀一個視頻連結」。

咁問題就嚟喇。

我掟一個YouTube連結過去，佢點知我到底想下載視頻定係想要講稿？

萬一撞咗點算？該觸發嘅唔觸發，唔該觸發嘅亂觸發，咁呢兩個Skill就廢咗。

以前呢啲嘢我只能靠自己肉眼睇，每次行歪咗就返去手動改描述，純粹係體力活。

而新版Skill-creator，直接將呢個流程接管咗。

叫佢優化Skill描述，佢會先將目前嘅描述讀一次，然後話畀你聽要跟住做嘅4件事：

最得意係第一步：佢會自動生成兩組查詢。

一組叫「應該觸發嘅10條」，一組叫「唔應該觸發嘅10條」。

呢個設計我仔細咁諗過。

佢特登將模糊地帶嘅邊界情況都擺埋入去——唔係啲一眼就知要觸發嘅簡單句，而係嗰啲「嗯？呢個到底算唔算？」嘅灰色地帶。

逼個模型喺最難嘅地方做判斷。

同搞算法面試題一樣意思——簡單題篩唔出強弱，要hard題先得。

生成完之後，佢直接彈一個網頁叫你確認。

我第一次見到嘅時候，真係有啲驚訝。

20條查詢整整齊齊排喺網頁度，每條右邊有個開關，標住「係咪應該觸發」。

你逐條睇一次，發現邊條判斷唔啱，直接將個開關撥一下。

打個比方，第三條呢種情況，我唔想再叫佢觸發，我就直接熄咗佢。

唔應該觸發嘅10條我都睇咗一次，整體冇問題。

全部確認完，撳「導出評估集」，搞掂。

接落嚟先係好戲。

後台啟動優化循環，最多行5輪迭代，每輪做三件事，成個過程大約10到20分鐘。

佢會定期匯報進度。

行完之後，會出一個好大嘅表格：

每一列係一個查詢樣本，每一行係一個迭代版本嘅描述。

綠色剔號代表觸發啱咗，紅色交叉代表冇觸發或者錯觸發。

藍色嗰列係測試集，其餘係訓練集。

佢將20個樣本拆成60%訓練加40%測試，喺訓練集上反覆調描述，最後用測試集驗證收斂效果。

呢個係機器學習入面防止過擬合嘅標準做法。

行完之後，最優描述會自動寫返入SKILL.md，成個過程你唔使鬱一隻手指。

Anthropic自己喺6個文檔類Skill上做咗對照——5個嘅觸發率都畀呢套流程推高咗。

淨係描述改一改咋。

呢步做完，你嘅Skill觸發準確率可以上一個台階。

3. 觸發啱咗，只係入場券

真正做起嘢嚟效果點，仲要另外測。

跟住對啱啱做嘅講稿生成Skill開一次評估。

佢會先將成個Skill文件睇一次，搞清呢件嘢嘅核心流程係咩。

然後彈一個選項畀你：你想測邊個方面？

我揀咗「全面評估」。

佢根據Skill功能，自動設計咗三類測試場景，每個場景都配咗量化驗收標準。

確認方案之後，佢一口氣並行啟動咗4個獨立子代理同時行。

呢一步——我一定要單獨拎出嚟讚。

以前你都大概可以自己手動做啲簡單評估，但有個致命問題：所有測試只能串行行。

一個行完先行下一個。

大家都明上下文管理有幾重要。前一個任務積累嘅上下文，會污染後一個嘅結果。

你見到Skill「通過」咗，可能根本唔係Skill嘅功勞，而係上一輪對話歷史幫佢搭好咗條路。

但你睇唔出。

因為黑盒裏面冇光。

新版本直接換成4個並行Agent。

每個Agent喺完全乾淨嘅環境裏面行，自己嘅token計數、自己嘅耗時，互相之間零交叉。

更快，更乾淨，更可信。

等緊行嘅過程度，佢順手將量化評分腳本都準備好。

測試行完，瀏覽器自動彈出評估頁面，兩個標籤。

輸出標籤頁——每個測試用例嘅完整輸出。

下面掛一個反饋框，邊度唔啱、邊度要改，你直接標。

呢啲標註會被存起嚟，下次改Skill嘅時候，直接當輸入用。

基準測試標籤頁——有Skill vs 冇Skill嘅量化對比。

數據呢方面極度量化。

有Skill嘅通過率100%，冇Skill嘅基線9%，相差91.5%。

費用方面：有Skill每次大概4000 token，冇Skill 1750 token，多用咗2250。

呢個係Skill帶嚟嘅額外開支。

但對比產出，係值得嘅。

4. 評估嘅真正價值，係合埋眼都可以修Bug

評估嘅意義，遠遠唔止「打個分」咁簡單。

Anthropic自己舉咗個例子。

佢哋有一個PDF Skill，處理表格嘅時候經常有錯。Claude要將文字塞到指定座標，但因為缺少明確嘅字段引導，成日放歪。

呢種bug，靠肉眼測一世都可能測唔出。

行咗一次評估之後，問題被定位咗。

改咗定位邏輯，bug就搞掂咗。

而且——發現問題之後唔使由頭嚟過。

評估結果會存喺本地，下次你用Skill-creator改呢個Skill嘅時候，佢直接將上次標註過嘅問題帶入去，針對性咁改。

改完再行一次評估，睇分數有冇提升。

測試 → 發現 → 改 → 再測。

呢一成套循環，係完整嘅。

Anthropic相當於將軟件工程入面嗰套最嚴謹嘅做法——單元測試、基準測試、迭代改進、迴歸驗證——一次過搬咗去Skills嘅創作流程度。

軟件工程用咗幾十年先將呢套嘢打磨成而家嘅樣。

Skills生態計埋計埋先出咗幾個月。

直接跳級。

5. 順便講下：你嘅Skill係邊種？

如果你打算將自己手上所有Skills都重新優化行一次，首先要分清楚一件事——

你寫嘅呢個Skill，到底係邊種？

本質上，Skills得兩種。

第一種：能力提升型。

教Claude做佢本來唔擅長嘅事。

例如官方嘅前端設計Skill、文檔創建Skill，裏面塞咗大量小技巧——你淨係靠Prompt根本調唔出呢種效果。

我哋大多數人自己整嘅Skill，基本都係呢類。

第二種，官方叫「編碼偏好型」，我習慣叫佢做「流程封裝型」。

意思係話畀Claude跟你嘅規矩行。

Claude本身每一步都識做，但你將呢啲步驟跟你團隊或者你個人嘅流程串埋一齊。

例如一個會議記錄Skill，按你公司嘅固定格式，將錄音轉成帶行動項嘅文件。

例如一個週報Skill，從各個平台拉數據，跟你嘅固定模板排好。

呢種Skill嘅本質，就係一個工作流（Workflow）。

點解要分呢兩種？

因為評估方向唔一樣。

能力提升型係測——呢個Skill仲有冇存在嘅必要。

用A/B對比，有Skill行一次，冇Skill行一次。

如果差唔多，呢個Skill就應該退休。

模型每升一代，都會有一堆能力提升型嘅Skill被自然淘汰。

呢樣係健康嘅。

流程封裝型係測另一件事——佢有冇乖乖哋跟你嘅流程行？

有冇漏步驟？有冇自作主張換咗順序？有冇忘記你特別交代過嗰個細節？

分別都幾大。

下次自己測嘅時候，注意分清楚。

寫喺最後

寫到呢度，我自己都想嘆一口氣。

以前整完一個Skill，純粹靠「覺得自己幾好」。

行兩個case睇落OK，就覺得搞掂咗。

但講真，全部係黑盒。

到底好唔好用，質素點樣，觸發率幾多，跨場景穩唔穩定，我根本唔知。

而家唔同曬。

評估行一次，數據擺出嚟，好唔好用，一眼就知。

呢個係Skills由「手作坊」走向「工業化」嘅第一步。

寫Code嘅同行應該最明——

單元測試出嚟之前，軟件行業靠嘅係「我覺得應該冇問題」。

單元測試出嚟之後，行業先真係可以行到大規模工程。

今日，Skill-creator補返咗Skills嘅「單元測試」。

我極度推薦，所有玩Skills嘅朋友，第一時間將Skill-creator更新到最新版本。

然後將自己之前整過嘅所有Skill，逐個行一次呢套評估流程。

嗰啲你之前懷疑過、感覺唔對路但又講唔出邊度唔對路嘅Skill，問題會自己浮出水面。

要知道，小龍蝦點解咁犀利，並唔係佢本身有幾勁，純粹係因為——

佢身上掛住嘅Skills實在係太多喇。

每一個都係獨立嘅技能包。

Skills，就係成個Agent未來生態大繁榮嘅基石。

而Anthropic今次，將呢塊基石澆成咗鋼筋混凝土。

Skills生態。

可能又會迎嚟一波大繁榮。

而最先享受到呢波紅利嘅人。

永遠係嗰啲第一時間行動嘅人。

以上，既然睇到呢度，如果覺得唔錯，順手畀個讚、睇嚇、轉發三連啦，如果想第一時間收到推送，都可以畀我一個星標⭐～多謝你睇我嘅文章，我哋，下次再見。

/ 作者：可可耐特

/ 投稿或爆料，請聯繫郵箱：aoshindragon@163.com

前兩天直播完，我順手翻了一眼Anthropic的Skills倉庫。

結果在最新Commit裏，看到一個讓我直接坐直了的更新。

Skill-creator。

那個被我反覆講過無數遍的母Skill，悄咪咪迎來了一波超大更新。

你要知道，小龍蝦現在能這麼能打，本質上一半的功勞得算到Skills頭上。

而所有這些Skills能被造出來，又幾乎都要謝這個Skill-creator。

它就是整個Skills生態的發動機。

之前沒接觸過Skills的朋友，可以先翻一眼這篇，應該是全網講Skills講得最掰碎的一篇之一了。

回到正題。

這周晚上抽了點時間，把這次更新的文檔從頭到尾啃了一遍。

啃完之後我的判斷只有一個——這次更新，等於給整個Skills生態加了一層底座。

之前所有手搓Skill的人，其實都被困在同一個問題裏——

你做完一個Skill，根本不知道它好不好用。是觸發對了，還是它自己瞎蒙的？寫的描述合不合理？換個上下文還能不能跑？

全是黑盒。

而現在，這層黑盒被Anthropic一把撕了。

我極力推薦，大家先把Skill-creator更到最新版。

更新的方式簡單到離譜，發一句話給你的Agent就行，不管是Claude Code、小龍蝦、還是OpenCode，都一樣：

https://github.com/anthropics/skills/tree/main/skills/skill-creator，這個skills更新了，幫我更新到最新版本

對，就這麼一句話。

Agent自己會去拉。

幾分鐘之內，更新就跑完了。

這次新版本一口氣加了4個能力：

一套評估系統：跑完之後你能直接知道，這個Skill到底能不能打
基準測試體系：通過率、耗時、消耗的token，全給你量化出來
多代理並行測試：每個測試塞進一個乾淨獨立的小房間裏跑，A/B盲評，互相不污染
描述自動調優：自動幫你改寫Skill描述，該觸發的別漏，不該觸發的別亂來

我看到這份清單的第一反應是——

這不就是把醫藥行業的雙盲隨機對照試驗那套，原封不動搬到Skills上了嗎？

醫藥行業有個鐵律：一個藥到底有沒有效，光看研發自己嘴上說"有效"，沒人理你。

你得設實驗組、設對照組，把研究者和受試者都蒙起來，跑完之後看量化指標，差距大不大才作數。

人類花了一百多年才把這一套打磨乾淨。

而Anthropic這次相當於把同一套，原封不動搬給了Skills——有Skill vs 沒Skill，乾淨環境隔離，並行跑，量化打分。

工業化的本質就是評估。

一旦評估體系立起來，整個東西就從手工作坊跳到流水線了。

理論先到這。

直接上案例。

1. 順手用新版Skill-creator，再搓一個Skill

我之前寫過一篇文章，把GitHub上的yt-dlp封成了一個Skill，能從YouTube、B站、小紅書各種視頻網站扒視頻。

但用了一陣子之後，我自己發現，光把視頻下下來不夠。

我挺多場景其實是這樣的——刷到一個國外的長訪談，我沒耐心一邊看一邊記，我想要的是文字版講稿，最好原文+中文雙語對照排好直接發我。

正好借這次更新，我用新版Skill-creator又搓了一個新Skill。

提示詞巨簡單：

我想做個skill，給一個視頻連結，能直接出文字版講稿，如果是外語視頻，給我原文+中文雙語版。

它沒急着開幹。

先反過來問了我幾個問題，確認需求細節，然後才開始設計整個Skill。

3到5分鐘，整個Skill就搭好了。

我拿小龍蝦他爸Peter的一個YouTube訪談來試。

直接把連結扔進去。

5分鐘之後，中文版講稿出來了。

但是。

一大坨文字糊在一起。

字小，行密，看着頭疼。

這時候我沒去手動改它的代碼，直接對着Skill接着對話，讓它再改一版。

新版Skill-creator在迭代改寫這件事上，也有一些提升。

改完之後再跑一遍：

排版清晰，段落分明，標題層級齊了。

這才像個能給人看的文檔。

到這一步，Skill本身算是搓出來了。

但真正的麻煩，才剛開始。

2. 描述調優——治打架最狠的那把刀

我現在手裏有兩個Skill都跟視頻連結掛鈎。

一個是之前的yt-dlp，乾的活是把視頻下到本地。

一個是剛做完的講稿生成，乾的活是把視頻轉文字。

它們的觸發條件都是——"給一個視頻連結"。

那問題就來了。

我丟一個YouTube連結過去，它怎麼知道我到底想下視頻還是想要講稿？

萬一打架了怎麼辦？該觸發的不觸發，不該觸發的亂觸發，那這倆Skill就廢了。

以前這種事我只能自己肉眼盯，每次跑歪了再回去手動改描述，純粹的體力活。

而新版Skill-creator，直接把這個流程接管了。

讓它優化Skill描述，它會先把當前的描述讀一遍，然後告訴你接下來要做的4件事：

最有意思的是第一步：它會自動生成兩組查詢。

一組叫"應該觸發的10條"，一組叫"不應該觸發的10條"。

這個設計我細品了一下。

它故意把模糊地帶的邊界情況都擺進去——不是那種一眼就該觸發的簡單句，而是那種"嗯？這個到底算不算？"的灰色地帶。

逼着模型在最難的地方做判斷。

跟搞算法面試題一個意思——簡單題篩不出強弱，hard題才行。

生成完之後，它直接彈一個網頁讓你確認。

我第一次看到的時候，是真有點驚。

20條查詢整整齊齊排在網頁裏，每條右邊一個開關，標着"是否應該觸發"。

你逐條掃一遍，發現哪條判斷不對勁，直接把開關翻一下。

打個比方，第三條這種情況，我不想讓它再觸發，我就直接關掉。

不應該觸發的10條我也掃了一眼，整體沒問題。

全部確認完，點"導出評估集"，結束。

接下來才是好戲。

後台啓動優化循環，最多跑5輪迭代，每輪幹三件事，整個過程大約10到20分鐘。

它會定期彙報進度。

跑完之後，會出一個巨大的表格：

每一列是一個查詢樣本，每一行是一個迭代版本的描述。

綠色對勾代表觸發對了，紅色叉代表沒觸發或者錯觸發。

藍色那列是測試集，其餘是訓練集。

它把20個樣本拆成60%訓練 + 40%測試，在訓練集上反覆調描述，最後用測試集驗證收斂效果。

這是機器學習裏防過擬合的標準做法。

跑完之後，最優描述會自動寫回SKILL.md，整個過程你不用動一根手指頭。

Anthropic自己在6個文檔類Skill上做了對照——5個的觸發率都被這套流程刷上去了。

僅僅是描述調一調而已。

這一步走完，你的Skill觸發準確率能上一個台階。

3. 觸發對了，只是入場券

真正幹起活來效果好不好，還得另測。

接着對剛做的講稿生成Skill開一次評估。

它會先把整個Skill文件啃一遍，搞清楚這玩意兒的核心流程是啥。

然後彈一個選項給你：你想測哪個方面？

我選了"全面評估"。

它根據Skill功能，自動設計了三類測試場景，每個場景都配了量化驗收標準。

確認方案之後，它一口氣並行啓動了4個獨立子代理同時跑。

這一步——我必須單獨拎出來誇。

以前你也能自己手工做點簡單評估，但有個致命問題：所有測試只能串行跑。

一個跑完再跑下一個。

大家都懂上下文管理多重要。前一個任務積累的上下文，會污染後一個的結果。

你看到Skill"通過"了，可能根本不是Skill的功勞，是上一輪對話歷史給搭好了梯子。

但你看不出來。

因為黑盒裏沒光。

新版本直接換成4個並行Agent。

每個Agent在完全乾淨的環境裏跑，自己的token計數、自己的耗時，互相之間零交叉。

更快，更乾淨，更可信。

等待跑的過程裏，它順手把量化評分腳本也準備好了。

測試跑完，瀏覽器自動彈出評估頁面，兩個標籤。

輸出標籤頁——每個測試用例的完整輸出。

下面掛一個反饋框，哪裏不對、哪裏要改，你直接標。

這些標註會被存起來，下次改Skill的時候，直接當輸入用。

基準測試標籤頁——有Skill vs 沒Skill的量化對比。

數據這塊極度量化。

有Skill的通過率100%，沒Skill的基線9%，差值91.5%。

費用上：有Skill每次大概4000 token，沒Skill 1750 token，多花了2250。

這是Skill帶來的額外開銷。

但對比產出，劃得着。

4. 評估的真正價值，是閉着眼也能修Bug

評估的意義，遠遠不止"打個分"這麼簡單。

Anthropic自己舉了個例子。

他們有一個PDF Skill，處理表格的時候老出錯。Claude要把文字塞到指定座標，但因為缺少明確的字段引導，經常放歪。

這種bug，靠肉眼測一輩子可能都測不出來。

跑了一遍評估之後，問題被定位了。

改了定位邏輯，bug就關了。

而且——發現問題之後不用從頭來過。

評估結果會存在本地，下次你拿Skill-creator改這個Skill的時候，它直接把上次標註過的問題帶進去，針對性地改。

改完再跑一遍評估，看分數有沒有提升。

測試 → 發現 → 改 → 再測。

這一整套循環，是完整的。

Anthropic相當於把軟件工程裏那一套最嚴謹的實踐——單元測試、基準測試、迭代改進、迴歸驗證——一股腦挪到了Skills的創作流程裏。

軟件工程花了幾十年才把這一套打磨成今天的樣子。

Skills生態滿打滿算才出來幾個月。

直接跳級。

5. 順便聊一下：你的Skill是哪種？

如果你打算把自己手裏所有Skills都重新優化跑一遍，得先分清楚一件事——

你寫的這個Skill，到底是哪種？

本質上，Skills只有兩種。

第一種：能力提升型。

教Claude做它本來不擅長的事。

比如官方的前端設計Skill、文檔創建Skill，裏頭塞了大量小技巧——你光靠Prompt根本調不出來這種效果。

我們大多數人自己搓的Skill，基本都是這一類。

第二種，官方叫"編碼偏好型"，我習慣叫它"流程封裝型"。

意思是告訴Claude按你的規矩走。

Claude本身每一步都能做，但你把這些步驟按你團隊/你個人的流程串了起來。

比如一個會議紀要Skill，按你們公司固定格式，把錄音轉成帶行動項的文檔。

比如一個週報Skill，從各個平台拉數據，按你的固定模板排好。

這種Skill的本質，就是一個工作流（Workflow）。

為啥要分這兩種？

因為評估方向不一樣。

能力提升型測的是——這個Skill還有沒有存在的必要。

用A/B對比，有Skill跑一次，沒Skill跑一次。

如果差不多，這個Skill就該退休了。

模型每升一代，都會有一堆能力提升型的Skill被自然淘汰。

這是健康的。

流程封裝型測的是另一件事——它有沒有老老實實按你的流程走？

有沒有漏步驟？有沒有自作主張換了順序？有沒有忘了你特別交代過的那個細節？

差別挺大。

下次自己測的時候，注意分一下。

寫在最後

寫到這兒，我自己也想嘆一口氣。

以前造完一個Skill，純粹靠"自我感覺良好"。

跑兩個case看着還行，就覺得完事了。

但說實話，全是黑盒。

到底好不好用，質量怎麼樣，觸發率多少，跨場景穩不穩定，我根本不知道。

現在不一樣了。

評估跑一遍，數據擺出來，好不好用，一眼見真章。

這是Skills從"手作坊"走向"工業化"的第一步。

寫代碼的同行應該最有感觸——

單元測試出來之前，軟件行業靠的是"我覺得應該沒問題"。

單元測試出來之後，行業才真正能跑大規模工程。

今天，Skill-creator補上了Skills的"單元測試"。

我極度推薦，所有玩Skills的朋友，第一時間把Skill-creator更新到最新版。

然後把自己之前搓過的所有Skill，挨個跑一遍這套評估流程。

那些你之前懷疑過的、感覺不對勁但又說不出哪裏不對勁的Skill，問題會自己浮出水面。

要知道，小龍蝦為什麼這麼能打，並不是它本身有多牛逼，純粹是因為——

它身上掛的Skills實在是太多了。

每一個都是一個獨立技能包。

Skills，就是整個Agent未來生態大繁榮的基石。

而Anthropic這次，把這塊基石澆成了鋼筋混凝土。

Skills生態。

可能又要迎來一波大繁榮了。

而最先享受到這波紅利的人。

永遠是那些第一時間動手的人。

以上，既然看到這裏了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標⭐～謝謝你看我的文章，我們，下次再見。

/ 作者：可可耐特

/ 投稿或爆料，請聯繫郵箱：aoshindragon@163.com