Skill-creator悄悄迎來史詩級更新,所有Skills都值得重寫一遍。

作者:可可耐特
日期:2026年5月13日 下午6:25
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AnthropicSkill-Creator 加入評估系統,所有 Skills 都值得重寫一次

整理版摘要

呢篇文章係由作者「可可耐特」嘅自身經驗出發。作者一直有玩 Claude 嘅 Skills 生態,之前寫過一篇好詳細嘅 Skills 教學。今次佢發現 Anthropic 嘅官方程式倉庫入面,嗰個核心嘅母 Skill——Skill-creator,靜雞雞迎來咗一次史詩級更新。作者認為,呢次更新解決咗一直以嚟整 Skills 嘅最大痛點:做完一個 Skill 之後,完全係黑盒,根本唔知佢好唔好用、觸發準唔準、跨場景穩唔穩定。而家 Anthropic 直接將醫藥行業嘅雙盲對照試驗嗰套搬過嚟,加咗評估系統、基準測試、多代理並行測試同描述自動調優。

成篇文章嘅結論係:呢次更新標誌住 Skills 從手工作坊跳到工業化階段,所有整過 Skills 嘅人都應該第一時間更新 Skill-creator,然後將自己啲 Skill 逐個跑一次評估流程,等問題自己浮出水面。作者仲親身示範咗用新版搓一個講稿生成 Skill,同埋展示咗描述調優點樣解決「兩個 Skill 撞車」嘅問題。

總括嚟講,呢篇文章唔單止係一個產品更新消息,仲係一個實戰指南,教你點樣用好呢套新工具去提升 Skills 嘅質素同可信度。

  • Skill-creator 新增評估系統、基準測試、多代理並行測試同描述自動調優,等 Skills 創作從黑盒變透明
  • 評估系統採用醫藥行業雙盲對照設計:有 Skill vs 無 Skill,乾淨環境隔離,量化打分
  • 描述調優功能會自動生成「應該觸發」同「唔應該觸發」各 10 條查詢,用戶確認後進行最多 5 輪迭代,將觸發率大幅提升
  • 多代理並行測試解決咗之前串行測試嘅上下文污染問題,結果更乾淨、更可信
  • Skills 分為「能力提升型」同「流程封裝型」,兩者評估方向唔同:前者測有無存在必要,後者測有無跟足流程
值得記低
連結 github.com

Skill-creator GitHub 倉庫

今次更新嘅官方 Skill-creator 倉庫,包含最新版本嘅程式碼同文檔。

整理重點

呢次更新有咩咁把炮?

以前做完一個 Skill,你完全係矇查查:觸發係咪啱?描述寫得掂唔掂?換個情境仲會唔會鬱?全部都係黑盒。Anthropic 今次一次過加咗 4 個能力,直接將呢層黑盒撕開。

  1. 1 一套評估系統:跑完你即刻知道個 Skill 到底得唔得
  2. 2 基準測試體系:通過率、耗時、消耗 token,全部量化曬
  3. 3 多代理並行測試:每個測試放喺獨立小房間,A/B 盲評,唔會互相污染
  4. 4 描述自動調優:自動幫你改寫 Skill 描述,該觸發嘅唔漏,唔該觸發嘅唔亂來
整理重點

用新版即刻搓一個講稿 Skill

作者用新版 Skill-creator 搓咗一個新 Skill:畀個視頻連結,就出文字版講稿,外語視頻仲要原文加雙語對照。提示詞好簡單,但新版本唔會即刻開幹,反而反問幾個問題確認需求。

3 到 5 分鐘,成個 Skill 就搭好

作者用 PeterYouTube 訪談實測,出到中文版講稿,但排版麻麻。佢冇手動改 code,直接對住 Skill 對話叫佢再改一版,新版本喺迭代改寫方面都有提升。

改完之後排版清晰,段落分明,標題層級齊曬

整理重點

描述調優——解決兩個 Skill 撞車嘅最大武器

作者手頭有兩個 Skill 都同視頻連結有關:一個係 yt-dlp 用嚟下載,一個係新做嘅講稿生成。兩個都係「畀個視頻連結」去觸發,咁點知你想做邊樣?以前要自己肉眼盯住改描述,而家新版 Skill-creator 直接接管。

  1. 1 佢會自動生成兩組查詢:一組係「應該觸發嘅 10 條」,一組係「唔應該觸發嘅 10 條」,專挑灰色地帶邊界情況
  2. 2 彈一個網頁畀你逐條確認,每條右邊有個開關,覺得唔啱就直接 flip
  3. 3 確認完之後,後台自動行最多 5 輪優化循環,每輪做 3 件事,約 10-20 分鐘
  4. 4 跑完出一個巨表,顯示每個迭代版本喺訓練集同測試集上嘅觸發結果,最優描述會自動寫返入 SKILL.md
整理重點

真正幹活——全面評估個講稿 Skill

觸發搞掂之後,就要測真實效果。作者對個講稿 Skill 開全面評估,新版會先啃曬成個 Skill 文件,然後畀選項你揀想測邊方面。佢揀咗全面評估,系統自動設計三類測試場景,每個都有量化驗收標準。

一口氣並行啟動 4 個獨立子代理同時跑

以前串行測試會有上下文污染問題,前一個任務積累嘅嘢會影響後一個結果。而家每個代理喺完全乾淨嘅環境跑,token 計數、耗時獨立計算,互相零交叉。

整理重點

評估嘅真正價值:閉住眼都可以修 Bug

Anthropic 舉咗一個例子:佢哋有個 PDF Skill,處理表格時成日出錯,Claude 要將文字塞到指定座標,但因為冇明確字段引導,經常放歪。呢種 bug 靠肉眼好難測到。跑一次評估之後問題就被定位,改咗定位邏輯就搞掂。

評估結果會存在本地,下次改 Skill 時直接帶入上次標註過嘅問題

呢個係測試 → 發現 → 改 → 再測嘅完整循環,同軟件工程嘅單元測試一模一樣。

  • 能力提升型:教 Claude 做佢本來唔叻嘅事,例如前端設計、文檔創建;評估測有無存在必要
  • 流程封裝型:將你團隊嘅流程串起嚟,例如會議紀要、週報;評估測有冇跟足你嘅步驟

模型每升一代,都會有一堆能力提升型 Skill 自然被淘汰,呢個係健康嘅

前兩日直播完之後,我順手睇咗一眼Anthropic嘅Skills倉庫。

結果喺最新Commit裏面,見到一個令我即刻坐直咗嘅更新。

圖片

Skill-creator。

嗰個俾我反覆講過無數次嘅母Skill,靜靜雞迎嚟咗一波超大更新。

你要知道,小龍蝦而家可以咁犀利,本質上一半功勞要歸落Skills度。

而所有呢啲Skills可以造出嚟,又幾乎都要多謝呢個Skill-creator。

佢就係成個Skills生態嘅引擎。

之前未接觸過Skills嘅朋友,可以先睇一眼這篇,應該係全網講Skills講得最詳細嗰篇之一。

返番正題。

呢個星期夜晚抽咗啲時間,將今次更新嘅文檔由頭到尾睇曬。

睇完之後我得一個判斷——今次更新,等於俾成個Skills生態加咗一層底座。

圖片

之前所有自己整Skill嘅人,其實都畀同一個問題困住咗——

你做完一個Skill,根本唔知佢好唔好用。係觸發啱咗,定係佢自己亂估?寫嘅描述合唔合理?換個上下文仲行唔行得通?

全部都係黑盒。

而而家,呢層黑盒畀Anthropic一手撕開咗。

我極力推薦,大家先將Skill-creator更新到最新版本。

更新方法簡單到離譜,同你嘅Agent講一句就得,無論係Claude Code、小龍蝦定OpenCode,都一樣:

https://github.com/anthropics/skills/tree/main/skills/skill-creator,呢個skills更新咗,幫我更新到最新版本

係,就咁一句。

Agent自己會去拉。

圖片

幾分鐘之內,更新就搞掂咗。

圖片

今次新版本一口氣加咗4個功能:

  1. 一套評估系統:行完之後你可以直接知道,呢個Skill到底掂唔掂
  2. 基準測試體系:通過率、耗時、消耗嘅token,全部量化曬畀你
  3. 多代理並行測試:每個測試塞入一個乾淨獨立嘅小房間行,A/B盲評,互相唔污染
  4. 描述自動調優:自動幫你改寫Skill描述,該觸發嘅唔好漏,唔應該觸發嘅唔好亂嚟

我見到呢份清單嘅第一反應係——

呢個唔就係將醫藥行業嘅雙盲隨機對照試驗嗰套,原封不動搬咗過Skills度咩?

醫藥行業有個鐵律:一隻藥到底有冇效,淨係睇研發自己口講「有效」,冇人理你。

你要設實驗組、設對照組,將研究人員同受試者都蒙在鼓裏,行完之後睇量化指標,差距大唔大先算數。

人類用咗一百幾年先將呢套嘢打磨乾淨。

而Anthropic今次相當於將同一套,原封不動搬咗畀Skills——有Skill vs 冇Skill,乾淨環境隔離,並行行,量化打分。

工業化嘅本質就係評估。

一旦評估體系立咗起身,成個嘢就由手工作坊跳咗去流水線。

理論講到呢度先。

直接上案例。


1. 順手用新版Skill-creator,再整一個Skill

我之前寫過一篇文章,將GitHub上面嘅yt-dlp封裝成一個Skill,可以從YouTube、B站、小紅書等各種視頻網站下載視頻。

圖片

但用咗一排之後,我自己發現,淨係將視頻下載落嚟係唔夠嘅。

我好多場景其實係咁——碌到一個外國嘅長訪問,我冇耐性一邊睇一邊記,我想要嘅係文字版講稿,最好原文加中文雙語對照排好直接send俾我。

啱啱好趁今次更新,我用新版Skill-creator又整咗一個新Skill。

提示詞極簡單:

我想做個skill,畀一個視頻連結,可以直接出文字版講稿,如果係外語視頻,就俾我原文加中文雙語版。

佢冇急住開工。

反而反問咗我幾個問題,確認需求細節,然後先開始設計成個Skill。

圖片

3到5分鐘,成個Skill就整好咗。

我攞小龍蝦老竇Peter嘅一個YouTube訪問嚟試。

圖片

直接將連結掟入去。

5分鐘之後,中文版講稿出咗嚟。

圖片

但是。

一大段文字黐埋一齊。

字細,行密,睇到頭痛。

當時我冇特登去手動改佢嘅code,直接對住個Skill繼續對話,叫佢再改一版。

圖片

新版Skill-creator喺迭代改寫呢方面,都有啲提升。

改完之後再行一次:

圖片

排版清晰,段落分明,標題層次齊曬。

咁先似份可以畀人睇嘅文件。

到呢一步,Skill本身算係整咗出嚟。

但真正嘅麻煩,先啱啱開始。


2. 描述調優——解決衝突最勁嘅工具

我而家手上有兩個Skill都同視頻連結有關。

一個係之前嘅yt-dlp,做嘅係將視頻下載到本地。

一個係啱啱整完嘅講稿生成,做嘅係將視頻轉成文字。

佢哋嘅觸發條件都係——「畀一個視頻連結」。

咁問題就嚟喇。

我掟一個YouTube連結過去,佢點知我到底想下載視頻定係想要講稿?

萬一撞咗點算?該觸發嘅唔觸發,唔該觸發嘅亂觸發,咁呢兩個Skill就廢咗。

以前呢啲嘢我只能靠自己肉眼睇,每次行歪咗就返去手動改描述,純粹係體力活。

而新版Skill-creator,直接將呢個流程接管咗。

叫佢優化Skill描述,佢會先將目前嘅描述讀一次,然後話畀你聽要跟住做嘅4件事:

圖片

最得意係第一步:佢會自動生成兩組查詢。

一組叫「應該觸發嘅10條」,一組叫「唔應該觸發嘅10條」。

呢個設計我仔細咁諗過。

佢特登將模糊地帶嘅邊界情況都擺埋入去——唔係啲一眼就知要觸發嘅簡單句,而係嗰啲「嗯?呢個到底算唔算?」嘅灰色地帶。

圖片

逼個模型喺最難嘅地方做判斷。

同搞算法面試題一樣意思——簡單題篩唔出強弱,要hard題先得。

生成完之後,佢直接彈一個網頁叫你確認。

我第一次見到嘅時候,真係有啲驚訝。

圖片

20條查詢整整齊齊排喺網頁度,每條右邊有個開關,標住「係咪應該觸發」。

你逐條睇一次,發現邊條判斷唔啱,直接將個開關撥一下。

打個比方,第三條呢種情況,我唔想再叫佢觸發,我就直接熄咗佢。

圖片

唔應該觸發嘅10條我都睇咗一次,整體冇問題。

圖片

全部確認完,撳「導出評估集」,搞掂。

接落嚟先係好戲。

後台啟動優化循環,最多行5輪迭代,每輪做三件事,成個過程大約10到20分鐘。

圖片

佢會定期匯報進度。

行完之後,會出一個好大嘅表格:

圖片

每一列係一個查詢樣本,每一行係一個迭代版本嘅描述。

綠色剔號代表觸發啱咗,紅色交叉代表冇觸發或者錯觸發。

圖片

藍色嗰列係測試集,其餘係訓練集。

圖片

佢將20個樣本拆成60%訓練加40%測試,喺訓練集上反覆調描述,最後用測試集驗證收斂效果。

呢個係機器學習入面防止過擬合嘅標準做法。

行完之後,最優描述會自動寫返入SKILL.md,成個過程你唔使鬱一隻手指。

Anthropic自己喺6個文檔類Skill上做咗對照——5個嘅觸發率都畀呢套流程推高咗。

圖片

淨係描述改一改咋。

呢步做完,你嘅Skill觸發準確率可以上一個台階。


3. 觸發啱咗,只係入場券

真正做起嘢嚟效果點,仲要另外測。

跟住對啱啱做嘅講稿生成Skill開一次評估。

圖片

佢會先將成個Skill文件睇一次,搞清呢件嘢嘅核心流程係咩。

圖片

然後彈一個選項畀你:你想測邊個方面?

我揀咗「全面評估」。

佢根據Skill功能,自動設計咗三類測試場景,每個場景都配咗量化驗收標準。

圖片

確認方案之後,佢一口氣並行啟動咗4個獨立子代理同時行。

圖片

呢一步——我一定要單獨拎出嚟讚。

以前你都大概可以自己手動做啲簡單評估,但有個致命問題:所有測試只能串行行

一個行完先行下一個。

大家都明上下文管理有幾重要。前一個任務積累嘅上下文,會污染後一個嘅結果。

你見到Skill「通過」咗,可能根本唔係Skill嘅功勞,而係上一輪對話歷史幫佢搭好咗條路。

但你睇唔出。

因為黑盒裏面冇光。

新版本直接換成4個並行Agent。

每個Agent喺完全乾淨嘅環境裏面行,自己嘅token計數、自己嘅耗時,互相之間零交叉。

更快,更乾淨,更可信。

等緊行嘅過程度,佢順手將量化評分腳本都準備好。

圖片

測試行完,瀏覽器自動彈出評估頁面,兩個標籤。

輸出標籤頁——每個測試用例嘅完整輸出。

下面掛一個反饋框,邊度唔啱、邊度要改,你直接標。

呢啲標註會被存起嚟,下次改Skill嘅時候,直接當輸入用。

圖片

基準測試標籤頁——有Skill vs 冇Skill嘅量化對比。

圖片

數據呢方面極度量化。

圖片

有Skill嘅通過率100%,冇Skill嘅基線9%,相差91.5%。

費用方面:有Skill每次大概4000 token,冇Skill 1750 token,多用咗2250。

呢個係Skill帶嚟嘅額外開支。

但對比產出,係值得嘅。


4. 評估嘅真正價值,係合埋眼都可以修Bug

評估嘅意義,遠遠唔止「打個分」咁簡單。

Anthropic自己舉咗個例子。

佢哋有一個PDF Skill,處理表格嘅時候經常有錯。Claude要將文字塞到指定座標,但因為缺少明確嘅字段引導,成日放歪。

呢種bug,靠肉眼測一世都可能測唔出。

圖片

行咗一次評估之後,問題被定位咗。

改咗定位邏輯,bug就搞掂咗。

而且——發現問題之後唔使由頭嚟過。

評估結果會存喺本地,下次你用Skill-creator改呢個Skill嘅時候,佢直接將上次標註過嘅問題帶入去,針對性咁改。

改完再行一次評估,睇分數有冇提升。

測試 → 發現 → 改 → 再測。

呢一成套循環,係完整嘅。

Anthropic相當於將軟件工程入面嗰套最嚴謹嘅做法——單元測試、基準測試、迭代改進、迴歸驗證——一次過搬咗去Skills嘅創作流程度。

軟件工程用咗幾十年先將呢套嘢打磨成而家嘅樣。

Skills生態計埋計埋先出咗幾個月。

直接跳級。


5. 順便講下:你嘅Skill係邊種?

如果你打算將自己手上所有Skills都重新優化行一次,首先要分清楚一件事——

你寫嘅呢個Skill,到底係邊種?

本質上,Skills得兩種。

第一種:能力提升型。

教Claude做佢本來唔擅長嘅事。

例如官方嘅前端設計Skill、文檔創建Skill,裏面塞咗大量小技巧——你淨係靠Prompt根本調唔出呢種效果。

我哋大多數人自己整嘅Skill,基本都係呢類。

第二種,官方叫「編碼偏好型」,我習慣叫佢做「流程封裝型」。

意思係話畀Claude跟你嘅規矩行。

Claude本身每一步都識做,但你將呢啲步驟跟你團隊或者你個人嘅流程串埋一齊。

例如一個會議記錄Skill,按你公司嘅固定格式,將錄音轉成帶行動項嘅文件。

例如一個週報Skill,從各個平台拉數據,跟你嘅固定模板排好。

呢種Skill嘅本質,就係一個工作流(Workflow)。

點解要分呢兩種?

因為評估方向唔一樣。

能力提升型係測——呢個Skill仲有冇存在嘅必要。

用A/B對比,有Skill行一次,冇Skill行一次。

如果差唔多,呢個Skill就應該退休。

圖片

模型每升一代,都會有一堆能力提升型嘅Skill被自然淘汰。

呢樣係健康嘅。

流程封裝型係測另一件事——佢有冇乖乖哋跟你嘅流程行?

有冇漏步驟?有冇自作主張換咗順序?有冇忘記你特別交代過嗰個細節?

分別都幾大。

下次自己測嘅時候,注意分清楚。


寫喺最後

寫到呢度,我自己都想嘆一口氣。

以前整完一個Skill,純粹靠「覺得自己幾好」。

行兩個case睇落OK,就覺得搞掂咗。

但講真,全部係黑盒。

到底好唔好用,質素點樣,觸發率幾多,跨場景穩唔穩定,我根本唔知。

而家唔同曬。

評估行一次,數據擺出嚟,好唔好用,一眼就知。

呢個係Skills由「手作坊」走向「工業化」嘅第一步。

寫Code嘅同行應該最明——

單元測試出嚟之前,軟件行業靠嘅係「我覺得應該冇問題」。

單元測試出嚟之後,行業先真係可以行到大規模工程。

今日,Skill-creator補返咗Skills嘅「單元測試」。

我極度推薦,所有玩Skills嘅朋友,第一時間將Skill-creator更新到最新版本。

然後將自己之前整過嘅所有Skill,逐個行一次呢套評估流程。

嗰啲你之前懷疑過、感覺唔對路但又講唔出邊度唔對路嘅Skill,問題會自己浮出水面。

要知道,小龍蝦點解咁犀利,並唔係佢本身有幾勁,純粹係因為——

佢身上掛住嘅Skills實在係太多喇。

每一個都係獨立嘅技能包。

Skills,就係成個Agent未來生態大繁榮嘅基石。

而Anthropic今次,將呢塊基石澆成咗鋼筋混凝土。

Skills生態。

可能又會迎嚟一波大繁榮。

而最先享受到呢波紅利嘅人。

永遠係嗰啲第一時間行動嘅人。

圖片

以上,既然睇到呢度,如果覺得唔錯,順手畀個讚、睇嚇、轉發三連啦,如果想第一時間收到推送,都可以畀我一個星標⭐~多謝你睇我嘅文章,我哋,下次再見。

/ 作者:可可耐特

/ 投稿或爆料,請聯繫郵箱:aoshindragon@163.com


前兩天直播完,我順手翻了一眼Anthropic的Skills倉庫。

結果在最新Commit裏,看到一個讓我直接坐直了的更新。

圖片

Skill-creator。

那個被我反覆講過無數遍的母Skill,悄咪咪迎來了一波超大更新。

你要知道,小龍蝦現在能這麼能打,本質上一半的功勞得算到Skills頭上。

而所有這些Skills能被造出來,又幾乎都要謝這個Skill-creator。

它就是整個Skills生態的發動機。

之前沒接觸過Skills的朋友,可以先翻一眼這篇,應該是全網講Skills講得最掰碎的一篇之一了。

回到正題。

這周晚上抽了點時間,把這次更新的文檔從頭到尾啃了一遍。

啃完之後我的判斷只有一個——這次更新,等於給整個Skills生態加了一層底座。

圖片

之前所有手搓Skill的人,其實都被困在同一個問題裏——

你做完一個Skill,根本不知道它好不好用。是觸發對了,還是它自己瞎蒙的?寫的描述合不合理?換個上下文還能不能跑?

全是黑盒。

而現在,這層黑盒被Anthropic一把撕了。

我極力推薦,大家先把Skill-creator更到最新版。

更新的方式簡單到離譜,發一句話給你的Agent就行,不管是Claude Code、小龍蝦、還是OpenCode,都一樣:

https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個skills更新了,幫我更新到最新版本

對,就這麼一句話。

Agent自己會去拉。

圖片

幾分鐘之內,更新就跑完了。

圖片

這次新版本一口氣加了4個能力:

  1. 一套評估系統:跑完之後你能直接知道,這個Skill到底能不能打
  2. 基準測試體系:通過率、耗時、消耗的token,全給你量化出來
  3. 多代理並行測試:每個測試塞進一個乾淨獨立的小房間裏跑,A/B盲評,互相不污染
  4. 描述自動調優:自動幫你改寫Skill描述,該觸發的別漏,不該觸發的別亂來

我看到這份清單的第一反應是——

這不就是把醫藥行業的雙盲隨機對照試驗那套,原封不動搬到Skills上了嗎?

醫藥行業有個鐵律:一個藥到底有沒有效,光看研發自己嘴上說"有效",沒人理你。

你得設實驗組、設對照組,把研究者和受試者都蒙起來,跑完之後看量化指標,差距大不大才作數。

人類花了一百多年才把這一套打磨乾淨。

而Anthropic這次相當於把同一套,原封不動搬給了Skills——有Skill vs 沒Skill,乾淨環境隔離,並行跑,量化打分。

工業化的本質就是評估。

一旦評估體系立起來,整個東西就從手工作坊跳到流水線了。

理論先到這。

直接上案例。


1. 順手用新版Skill-creator,再搓一個Skill

我之前寫過一篇文章,把GitHub上的yt-dlp封成了一個Skill,能從YouTube、B站、小紅書各種視頻網站扒視頻。

圖片

但用了一陣子之後,我自己發現,光把視頻下下來不夠。

我挺多場景其實是這樣的——刷到一個國外的長訪談,我沒耐心一邊看一邊記,我想要的是文字版講稿,最好原文+中文雙語對照排好直接發我。

正好借這次更新,我用新版Skill-creator又搓了一個新Skill。

提示詞巨簡單:

我想做個skill,給一個視頻連結,能直接出文字版講稿,如果是外語視頻,給我原文+中文雙語版。

它沒急着開幹。

先反過來問了我幾個問題,確認需求細節,然後才開始設計整個Skill。

圖片

3到5分鐘,整個Skill就搭好了。

我拿小龍蝦他爸Peter的一個YouTube訪談來試。

圖片

直接把連結扔進去。

5分鐘之後,中文版講稿出來了。

圖片

但是。

一大坨文字糊在一起。

字小,行密,看着頭疼。

這時候我沒去手動改它的代碼,直接對着Skill接着對話,讓它再改一版。

圖片

新版Skill-creator在迭代改寫這件事上,也有一些提升。

改完之後再跑一遍:

圖片

排版清晰,段落分明,標題層級齊了。

這才像個能給人看的文檔。

到這一步,Skill本身算是搓出來了。

但真正的麻煩,才剛開始。


2. 描述調優——治打架最狠的那把刀

我現在手裏有兩個Skill都跟視頻連結掛鈎。

一個是之前的yt-dlp,乾的活是把視頻下到本地。

一個是剛做完的講稿生成,乾的活是把視頻轉文字。

它們的觸發條件都是——"給一個視頻連結"。

那問題就來了。

我丟一個YouTube連結過去,它怎麼知道我到底想下視頻還是想要講稿?

萬一打架了怎麼辦?該觸發的不觸發,不該觸發的亂觸發,那這倆Skill就廢了。

以前這種事我只能自己肉眼盯,每次跑歪了再回去手動改描述,純粹的體力活。

而新版Skill-creator,直接把這個流程接管了。

讓它優化Skill描述,它會先把當前的描述讀一遍,然後告訴你接下來要做的4件事:

圖片

最有意思的是第一步:它會自動生成兩組查詢。

一組叫"應該觸發的10條",一組叫"不應該觸發的10條"。

這個設計我細品了一下。

它故意把模糊地帶的邊界情況都擺進去——不是那種一眼就該觸發的簡單句,而是那種"嗯?這個到底算不算?"的灰色地帶。

圖片

逼着模型在最難的地方做判斷。

跟搞算法面試題一個意思——簡單題篩不出強弱,hard題才行。

生成完之後,它直接彈一個網頁讓你確認。

我第一次看到的時候,是真有點驚。

圖片

20條查詢整整齊齊排在網頁裏,每條右邊一個開關,標着"是否應該觸發"。

你逐條掃一遍,發現哪條判斷不對勁,直接把開關翻一下。

打個比方,第三條這種情況,我不想讓它再觸發,我就直接關掉。

圖片

不應該觸發的10條我也掃了一眼,整體沒問題。

圖片

全部確認完,點"導出評估集",結束。

接下來才是好戲。

後台啓動優化循環,最多跑5輪迭代,每輪幹三件事,整個過程大約10到20分鐘。

圖片

它會定期彙報進度。

跑完之後,會出一個巨大的表格:

圖片

每一列是一個查詢樣本,每一行是一個迭代版本的描述。

綠色對勾代表觸發對了,紅色叉代表沒觸發或者錯觸發。

圖片

藍色那列是測試集,其餘是訓練集。

圖片

它把20個樣本拆成60%訓練 + 40%測試,在訓練集上反覆調描述,最後用測試集驗證收斂效果。

這是機器學習裏防過擬合的標準做法。

跑完之後,最優描述會自動寫回SKILL.md,整個過程你不用動一根手指頭。

Anthropic自己在6個文檔類Skill上做了對照——5個的觸發率都被這套流程刷上去了。

圖片

僅僅是描述調一調而已。

這一步走完,你的Skill觸發準確率能上一個台階。


3. 觸發對了,只是入場券

真正幹起活來效果好不好,還得另測。

接着對剛做的講稿生成Skill開一次評估。

圖片

它會先把整個Skill文件啃一遍,搞清楚這玩意兒的核心流程是啥。

圖片

然後彈一個選項給你:你想測哪個方面?

我選了"全面評估"。

它根據Skill功能,自動設計了三類測試場景,每個場景都配了量化驗收標準。

圖片

確認方案之後,它一口氣並行啓動了4個獨立子代理同時跑。

圖片

這一步——我必須單獨拎出來誇。

以前你也能自己手工做點簡單評估,但有個致命問題:所有測試只能串行跑

一個跑完再跑下一個。

大家都懂上下文管理多重要。前一個任務積累的上下文,會污染後一個的結果。

你看到Skill"通過"了,可能根本不是Skill的功勞,是上一輪對話歷史給搭好了梯子。

但你看不出來。

因為黑盒裏沒光。

新版本直接換成4個並行Agent。

每個Agent在完全乾淨的環境裏跑,自己的token計數、自己的耗時,互相之間零交叉。

更快,更乾淨,更可信。

等待跑的過程裏,它順手把量化評分腳本也準備好了。

圖片

測試跑完,瀏覽器自動彈出評估頁面,兩個標籤。

輸出標籤頁——每個測試用例的完整輸出。

下面掛一個反饋框,哪裏不對、哪裏要改,你直接標。

這些標註會被存起來,下次改Skill的時候,直接當輸入用。

圖片

基準測試標籤頁——有Skill vs 沒Skill的量化對比。

圖片

數據這塊極度量化。

圖片

有Skill的通過率100%,沒Skill的基線9%,差值91.5%。

費用上:有Skill每次大概4000 token,沒Skill 1750 token,多花了2250。

這是Skill帶來的額外開銷。

但對比產出,劃得着。


4. 評估的真正價值,是閉着眼也能修Bug

評估的意義,遠遠不止"打個分"這麼簡單。

Anthropic自己舉了個例子。

他們有一個PDF Skill,處理表格的時候老出錯。Claude要把文字塞到指定座標,但因為缺少明確的字段引導,經常放歪。

這種bug,靠肉眼測一輩子可能都測不出來。

圖片

跑了一遍評估之後,問題被定位了。

改了定位邏輯,bug就關了。

而且——發現問題之後不用從頭來過。

評估結果會存在本地,下次你拿Skill-creator改這個Skill的時候,它直接把上次標註過的問題帶進去,針對性地改。

改完再跑一遍評估,看分數有沒有提升。

測試 → 發現 → 改 → 再測。

這一整套循環,是完整的。

Anthropic相當於把軟件工程裏那一套最嚴謹的實踐——單元測試、基準測試、迭代改進、迴歸驗證——一股腦挪到了Skills的創作流程裏。

軟件工程花了幾十年才把這一套打磨成今天的樣子。

Skills生態滿打滿算才出來幾個月。

直接跳級。


5. 順便聊一下:你的Skill是哪種?

如果你打算把自己手裏所有Skills都重新優化跑一遍,得先分清楚一件事——

你寫的這個Skill,到底是哪種?

本質上,Skills只有兩種。

第一種:能力提升型。

教Claude做它本來不擅長的事。

比如官方的前端設計Skill、文檔創建Skill,裏頭塞了大量小技巧——你光靠Prompt根本調不出來這種效果。

我們大多數人自己搓的Skill,基本都是這一類。

第二種,官方叫"編碼偏好型",我習慣叫它"流程封裝型"。

意思是告訴Claude按你的規矩走。

Claude本身每一步都能做,但你把這些步驟按你團隊/你個人的流程串了起來。

比如一個會議紀要Skill,按你們公司固定格式,把錄音轉成帶行動項的文檔。

比如一個週報Skill,從各個平台拉數據,按你的固定模板排好。

這種Skill的本質,就是一個工作流(Workflow)。

為啥要分這兩種?

因為評估方向不一樣。

能力提升型測的是——這個Skill還有沒有存在的必要。

用A/B對比,有Skill跑一次,沒Skill跑一次。

如果差不多,這個Skill就該退休了。

圖片

模型每升一代,都會有一堆能力提升型的Skill被自然淘汰。

這是健康的。

流程封裝型測的是另一件事——它有沒有老老實實按你的流程走?

有沒有漏步驟?有沒有自作主張換了順序?有沒有忘了你特別交代過的那個細節?

差別挺大。

下次自己測的時候,注意分一下。


寫在最後

寫到這兒,我自己也想嘆一口氣。

以前造完一個Skill,純粹靠"自我感覺良好"。

跑兩個case看着還行,就覺得完事了。

但說實話,全是黑盒。

到底好不好用,質量怎麼樣,觸發率多少,跨場景穩不穩定,我根本不知道。

現在不一樣了。

評估跑一遍,數據擺出來,好不好用,一眼見真章。

這是Skills從"手作坊"走向"工業化"的第一步。

寫代碼的同行應該最有感觸——

單元測試出來之前,軟件行業靠的是"我覺得應該沒問題"。

單元測試出來之後,行業才真正能跑大規模工程。

今天,Skill-creator補上了Skills的"單元測試"。

我極度推薦,所有玩Skills的朋友,第一時間把Skill-creator更新到最新版。

然後把自己之前搓過的所有Skill,挨個跑一遍這套評估流程。

那些你之前懷疑過的、感覺不對勁但又說不出哪裏不對勁的Skill,問題會自己浮出水面。

要知道,小龍蝦為什麼這麼能打,並不是它本身有多牛逼,純粹是因為——

它身上掛的Skills實在是太多了。

每一個都是一個獨立技能包。

Skills,就是整個Agent未來生態大繁榮的基石。

而Anthropic這次,把這塊基石澆成了鋼筋混凝土。

Skills生態。

可能又要迎來一波大繁榮了。

而最先享受到這波紅利的人。

永遠是那些第一時間動手的人。

圖片

以上,既然看到這裏了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標⭐~謝謝你看我的文章,我們,下次再見。

/ 作者:可可耐特

/ 投稿或爆料,請聯繫郵箱:aoshindragon@163.com