我用官方 skill-creator，做出了一個勝率 75% 的更強 skill-creator

作者：詞元開物

日期：2026年5月5日下午12:00

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

作者透過逆向工程優秀 skill 倉庫，提煉20條原則並疊加到 Anthropic 官方 skill-creator，製作出勝率75%嘅 meta-skill-creator，將 skill 寫作從手藝活轉為工程流程。

整理版摘要

呢篇文章係作者分享佢點樣用 Anthropic 官方 skill-creator 做出一個更強嘅 meta-skill-creator。作者一開始諗住好簡單：用官方工具做一個更強嘅 skill-creator。但真正有意思嘅地方係喺「點樣判斷一個 AI skill 寫得好唔好」呢個問題上。

作者唔想淨係睇文檔靚唔靚或者模型話檢查過就算數。佢想要嘅係可分類、可診斷、可驗證、可比較、更架構化同系統化嘅答案。於是佢開始逆向工程，拆開市面上11個優秀嘅 skill 倉庫，按照注入邏輯、驗證迴路、精準控制、理論基礎同架構權衡五個維度分析。

最後提煉出20條 skill 架構原則，再疊加到 Anthropic 官方嘅 skill-creator 上面，保留對方嘅寫作能力同時加入工程能力。經過14個測試案例、28次盲評判斷，最終 meta-skill-creator 以21:6勝出，總勝率75%。作者強調呢個結果唔係全面碾壓，而係喺複雜、可維護、團隊級嘅 skill 工程上更強。

結論：meta-skill-creator 喺複雜 skill 工程上勝率75%，但 Anthropic 喺解釋性同新手友好度仍然優勝。
方法：透過拆解11個優秀倉庫，按5個維度分析，提煉20條原則，再疊加到官方工具，唔係完全取代。
差異：新方法將 skill 寫作從「手藝活」變成「工程流程」，加入8種原型、質量診斷同反模式掃描。
啟發：AI 能力提升正從「更會說話」轉向「更會受控地做事」，個人靈感用 prompt，長期複用做 skill。
可行動點：讀者可以自己嘗試蒸餾：揾5-10個優秀樣本，拆結構，揾共同點，寫成檢查表，再用盲評驗證。

結構示例

內容片段

內容片段 text

1. 注入邏輯：它怎麼被觸發、加載、調用？2. 驗證迴路：有沒有 plan -> execute -> verify -> learn？3. 精準控制：怎麼限制邊界、錯誤和跳步驟？4. 理論基礎：它借用了哪些軟件工程或系統設計思想？5. 架構權衡：它強在哪裏，又犧牲了什麼？

整理重點

點解要做一個更強嘅 skill-creator？

呢篇文章係作者分享佢點樣用 Anthropic 官方 skill-creator 做出一個更強嘅 meta-skill-creator。佢一開始諗住好簡單，但真正嘅問題係：點樣判斷一個 AI skill 寫得好唔好？唔係睇 Markdown 靚唔靚，而係要可分類、可診斷、可驗證、可比較、更架構化同系統化。

作者定義咗 skill 係一包可複用嘅 AI 工作說明，通常包含 SKILL.md，有時帶腳本同模板。好多時人寫 skill 其實係寫一段更長嘅 prompt，但咁樣唔穩定，因為一個真正可複用嘅 skill 要回答觸發條件、輸入來源、輸出格式、完成標準同失敗處理等問題。

meta-skill-creator 做嘅係「將寫 skill 從手藝活變成一套工程流程」

整理重點

點樣蒸餾同驗證？

作者拆咗11個優秀嘅 Claude Code / Agent skill 倉庫，涵蓋官方參考、方法論框架、平台化系統、企業工作流、專業技能庫同設計類 skill。佢唔係淨係睇寫得好唔好，而係按注入邏輯、驗證迴路、精準控制、理論基礎、架構權衡五個維度分析。

提煉出20條原則之後，作者做咗兩層交叉驗證。第一層係來源交叉驗證：同一原則必須喺多個獨立倉庫出現至算穩定解。第二層係結果交叉驗證：將改良後嘅 meta-skill-creator 同原版用同一批任務盲評，由 Claude 同 GPT 獨立評審。

1 Suite 1: 從零生成新 SKILL.md，8個案例，16次判斷
2 Suite 2: 修復有缺陷嘅 skill，3個案例，6次判斷
3 Suite 3: 生成多文件 skill 包，3個案例，6次判斷
4 總計14個測試案例，28次盲評判斷

整理重點

新工具加咗啲咩功能？

作者冇替換 Anthropic 嘅 skill-creator，而係保留佢嘅寫作能力，再疊加工程能力。第一層係 8種 skill 原型，包括 Standalone Utility、Quality Checker、Coordinator、Orchestrator、Methodology / Process、Knowledge / Reference、Creative / Generative、Meta-Skill。先分清楚類型，再對症下藥。

第二層係 100分質量診斷，拆成8個維度：Structural Completeness、Constraint Density、Output Consumability、DoD Verifiability、Input Resolution、Recovery Design、Context Economy、Behavioral Guardrails。第三層係反模式掃描，常見壞味道包括 God Skill、No Failure Paths、Blind Trust of Agent Output、Eval Overfitting、Benchmark Cherry-Picking。

God Skill: 一個 skill 乜都想管
No Failure Paths: 只寫成功路徑，唔寫失敗點算
Blind Trust of Agent Output: 工人話做完就信

整理重點

測試結果同對你有咩用？

盲評結果顯示：Meta 21 : 6 Anthropic + 1 tie，總勝率75%。但分佈好重要：Meta 喺創建可複用 skill 工件嘅場景更強，Anthropic 喺解釋性、教學性、對新手更友好嘅場景仍然好強。

作者提醒，AI 能力提升正從「更會說話」轉向「更會受控地做事」。如果你只係偶然寫一個小 prompt，唔需要呢套工具。但如果你係做重複工作沉澱、維護 skill 倉庫、改進誤觸發 skill、做質量審查、生成多文件 skill 包，或者想比較新舊版本，咁就好有用。

最後，作者鼓勵讀者自己試下蒸餾：揾5-10個優秀樣本，拆結構，揾共同點，寫成檢查表，再用盲評驗證。真正有用嘅蒸餾係將好結果背後嘅結構拆出來，再放返自己工作流度測試。

聽落好似繞口令。實際做落嚟，佢係一次逆向工程：首先拆開市面上優秀 skill 嘅共同骨架，再將呢啲方法加返入 Anthropic 嘅官方 skill-creator 度，最後用盲評數據睇嚇佢係咪真係勁咗。

我一開始想做嘅嘢好簡單：

用 Anthropic 嘅官方 skill-creator，做一個更勁嘅 skill-creator。

呢句嘢有啲「自己整自己」嘅味道。但真正有趣嘅地方唔係遞歸，而係另一個問題：

如果 AI 已經可以幫我哋寫 skill，咁點判斷佢寫出嚟嘅 skill 真係好？

唔係「睇落好完整」。唔係「Markdown 好靚」。亦都唔係「模型話佢已經檢查過」。

我要嘅係另一種答案：可以分類、可以診斷、可以驗證、可以比較、更加結構化同系統化。

這就是 meta-skill-creator：一個專門用嚟生產、修復、評估其他 skill 嘅 meta skill。

先講人話：佢解決咩問題

先把詞講清楚：呢度講嘅 skill，唔係「技能證書」，而係一包可以重用嘅 AI 工作說明。佢通常包含 SKILL.md，有時仲會帶腳本、參考資料同模板。

好多人寫 skill，其實係寫一段長啲嘅提示詞。

比如：

「以後遇到代碼審查，就跟呢個流程嚟做。」

呢種寫法用得，但唔穩定。因為一個真正可以重用嘅 skill，至少要回答呢啲問題：

問題	唔回答會點
幾時應該觸發？	應該用嗰陣唔用，唔應該用嗰陣亂用
佢唔負責啲咩？	一個小工具慢慢變大成萬能工具
輸入從邊度嚟？	Agent 自己估上下文
輸出畀邊個用？	結果睇落豐富，實際上冇辦法繼續用
點樣算完成？	Agent 話完成咗，但冇證據
失敗咁點算？	一出錯就開始解釋，而唔係恢復
如果帶腳本，腳本真係行到嗎？	文檔寫得靚，代碼一執行就炸

所以 meta-skill-creator 做嘅唔係「幫你寫得更似文檔」。

佢做嘅係：將寫 skill 從手藝活，變成一 set 工程流程。

左邊係一次性 prompt。右邊係可以重用、可以維護、可以測試嘅 skill 包。

分別唔在於字數。分別在於有冇結構。

唔係憑空發明：佢係點樣「蒸餾」出嚟

meta-skill-creator 唔係拍拍個頭就寫出嚟。

佢背後有一輪好重嘅分析：我拆咗 11 個優秀嘅 Claude Code / Agent skill 倉庫。

呢啲倉庫嚟自唔同路線：

類型	代表倉庫	主要價值
官方參考	anthropics-skills	官方規範同基礎寫法
方法論框架	superpowers、autoresearch、karpathy-skills	用流程紀律約束 Agent
平台化系統	gstack、everything-claude-code	用基礎設施同 hook 控制運行時
企業工作流	claude-code-skills	多層 skill、共享契約、審查機制
專業技能庫	jeffallan-skills	元數據、漸進披露、驗證腳本
設計類 skill	claude-design-skill、getdesign、awesome-claude-design	事實驗證、設計資產、輸出規範

分析時唔係淨係睇「佢哋寫得好唔好」。而係按 5 個維度拆：


1. 注入邏輯：它怎麼被觸發、加載、調用？
2. 驗證迴路：有沒有 plan -> execute -> verify -> learn？
3. 精準控制：怎麼限制邊界、錯誤和跳步驟？
4. 理論基礎：它借用了哪些軟件工程或系統設計思想？
5. 架構權衡：它強在哪裏，又犧牲了什麼？

拆完之後，再做橫向對比。

如果一個模式只喺一個倉庫出現，可能只係作者嘅偏好。
如果多個獨立倉庫都用類似方法，咁就更加似「穩定解」。

最後提煉出咗 20 條 skill 架構原則。例如：

提煉出嘅方法	白話解釋
觸發邊界要顯式	唔好俾 Agent 靠估決定用唔用 skill
驗證迴路必須完整	做咗唔算完，驗證過先算完
漸進式披露	唔好一次過將所有文檔塞入上下文，需要時先讀
用硬門控防止跳步驟	關鍵階段唔可以靠 Agent 自覺
Skill 要可以獨立測試	唔可以得喺完整大流程入面先知佢有冇用
共享邏輯集中管理	多個 skill 重用嘅規則唔好周圍複製
真正上限在於系統設計	更長嘅 prompt 解決唔曬所有問題

呢一步就係「蒸餾」。

唔係將人哋嘅句子拼埋一齊，而係將唔同優秀 skill 背後嘅共同結構抽返出嚟。

點樣做交叉驗證

淨係提煉仲唔夠。

因為「我從 11 個倉庫總結出 20 條原則」，聽起嚟好似自說自話。真正重要嘅係：呢啲原則放返入 skill-creator 之後，可唔可以令產物變好？

所以做咗兩層交叉驗證。

第一層係來源交叉驗證。

同一條原則，一定要喺唔同路線嘅倉庫度揾到影子。例如「漸進式披露」唔係某一個作者嘅偏好，Anthropic、gstack、jeffallan-skills 都用緊類似思路：入口文件保持輕，詳細資料按需加載。再例如「驗證唔可以省」，superpowers、gstack、autoresearch 都將完成後嘅檢查當成關鍵步驟。

第二層係結果交叉驗證。

將改造後嘅 meta-skill-creator 同 Anthropic skill-creator 放喺同一批任務，用兩個唔同模型做盲評：


同一個任務
  -> Anthropic skill-creator 生成一個結果
  -> meta-skill-creator 生成一個結果
  -> 打亂成 A / B
  -> Claude 和 GPT 分別評審
  -> 統計誰贏、哪裏贏、哪裏輸

呢一步嘅重點唔係揾一個「永遠正確」嘅裁判。

重點係減少偏見：唔俾評審知道邊個係 Meta，邊個係 Anthropic；亦都唔只信一個模型嘅口味。

跟住點樣做加法

呢度有一個關鍵選擇：唔好取代 Anthropic 嘅 skill-creator。

早期版本試過取代。結果好尷尬：結構強咗，但讀起嚟更加似規格書。佢可以話俾 Agent 知「一定要做啲咩」，但少咗 Anthropic 官方版本入面嗰種解釋「點解要咁做」嘅自然感覺。

所以後嚟嘅策略變咗：

保留 Anthropic 嘅寫作能力，再喺上面疊加工程能力。

具體加咗幾層。

第一層：8 種 skill 原型

唔係所有 skill 都應該係同一個樣。

meta-skill-creator 會先問：呢個 skill 到底係邊一類？

原型	適合場景
Standalone Utility	獨立小工具，例如生成 commit message
Quality Checker	做審查、評分、診斷
Coordinator	協調一條依賴流程，例如發佈流程
Orchestrator	協調多條並行任務線
Methodology / Process	約束工作方法，例如事故應變
Knowledge / Reference	提供專業知識同決策建議
Creative / Generative	做創意生成，例如文章大綱
Meta-Skill	創建、修改、審計其他 skill

白話講：先睇病種，再開藥。

一個 commit message 工具，唔需要複雜嘅多 Agent 失敗恢復。
一個發佈協調 skill，如果冇前置檢查、失敗路徑同回滾邊界，咁就好危險。

第二層：100 分質量診斷

佢唔係靠「感覺唔錯」嚟評估 skill，而係拆成 8 個維度打分。

維度	分值	看什麼
Structural Completeness	15	結構係咪完整
Constraint Density	15	規則係咪具體
Output Consumability	15	輸出可唔可以直接用
DoD Verifiability	15	完成標準可唔可以檢查
Input Resolution	10	輸入來源係咪清楚
Recovery Design	10	出錯之後有冇路
Context Economy	10	係咪節省上下文
Behavioral Guardrails	10	係咪防止偷懶同誤判

呢度嘅重點唔係「總分越高越好」。

更加重要嘅係揾弱點。例如一個 skill 總分 82，但冇明確邊界，咁都係硬傷。

因為有啲問題唔係扣幾分嘅問題，而係阻斷器。

比如：

description 冇講清楚幾時觸發
冇寫「唔做啲咩」
需要結構化輸出，但淨係畀一段散文
高風險流程冇失敗路徑
完成標準冇辦法驗證
盲目信 worker 或 Agent 嘅口頭結果

呢啲問題唔解決，分數再高都唔可靠。

第三層：反模式掃描

meta-skill-creator 仲將常見壞味道整理成反模式。

有啲名好直接：

反模式	真實含義
God Skill	一個 skill 咩都想管
No Failure Paths	淨係寫成功路徑，唔寫失敗咁點
Blind Trust of Agent Output	worker 話做完就信
Eval Overfitting	用測試集反饋反覆調整，成績虛高
Benchmark Cherry-Picking	淨係展示贏嘅案例

呢一步好似代碼審查入面嘅 checklist。

唔係因為作者唔認真，而係因為人同模型都會漏咗熟悉嘅陷阱。

測試結果：到底勁咗幾多

跟住講數據。

評測唔係畀自己睇自己。佢用咗兩個獨立評審：

Claude Opus 4.7
GPT-5.4 Codex

方法係盲評。即係將兩個輸出標成 A / B，唔話俾評審知邊個嚟自 Anthropic，邊個嚟自 Meta。評審淨係睇質量，唔睇名。

一共做咗 3 套測試：

Suite	測什麼	案例數	獨立判斷次數
Suite 1: Creation	從零生成新 SKILL.md	8	16
Suite 2: Improvement	修復有缺陷嘅 skill	3	6
Suite 3: Complex	生成多文件 skill 包	3	6
總計	覆蓋約 50% skill-creator 生命週期	14	28

總結果：


Suite 1（創建）     Meta 10 : 5 Anthropic + 1 tie
Suite 2（改進）     Meta  6 : 0 Anthropic
Suite 3（複雜）     Meta  5 : 1 Anthropic

總計                Meta 21 : 6 Anthropic + 1 tie
Meta 勝率           75.0%

呢組數據入面，最重要嘅唔係總勝率，而係分佈。

Suite 1：從零創建 skill

8 個案例覆蓋 8 種原型。

案例	原型	結果傾向
Conventional Commit Generator	Standalone Utility	Meta 雙評審勝
Python API Security Reviewer	Quality Checker	分歧
Release Coordinator	Coordinator	分歧
Bug Report Router	Orchestrator	分歧
Incident Response	Methodology / Process	分歧
PostgreSQL Index Advisor	Knowledge / Reference	分歧
Technical Blog Outline	Creative / Generative	Meta 雙評審勝
Skill Auditor	Meta-Skill	Meta 雙評審勝

呢樣說明 Meta 唔係喺所有場景都碾壓。

佢喺「要產出可重用 skill 工件」嘅場景更強。
Anthropic 喺「解釋性、教學性、對新手更友好」嘅場景仍然好強。

呢點好重要。如果唔係就會變咗營銷稿。

Suite 2：修復壞 skill

呢一組最能夠說明問題。

測試輸入唔係從零寫，而係畀一個有缺陷嘅 skill，再畀用戶反饋，睇邊個可以修得更系統。

案例	衰喺邊	結果
i-01	描述太模糊，唔知支援邊啲語言同 formatter	Meta 傾向勝
i-02	安全檢查器誤報嚴重	Meta 雙評審勝
i-03	協調器缺少失敗路徑	Meta 傾向勝

Anthropic 喺呢一組冇贏。

原因都好直接：修復壞 skill 嗰陣，真正難嘅唔係「將句子寫順」，而係揾出結構缺陷。

例如誤報嚴重嘅安全檢查器，唔可以淨係寫「注意減少誤報」。佢需要檢測規則、置信度規則、證據要求、輸出格式一齊改。

呢樣正正係 meta-skill-creator 擅長嘅地方。

Suite 3：複雜多文件 skill

呢一組最接近真實工程。

唔係淨係生成一個 SKILL.md，而係同時涉及：

scripts/
references/
assets/
多文件之間嘅一致性

呢一組 Meta 嘅結果係 5 : 1。佢贏喺三個位：

強項	點解重要
SKILL.md 同腳本更一致	文檔話可以做嘅嘢，配套文件都要跟得上
references 更加似決策資料	唔只係解釋概念，仲畀選擇標準
assets / scripts / references 分工更清楚	複雜 skill 唔會堆成一嚿

呢度可以睇到 meta-skill-creator 嘅核心優勢：佢更擅長將一個 skill 當成「完整包」嚟設計，而唔係淨係寫一個靚嘅入口文件。

複雜 AI 工作流嘅提升，好多時唔係靠更長嘅 prompt，而係靠更好嘅系統邊界。

但佢都唔係萬能

呢度一定要講清楚。

meta-skill-creator 並唔係所有維度都贏。

Anthropic 仍然更強嘅地方包括：

解釋性文字更自然
對新手更友好
喺某啲知識型 skill 裏便，領域講解更細膩
喺安全審查呢類場景裏便，有時對誤報更敏感

評測本身都有邊界：

限制	說明
冇人類評審	係用 LLM-as-judge，唔係人工專家最終裁決
冇測運行時質量	冇真正長期運行呢啲 skill
冇覆蓋觸發優化	description precision / recall 仲未單獨測
只覆蓋約 50% 生命週期	仲有協作、長期維護、人機反饋未完全覆蓋

所以更準確嘅講法唔係：

meta-skill-creator 全面超過 Anthropic。

更準確嘅講法係：

如果你要做團隊級、可維護、可審查、複雜度較高嘅 skill，meta-skill-creator 更強。

對普通用戶有咩用

如果你唔寫 skill，只係平時用 AI，呢件事都有啓發。

因為佢講咗一個趨勢：

AI 能力嘅提升，正喺度從「更會講嘢」轉向「更會受控地做嘢」。

以前我哋優化 prompt，重點係令模型明白我哋。
而家我哋優化 skill，重點係令模型喺邊界內穩定行動。

呢個就好似從「請你幫我煮飯」變成：

菜譜係咩
食材從邊度嚟
咩情況唔可以繼續做
做完點驗收
下次點樣重用

睇落麻煩，但呢個係由傾偈走向工作嘅必經之路。

適合邊個用

如果你只係間中寫一個小 prompt，咁就唔需要。

但如果你正喺度做呢啲嘢，咁就好有用：

將重複工作沉澱成 skill
維護一個 skill 倉庫
改進經常誤觸發嘅 skill
俾 skill 做質量審查
生成帶腳本、參考資料、資產嘅 skill 包
令多個 Agent 協作，但又唔想盲信佢哋嘅口頭彙報
想比較新舊版本，而唔係憑感覺話「好似好咗」

一句講曬：

個人靈感用 prompt，長期重用做 skill。
簡單 skill 睇文筆，複雜 skill 睇工程。

你自己都可以試嚇蒸餾

呢件事唔單止適用於 skill-creator。

如果你平時有一類重複工作，都可以用同樣嘅方法，蒸餾出自己嘅 skill。

步驟唔複雜：

揾 5 到 10 個優秀樣本。可以係人哋嘅 skill、你自己嘅高質量提示詞，或者團隊成日用嘅 SOP。
唔好一開始就抄內容，先拆結構。睇嚇佢哋點觸發、點定義邊界、點處理失敗、點輸出結果。
揾共同點。得一個樣本有嘅，暫時當係個別例子；多個樣本獨立出現嘅，優先提煉成原則。
將原則寫成檢查表。例如「係咪清楚講明唔做啲咩」「係咪有可驗證嘅完成標準」「係咪有失敗處理」。
用同一批任務對比舊方法同新 skill。唔好淨係睇一個成功案例，至少睇創建、改進、複雜情況三類。
俾人哋或者另一個模型盲評。唔好話佢知邊個係新版，先睇結果，再睇原因。

真正有用嘅蒸餾，唔係將好句子抽返出嚟。

而係將好結果背後嘅結構拆出嚟，再放返入自己嘅工作流度測試。

最後

meta-skill-creator 最有價值嘅地方，唔係「佢識得寫 skill」。

Anthropic 嘅 skill-creator 都識得寫。

佢真正有價值嘅地方係：佢將「點樣寫一個好 skill」呢件事拆開咗。

拆成分類、邊界、結構、評分、反模式、驗證、評測。

呢個聽落冇「AI 自動創造 AI」咁刺激。

但對真正想將 AI 用入工作流嘅人嚟講，呢個先係更加重要嘅部分。

因為最後決定一個 skill 可唔可以長期用嘅，唔係佢第一次生成時有幾驚豔。

而係三個月後，你仲敢唔敢俾佢繼續行。

一頁總結

問題	答案
meta-skill-creator 係咩？	一個用嚟創建、改進、評分、測試其他 skill 嘅 meta skill
佢從邊度嚟？	從 11 個優秀 skill 倉庫中提煉方法，再疊加到 Anthropic skill-creator 上
佢提煉咗啲咩？	20 條架構原則、8 類 skill 原型、質量評分、反模式、驗證流程
佢點樣驗證自己？	14 個測試案例、28 次盲評判斷、Claude + GPT 雙評審
結果點樣？	Meta 21 : 6 Anthropic + 1 tie，總勝率 75.0%
佢強喺邊？	複雜、可維護、團隊級、帶腳本同多文件嘅 skill 工程
Anthropic 仲強喺邊？	敍事、教學、可讀性、新手友好度
讀者可以學到咩？	揾優秀樣本，拆結構，提煉原則，再用盲評驗證

聽起來像繞口令。實際做下來，它是一次逆向工程：先拆開市面上優秀 skill 的共同骨架，再把這些方法加回 Anthropic 的官方 skill-creator 裏，最後用盲評數據看它到底有沒有變強。

我一開始想做的事很簡單：

用 Anthropic 的官方 skill-creator，做一個更強的 skill-creator。

這句話有點“自己製造自己”的味道。可真正有意思的地方不在遞歸，而在另一個問題：

如果 AI 已經能幫我們寫 skill，那怎麼判斷它寫出來的 skill 真的好？

不是“看起來挺完整”。不是“Markdown 很漂亮”。也不是“模型說它已經檢查過”。

我要的是另一種答案：可分類、可診斷、可驗證、可比較、更架構化和系統化。

這就是 meta-skill-creator：一個專門用來生產、修復、評估其他 skill 的 meta skill。

先說人話：它解決什麼問題

先把詞說清楚：這裏的 skill，不是“技能證書”，而是一包可複用的 AI 工作說明。它通常包含 SKILL.md，有時還會帶腳本、參考資料和模板。

很多人寫 skill，其實是在寫一段更長的提示詞。

比如：

“以後遇到代碼審查，就按這個流程來。”

這種寫法能用，但不穩。因為一個真正可複用的 skill，至少要回答這些問題：

問題	不回答會怎樣
什麼時候該觸發？	該用的時候沒用，不該用的時候亂用
它不負責什麼？	一個小工具慢慢膨脹成萬能工具
輸入從哪裏來？	Agent 自己猜上下文
輸出給誰消費？	結果看着豐富，實際沒法接着用
怎麼算完成？	Agent 說完成了，但沒有證據
失敗怎麼辦？	一出錯就開始解釋，而不是恢復
如果帶腳本，腳本真能跑嗎？	文檔寫得漂亮，代碼一跑就炸

所以 meta-skill-creator 做的不是“幫你寫得更像文檔”。

它做的是：把寫 skill 從手藝活，變成一套工程流程。

左邊是一次性 prompt。右邊是可以複用、可以維護、可以測試的 skill 包。

差別不在字數。差別在有沒有結構。

不是憑空發明：它是怎麼“蒸餾”出來的

meta-skill-creator 不是拍腦袋寫出來的。

它背後有一輪很重的分析：我拆了 11 個優秀的 Claude Code / Agent skill 倉庫。

這些倉庫來自不同路線：

類型	代表倉庫	主要價值
官方參考	anthropics-skills	官方規範和基礎寫法
方法論框架	superpowers、autoresearch、karpathy-skills	用流程紀律約束 Agent
平台化系統	gstack、everything-claude-code	用基礎設施和 hook 控制運行時
企業工作流	claude-code-skills	多層 skill、共享契約、審查機制
專業技能庫	jeffallan-skills	元數據、漸進披露、驗證腳本
設計類 skill	claude-design-skill、getdesign、awesome-claude-design	事實驗證、設計資產、輸出規範

分析時沒有隻看“它們寫得好不好”。而是按 5 個維度拆：


1. 注入邏輯：它怎麼被觸發、加載、調用？
2. 驗證迴路：有沒有 plan -> execute -> verify -> learn？
3. 精準控制：怎麼限制邊界、錯誤和跳步驟？
4. 理論基礎：它借用了哪些軟件工程或系統設計思想？
5. 架構權衡：它強在哪裏，又犧牲了什麼？

拆完之後，再做橫向對比。

如果一個模式只在一個倉庫裏出現，可能只是作者偏好。
如果多個獨立倉庫都用類似方法，那就更像“穩定解”。

最後提煉出了 20 條 skill 架構原則。比如：

提煉出的方法	白話解釋
觸發邊界要顯式	別讓 Agent 靠猜決定要不要用 skill
驗證迴路必須完整	做完不算完，驗證過才算完
漸進式披露	別一次把所有文檔塞進上下文，需要時再讀
用硬門控防止跳步驟	關鍵階段不能靠 Agent 自覺
Skill 要可獨立測試	不能只能在完整大流程裏才知道它有沒有用
共享邏輯集中管理	多個 skill 複用的規則不要到處複製
真正上限在系統設計	更長的 prompt 解決不了所有問題

這一步就是“蒸餾”。

不是把別人的句子拼在一起，而是把不同優秀 skill 背後的共同結構抽出來。

怎麼做交叉驗證

只提煉還不夠。

因為“我從 11 個倉庫裏總結出 20 條原則”，聽起來很像自說自話。真正要緊的是：這些原則放回 skill-creator 以後，能不能讓產物變好？

所以做了兩層交叉驗證。

第一層是來源交叉驗證。

同一個原則，必須能在不同路線的倉庫裏找到影子。比如“漸進式披露”不是某一個作者的偏好，Anthropic、gstack、jeffallan-skills 都在用類似思路：入口文件保持輕，詳細資料按需加載。再比如“驗證不能省”，superpowers、gstack、autoresearch 都把完成後的檢查當成關鍵步驟。

第二層是結果交叉驗證。

把改造後的 meta-skill-creator 和 Anthropic skill-creator 放到同一批任務裏，用兩個不同模型做盲評：


同一個任務
  -> Anthropic skill-creator 生成一個結果
  -> meta-skill-creator 生成一個結果
  -> 打亂成 A / B
  -> Claude 和 GPT 分別評審
  -> 統計誰贏、哪裏贏、哪裏輸

這一步的重點不是找一個“永遠正確”的裁判。

重點是減少偏見：不讓評審知道哪個是 Meta，哪個是 Anthropic；也不只相信一個模型的口味。

然後怎麼做加法

這裏有個關鍵選擇：不要替換 Anthropic 的 skill-creator。

早期版本試過替換。結果很尷尬：結構更強了，讀起來卻更像規格書。它能告訴 Agent “必須做什麼”，但少了 Anthropic 官方版本里那種解釋“為什麼要這麼做”的自然感。

所以後來的策略變了：

保留 Anthropic 的寫作能力，再往上疊加工程能力。

具體加了幾層。

第一層：8 種 skill 原型

不是所有 skill 都該長一個樣。

meta-skill-creator 會先問：這個 skill 到底是哪類？

原型	適合場景
Standalone Utility	獨立小工具，比如生成 commit message
Quality Checker	做審查、評分、診斷
Coordinator	協調一條依賴流程，比如發佈流程
Orchestrator	協調多條並行任務線
Methodology / Process	約束工作方法，比如事故響應
Knowledge / Reference	提供專業知識和決策建議
Creative / Generative	做創意生成，比如文章大綱
Meta-Skill	創建、修改、審計其他 skill

白話說：先看病種，再開藥。

一個 commit message 工具，不需要複雜的多 Agent 失敗恢復。
一個發佈協調 skill，如果沒有前置檢查、失敗路徑和回滾邊界，就很危險。

第二層：100 分質量診斷

它不是靠“感覺不錯”評估 skill，而是拆成 8 個維度打分。

維度	分值	看什麼
Structural Completeness	15	結構是否完整
Constraint Density	15	規則是不是具體
Output Consumability	15	輸出能不能直接用
DoD Verifiability	15	完成標準能不能檢查
Input Resolution	10	輸入來源是否清楚
Recovery Design	10	出錯後有沒有路
Context Economy	10	是否節省上下文
Behavioral Guardrails	10	是否防止偷懶和誤判

這裏的重點不是“總分越高越好”。

更重要的是找弱點。比如一個 skill 總分 82，但沒有明確邊界，那仍然是硬傷。

因為有些問題不是扣幾分的問題，而是阻斷器。

比如：

description 沒說清楚何時觸發
沒有寫“不做什麼”
需要結構化輸出，卻只給一段散文
高風險流程沒有失敗路徑
完成標準無法驗證
盲目信任 worker 或 Agent 的口頭結果

這些問題不解決，分數再高也不可靠。

第三層：反模式掃描

meta-skill-creator 還把常見壞味道整理成反模式。

有些名字很直白：

反模式	真實含義
God Skill	一個 skill 什麼都想管
No Failure Paths	只寫成功路徑，不寫失敗怎麼辦
Blind Trust of Agent Output	worker 說做完就相信
Eval Overfitting	用測試集反饋反覆調，成績虛高
Benchmark Cherry-Picking	只展示贏的案例

這一步很像代碼審查裏的 checklist。

不是因為作者不認真，而是因為人和模型都會漏掉熟悉的坑。

測試結果：到底強了多少

接下來講數據。

評測不是讓自己看自己。它用了兩個獨立評審：

Claude Opus 4.7
GPT-5.4 Codex

方法是盲評。也就是把兩個輸出標成 A / B，不告訴評審哪個來自 Anthropic，哪個來自 Meta。評審只看質量，不看名字。

一共做了 3 套測試：

Suite	測什麼	案例數	獨立判斷數
Suite 1: Creation	從零生成新 SKILL.md	8	16
Suite 2: Improvement	修復有缺陷的 skill	3	6
Suite 3: Complex	生成多文件 skill 包	3	6
總計	覆蓋約 50% skill-creator 生命週期	14	28

總結果：


Suite 1（創建）     Meta 10 : 5 Anthropic + 1 tie
Suite 2（改進）     Meta  6 : 0 Anthropic
Suite 3（複雜）     Meta  5 : 1 Anthropic

總計                Meta 21 : 6 Anthropic + 1 tie
Meta 勝率           75.0%

這組數據裏，最重要的不是總勝率，而是分佈。

Suite 1：從零創建 skill

8 個案例覆蓋 8 種原型。

案例	原型	結果傾向
Conventional Commit Generator	Standalone Utility	Meta 雙評審勝
Python API Security Reviewer	Quality Checker	分歧
Release Coordinator	Coordinator	分歧
Bug Report Router	Orchestrator	分歧
Incident Response	Methodology / Process	分歧
PostgreSQL Index Advisor	Knowledge / Reference	分歧
Technical Blog Outline	Creative / Generative	Meta 雙評審勝
Skill Auditor	Meta-Skill	Meta 雙評審勝

這說明 Meta 不是在所有場景碾壓。

它在“要產出可複用 skill 工件”的場景更強。
Anthropic 在“解釋性、教學性、對新手更友好”的場景仍然很強。

這點很重要。否則就變成營銷稿了。

Suite 2：修復壞 skill

這一組最能說明問題。

測試輸入不是從零寫，而是給一個有缺陷的 skill，再給用戶反饋，看誰能修得更系統。

案例	壞在哪裏	結果
i-01	描述太模糊，不知道支持什麼語言和 formatter	Meta 傾向勝
i-02	安全檢查器誤報嚴重	Meta 雙評審勝
i-03	協調器缺少失敗路徑	Meta 傾向勝

Anthropic 在這一組沒有贏。

原因也很直接：修復壞 skill 時，真正難的不是“把句子寫順”，而是找出結構缺陷。

比如誤報嚴重的安全檢查器，不能只寫“注意減少誤報”。它需要檢測規則、置信度規則、證據要求、輸出格式一起改。

這正是 meta-skill-creator 擅長的地方。

Suite 3：複雜多文件 skill

這一組最接近真實工程。

不是隻生成一個 SKILL.md，而是同時涉及：

scripts/
references/
assets/
多文件之間的一致性

這一組 Meta 的結果是 5 : 1。它贏在三個點：

強項	為什麼重要
SKILL.md 和腳本更一致	文檔說能做的事，配套文件也要跟上
references 更像決策資料	不只是解釋概念，還給選擇標準
assets / scripts / references 分工更清楚	複雜 skill 不會堆成一團

這裏能看出 meta-skill-creator 的核心優勢：它更擅長把一個 skill 當成“完整包”來設計，而不是隻寫一個好看的入口文件。

複雜 AI 工作流的提升，往往不是靠更長 prompt，而是靠更好的系統邊界。

但它也不是萬能的

這裏必須講清楚。

meta-skill-creator 並不是所有維度都贏。

Anthropic 仍然更強的地方包括：

解釋性文字更自然
對新手更友好
在某些知識型 skill 裏，領域講解更細膩
在安全審查這類場景裏，有時對誤報更敏感

評測本身也有邊界：

限制	說明
沒有人類評審	用的是 LLM-as-judge，不是人工專家最終裁決
沒測運行時質量	沒有真正長期運行這些 skill
沒覆蓋觸發優化	description precision / recall 還沒單獨測
只覆蓋約 50% 生命週期	還有協作、長期維護、人機反饋沒完全覆蓋

所以更準確的說法不是：

meta-skill-creator 全面超過 Anthropic。

更準確的說法是：

如果你要做團隊級、可維護、可審查、複雜度較高的 skill，meta-skill-creator 更強。

對普通用戶有什麼用

如果你不寫 skill，只是平時用 AI，這件事也有啓發。

因為它說透了一個趨勢：

AI 能力的提升，正在從“更會說話”轉向“更會受控地做事”。

以前我們優化 prompt，重點是讓模型理解我們。
現在我們優化 skill，重點是讓模型在邊界內穩定行動。

這就像從“請你幫我做飯”變成：

菜譜是什麼
食材從哪裏來
什麼情況不能繼續做
做完怎麼驗收
下次怎麼複用

看起來麻煩，但這是從聊天走向工作的必經路。

適合誰用

如果你只是偶爾寫一個小 prompt，不需要它。

但如果你正在做這些事，它就很有用：

把重複工作沉澱成 skill
維護一個 skill 倉庫
改進經常誤觸發的 skill
給 skill 做質量審查
生成帶腳本、參考資料、資產的 skill 包
讓多個 Agent 協作，但又不想盲信它們的口頭彙報
想比較新舊版本，而不是憑感覺說“好像更好了”

一句話：

個人靈感用 prompt，長期複用做 skill。
簡單 skill 看文筆，複雜 skill 看工程。

你也可以自己試着蒸餾

這件事不只適用於 skill-creator。

如果你平時有一類重複工作，也可以用同樣的方法，蒸餾出自己的 skill。

步驟不復雜：

找 5 到 10 個優秀樣本。可以是別人的 skill、你自己的高質量提示詞，也可以是團隊裏反覆使用的 SOP。
不要先抄內容，先拆結構。看它們怎麼觸發、怎麼定義邊界、怎麼處理失敗、怎麼輸出結果。
找共同點。只在一個樣本里出現的，先當作個例；多個樣本獨立出現的，優先提煉成原則。
把原則寫成檢查表。比如“是否有明確不做什麼”“是否有可驗證完成標準”“是否有失敗處理”。
用同一批任務對比舊方法和新 skill。不要只看一個成功案例，至少看創建、改進、複雜情況三類。
讓別人或另一個模型盲評。不要告訴它哪個是新版本，先看結果，再看原因。

真正有用的蒸餾，不是把好句子摘出來。

而是把好結果背後的結構拆出來，再放回自己的工作流裏測試。

最後

meta-skill-creator 最有價值的地方，不是“它能寫 skill”。

Anthropic 的 skill-creator 也能寫。

它真正有價值的地方是：它把“怎麼寫一個好 skill”這件事拆開了。

拆成分類、邊界、結構、評分、反模式、驗證、評測。

這聽起來沒有“AI 自動創造 AI”那麼刺激。

但對真正想把 AI 用進工作流的人來說，這才是更重要的部分。

因為最後決定一個 skill 能不能長期用的，不是它第一次生成時有多驚豔。

而是三個月後，你還敢不敢讓它繼續跑。

一頁總結

問題	答案
meta-skill-creator 是什麼？	一個用來創建、改進、評分、測試其他 skill 的 meta skill
它從哪來？	從 11 個優秀 skill 倉庫中提煉方法，再疊加到 Anthropic skill-creator 上
它提煉了什麼？	20 條架構原則、8 類 skill 原型、質量評分、反模式、驗證流程
它怎麼驗證自己？	14 個測試案例、28 次盲評判斷、Claude + GPT 雙評審
結果如何？	Meta 21 : 6 Anthropic + 1 tie，總勝率 75.0%
它強在哪裏？	複雜、可維護、團隊級、帶腳本和多文件的 skill 工程
Anthropic 還強在哪裏？	敍事、教學、可讀性、新手友好度
讀者能學什麼？	找優秀樣本，拆結構，提煉原則，再用盲評驗證