你寫的AI Agent Skill，可能正在幫倒忙

作者：飛叔AI沉思錄

日期：2026年6月8日下午5:07

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

AI Agent Skill嘅核心係教AI「教AI」：提取比執行難，直覺信唔過，本質係重塑策略

整理版摘要

呢篇文章整合咗微軟研究院最新論文《From Raw Experience to Skill Consumption》同埋Huashu Design作者花叔嘅實戰經驗，揭示咗AI Agent Skill系統嘅三個反直覺真相。作者發現，好多開發者以為寫Skill好簡單，但其實Skill嘅提取、評估同消費都有深層陷阱。整體結論係：Skill系統嘅本質唔係幫AI更快完成任務，而係幫AI將經驗轉化為可複用嘅知識。

論文通過實驗指出，更好嘅執行器未必係更好嘅提取器——GPT-5.4執行最強但提取最弱，反而輕量模型Gemini-3.1-Flash-Lite提取效能最高，因為提取係「翻譯」能力而唔係「執行」能力。同時，人類直覺認為流暢完整嘅Skill，實際表現往往更差，例如低ΔSkill「編碼前解決合約」看似完美但冇用，高ΔSkill「當宿主引擎唔評估公式字符串時預先計算靜態值」先真正有效。花叔嘅「撞、借、請」三套邏輯同樣係逼AI跳出舒適區，而唔係俾多啲選項。

最後，Skill消費唔係加載工具，而係重塑模型嘅默認策略：同一Skill喺GPT-5.4同Qwen3.5-9B上會產生完全唔同嘅行為模式。經驗池嘅構成亦需要因應領域設計——失敗案例喺ALFWorld中有用，成功案例喺SpreadsheetBench先關鍵。作者提醒實戰者：唔好信直覺要信A/B測試，經驗池要精心設計，Skill適配係每目標屬性。

結論：Skill提取需要「翻譯」能力，唔係「執行」能力，揀提取器要揀會講清楚步驟嘅人，而唔係最強執行者。
方法：用A/B測試驗證Skill效果，關注三個維度：失敗機制編碼、可執行具體性、高風險動作黑名單；避免只睇「讀起嚟順唔順」。
差異：讀起嚟好嘅Skill往往表現更差——流暢完整同解決問題係兩回事，通用建議會降低性能。
啟發：Skill唔係附加插件，而係操作系統，會重塑模型嘅默認策略，所以要針對唔同模型調整表達方式。
可行動點：經驗池要根據領域特性設計，例如調試任務要多啲失敗案例，設計任務要強制探索多樣性（如花叔嘅「撞、借、請」）。

整理重點

真相一：執行高手唔等於提取高手

微軟團隊喺SpreadsheetBench任務上做咗個實驗，結果好反直覺：GPT-5.4作為執行器表現最強，但作為提取器排名最後；相反，輕量級模型Gemini-3.1-Flash-Lite實現咗最高提取效能。點解會咁？因為Skill提取同任務執行係兩種唔同能力——執行器要「完成任務」，提取器要「將過程翻譯成說明書」。

花叔嘅Huashu Design都印證呢個邏輯：俾AI「執行」設計唔難，難嘅係令AI將設計過程「翻譯」成可複用嘅Skill。AI好容易俾啲通用建議（「要做個好設計」），而唔係具體補救措施（「Excel引擎唔評估公式字符串時要預先計算靜態值」）。微軟論文驗證咗：通用建議往往無效，具體補救措施先真正有用。

整理重點

真相二：睇起嚟順眼嘅Skill，往往最冇用

另一個震驚數據：微軟團隊用GPT-5.4做「評委」判斷兩個Skill文本嘅質量，準確率得46.4%，同隨機掟銀仔冇分別。更誇張嘅係，當兩個Skill真實性能差距超過5%時，評委反而揀中讀起嚟更好但實際更差嘅Skill，準確率得15.8%。

原因係：人類同AI嘅直覺傾向「流暢、完整、邏輯清晰」，但呢啲特徵同「能解決問題」係兩回事。論文舉例：低ΔSkill「編碼前解決合約，注意邊界條件」——讀起嚟完美，但係空話；高ΔSkill「當宿主引擎唔評估公式字符串時，預先計算靜態值」——讀起嚟具體，針對性極強。花叔嘅「圖片前置」都係呢個邏輯：唔係話「要做高質量內容」，而係具體指出「鸚鵡科普網站冇鸚鵡圖就係失敗」。

整理重點

真相三：Skill係操作系統，唔係插件

同一份Skill喺唔同模型上效果天差地別：強池Skill喺Gemini-3.1-Pro提升+1.8%，喺Qwen3.5-35B提升+9.5%；弱池Skill喺GPT-5.4反而-2.0%。點解？因為Skill消費唔係「加載一個工具」，而係「重塑默認策略」。

論文分析兩個模型：GPT-5.4消費Skill後，策略變成「評估者對齊的計算和驗證」；Qwen3.5-9B消費Skill後，策略變成「複雜的工作簿原生工作流」。同一份Skill，喺唔同模型嘅「操作系統」裏被解釋成完全唔同嘅行為。花叔嘅「撞、借、請」都係呢個邏輯：唔係俾AI三個新工具，而係改變AI嘅「操作系統」——從「揀最安全風格」變成「主動探索三種可能性」。

整理重點

經驗池嘅陷阱：食譜唔啱，技巧再好都冇用

微軟團隊測試咗五種經驗池（成功率100%到0%），發現唔同領域嘅「有用經驗」完全唔同：ALFWorld呢啲具身規劃任務，失敗案例揭示無效動作同死衚衕——失敗本身就係信息；SpreadsheetBench呢啲表格任務，成功軌跡展示可行計算路徑——成功先係信息。但有一點共通：全失敗嘅池始終最差，因為成功軌跡提供「點樣行」，失敗軌跡提供「唔好行邊度」，得知道「點樣行」先真正前進。

花叔嗰套「撞、借、請」點解有效？因為佢針對「設計」呢個領域——設計需要多樣性，所以強制AI探索三種可能性。如果係代碼調試，經驗策略就應該完全相反：需要更多失敗案例去揭示bug模式。

前言

兩日前，Huashu Design——呢個GitHub上16k+ star項目嘅作者花叔喺錄B站教學時發現一個問題：v1版內置20種設計風格，原意係為咗多樣性，結果全部收斂成「安全極簡風」。

問題出喺邊？

喺模糊需求面前，AI會自動匿入佢最熟、最唔會出錯嘅安全角落。花叔後來總結出「撞、借、請」三套邏輯——靠運氣隨機、借獲獎作品手法、請大師由頭諗——逼AI跳出舒適區。

花叔呢篇文章揭示咗一個深層問題：AI Agent需要「skill」，但skill唔係簡單嘅工具箱。

微軟研究院最近發表嘅論文《From Raw Experience to Skill Consumption》（arXiv 2605.23899），對Agent Skill進行咗系統性研究，發現咗三個反直覺嘅真相。

真相一：更好嘅執行器，唔一定係更好嘅提取器

數據講反話

喺SpreadsheetBench任務上，微軟團隊做咗一個實驗：

GPT-5.4：作為執行器表現最強，但作為提取器排名最後

Gemini-3.1-Flash-Lite：輕量級模型，卻實現咗最高嘅提取效能（EE）

點解？

因為Skill提取同任務執行係兩種唔同嘅能力。

執行器要嘅係「完成任務」，提取器要嘅係「將完成過程翻譯成人哋睇得明嘅說明書」。

Huashu Design嘅「撞、借、請」都係呢個邏輯：叫AI「執行」設計唔難，難嘅係叫AI將設計過程「翻譯」成可複用嘅Skill。AI淨係會俾通用建議（「要做個好設計」），而唔係具體補救措施（「Excel引擎唔評估公式字符串時要預先計算靜態值」）。

微軟論文驗證咗呢一點：通用建議通常冇用，具體補救措施先至真正有用。

實戰啟示

選擇提取器 ≠ 選擇最強模型

Skill提取係「翻譯」能力，唔係「執行」能力。你需要嘅係能夠將過程講得清楚嘅人，而唔係能夠將事情做到完美嘅人。

就好似煮餸，最好嘅廚師唔一定寫到最好嘅食譜。食譜需要嘅係清晰嘅步驟、明確嘅份量、可重現嘅細節——呢啲唔係手藝，而係另一種能力。

真相二：睇起嚟越好嘅Skill，表現往往越差

一個令人震驚嘅數據

微軟團隊叫GPT-5.4做「評判」，睇兩個Skill文本，邊個質量高啲。

準確率：46.4%。

同隨機擲銀冇分別。

更恐怖嘅係，當兩個Skill嘅真實性能差距超過5%時，評判反而揀啱得15.8%——讀起嚟更好嘅Skill，實際表現更差。

點解？

因為人類（同AI）嘅直覺傾向於「流暢、完整、邏輯清晰」，但呢啲特徵同「能夠解決問題」係兩回事。

論文入面舉咗個例子：

低ΔSkill：「編碼前解決合約，注意邊界條件，測試所有場景」——讀起嚟完美，全部都係正確但空泛嘅建議

高ΔSkill：「當宿主引擎唔評估公式字符串時，預先計算靜態值」——讀起嚟具體，針對性極強

Huashu Design嘅「圖片前置」都係呢個邏輯：唔係籠統咁話「要做高質量內容」，而係具體指出「鸚鵡科普網站冇鸚鵡圖就係失敗」。

實戰啟示

唔好信直覺，要信A/B測試

Skill好唔好，唔可以靠「讀起嚟順唔順」，要睇「用起嚟靈唔靈」。

微軟團隊最終發現，真正有用嘅得三個維度：

失敗機制編碼：明確指出咩會失敗
可執行具體性：俾出嘅係鬱得手嘅具體步驟
高風險動作黑名單：話俾用戶知唔好掂咩

通用建議（清晰度、完整性、邏輯結構）反而會降低性能——因為佢令Skill變「順」咗，但亦都變「空」咗。

真相三：Skill唔係附加插件，而係操作系統

點解同一個Skill，喺唔同模型上效果差天共地？

微軟團隊將同一個Skill用喺六個模型上：

強池Skill：喺Gemini-3.1-Pro上提升+1.8%，喺Qwen3.5-35B上提升+9.5%

弱池Skill：喺GPT-5.4上反而-2.0%，喺其他模型上只係小幅提升

點解？

因為Skill消費唔係「加載一個工具」，而係「重塑默認策略」。

論文分析咗兩個對比模型：

GPT-5.4：消費Skill後，策略變成「評估者對齊嘅計算同驗證」

Qwen3.5-9B：消費Skill後，策略變成「複雜嘅工作簿原生工作流」

同一份Skill，喺唔同模型嘅「操作系統」入面，被解讀成完全唔同嘅行為模式。

Huashu Design嘅「撞、借、請」都係呢個邏輯：佢唔係俾AI加咗三個新工具，而係改變咗AI嘅「操作系統」——由「選擇最安全嘅風格」變成「主動探索三種可能性」。

實戰啟示

Skill適配係每個目標屬性

唔好期望一個Skill可以喺所有模型上運作。

Skill嘅作用係「重塑策略」，而唔同模型嘅默認策略唔同，所以同一Skill會產生完全唔同嘅重塑效果。

就好似俾Windows裝Mac風格嘅界面，同俾Mac裝Windows風格嘅界面——雖然都係「換個界面」，但底層系統嘅兼容性完全唔同。

最大嘅陷阱：經驗池嘅構成，決定咗Skill嘅天花板

經驗唔係越多越好

微軟團隊測試咗五種經驗池：成功率100%、75%、50%、25%、0%。

結果：

SpreadsheetBench：偏向更多成功軌跡

SWE-bench-Verified：喺主要成功嘅池中達到峯值

ALFWorld：喺失敗較多嘅池中表現最佳

點解？

因為唔同領域嘅「有用經驗」唔同。

喺ALFWorld呢類具身規劃任務中，失敗嘅嘗試經常揭示無效動作同死衚衕——失敗本身就係資訊。

喺SpreadsheetBench呢類表格任務中，成功軌跡展示嘅係可行嘅計算路徑——成功本身就係資訊。

但有一點係共通嘅：全部失敗嘅池始終最差。

因為成功軌跡提供嘅係「點樣行」，失敗軌跡提供嘅係「唔好行邊」。只有知道「點樣行」，先至真正前進。

實戰啟示

唔好用同一套經驗策略應對所有領域

Huashu Design嘅「撞、借、請」點解有效？因為佢針對「設計」呢個領域嘅特點：設計需要多樣性，所以強制AI探索三種可能性。

如果你嘅任務係程式碼除錯，經驗策略應該完全唔同——可能需要更多失敗案例，因為失敗案例能夠揭示bug模式。

經驗池嘅構成，係Skill系統嘅「食譜」。食譜唔啱，技巧再好都整唔出好嘢。

最後嘅洞察：Skill系統嘅本質

微軟論文嘅最後一句話講得好好：

我哋將呢啲貢獻將智能體Skill提取從啟發式、直覺驅動嘅實踐轉向基於原則、以效用為基礎嘅學科。

但我想再進一步：Skill系統嘅本質，係令AI學識「教AI」。

Huashu Design嘅作者講得啱：

我以前以為AI設計工具嘅價值係幫我更快做出我本來想做嘅嘢。用咗我先明白，真正值錢嘅係佢俾咗一版我自己根本諗唔到、但一眼就服嘅方案。

當「做出嚟」越嚟越平，剩下唯一難嘅就係知道「應該揀邊個」。

Skill系統嘅價值唔係幫AI更快完成任務，而係幫AI學識將「經驗」轉化為「可複用嘅知識」。

呢個唔係工具，呢個係進化嘅開始。

俾實戰者嘅三個建議

1. 唔好迷信「讀起嚟好」

用A/B測試驗證Skill效果。留意三個維度：失敗機制編碼、可執行具體性、高風險動作黑名單。

2. 經驗池要精心設計

明確你嘅領域特性，設計適合嘅經驗構成策略。唔好照搬人哋嘅配方。

3. Skill適配係每個目標屬性

針對唔同模型調整Skill表達方式。Skill係重塑策略，唔係加載工具。

前言

兩天前，Huashu Design-這個GitHub上16k+ star項目的作者花叔在錄B站教學時發現一個問題：v1版內置20種設計風格，本意是為了多樣性，結果全收斂成了"安全極簡風"。

問題出在哪？

在模糊需求面前，AI會自動躲進它最熟、最不會出錯的那個安全角落。花叔後來總結出"撞、借、請"三套邏輯——靠運氣隨機、借獲獎作品手法、請大師從頭想——逼AI跳出舒適區。

花叔的這篇文章揭示了一個深刻問題：AI Agent需要"skill"，但skill不是簡單的工具箱。

微軟研究院最近發表的論文《From Raw Experience to Skill Consumption》（arXiv 2605.23899），對Agent Skill進行了系統性研究，發現了三個反直覺的真相。

真相一：更好的執行器，不一定是更好的提取器

數據說反話

在SpreadsheetBench任務上，微軟團隊做了一個實驗：

GPT-5.4：作為執行器表現最強，但作為提取器排名最後

Gemini-3.1-Flash-Lite：輕量級模型，卻實現了最高的提取效能（EE）

為什麼？

因為Skill提取和任務執行是兩種不同的能力。

執行器要的是"完成任務"，提取器要的是"把完成過程翻譯成別人能看懂的說明書"。

Huashu Design的"撞、借、請"也是這個邏輯：讓AI"執行"設計不難，難的是讓AI把設計過程"翻譯"成可複用的Skill。AI只會給出通用建議（"要做個好設計"），而不是具體補救措施（"Excel引擎不評估公式字符串時要預先計算靜態值"）。

微軟論文驗證了這一點：通用建議往往無效，具體補救措施才真正有用。

實戰啓示

選擇提取器 ≠ 選擇最強模型

Skill提取是"翻譯"能力，不是"執行"能力。你需要的是能把過程講清楚的人，而不是能把事情做到完美的人。

就像做菜，最好的廚師不一定能寫出最好的菜譜。菜譜需要的是清晰的步驟、明確的量、可復現的細節——這些不是手藝，而是另一種能力。

真相二：讀起來越好的Skill，往往表現越差

一個令人震驚的數據

微軟團隊讓GPT-5.4當"評委"，看兩個Skill文本，哪個質量更高。

準確率：46.4%。

跟隨機扔硬幣沒區別。

更可怕的是，當兩個Skill的真實性能差距超過5%時，評委反而選對了只有15.8%——讀起來更好的Skill，實際表現更差。

為什麼？

因為人類（和AI）的直覺傾向於"流暢、完整、邏輯清晰"，但這些特徵跟"能解決問題"不是一回事。

論文裏舉了個例子：

低ΔSkill："編碼前解決合約，注意邊界條件，測試所有場景"——讀起來完美，全是正確但空洞的建議

高ΔSkill："當宿主引擎不評估公式字符串時，預先計算靜態值"——讀起來具體，針對性極強

Huashu Design的"圖片前置"也是這個邏輯：不是泛泛地說"要做高質量內容"，而是具體指出"鸚鵡科普網站沒有鸚鵡圖就是失敗"。

實戰啓示

不要相信直覺，要相信A/B測試

Skill好不好，不能靠"讀起來順不順"，要靠"用起來靈不靈"。

微軟團隊最終發現，真正有用的只有三個維度：

失敗機制編碼：明確指出什麼會失敗
可執行具體性：給的是能動手的具體步驟
高風險動作黑名單：告訴用戶別碰什麼

通用建議（清晰度、完整性、邏輯結構）反而會降低性能——因為它讓Skill變"順"了，但也變"空"了。

真相三：Skill不是附加插件，而是操作系統

為什麼同一Skill，在不同模型上效果天差地別？

微軟團隊把同一個Skill用在六個模型上：

強池Skill：在Gemini-3.1-Pro上提升+1.8%，在Qwen3.5-35B上提升+9.5%

弱池Skill：在GPT-5.4上反而-2.0%，在其他模型上只小幅提升

為什麼？

因為Skill消費不是"加載一個工具"，而是"重塑默認策略"。

論文分析了兩個對比模型：

GPT-5.4：消費Skill後，策略變成"評估者對齊的計算和驗證"

Qwen3.5-9B：消費Skill後，策略變成"複雜的工作簿原生工作流"

同一份Skill，在不同模型的"操作系統"裏，被解釋成了完全不同的行為模式。

Huashu Design的"撞、借、請"也是這個邏輯：它不是給AI加了三個新工具，而是改變了AI的"操作系統"——從"選擇最安全的風格"變成"主動探索三種可能性"。

實戰啓示

Skill適配是每目標屬性

不要期望一個Skill能在所有模型上工作。

Skill的作用是"重塑策略"，而不同模型的默認策略不同，所以同一Skill會產生完全不同的重塑效果。

就像給Windows裝Mac風格的界面，和給Mac裝Windows風格的界面——雖然都是"換個界面"，但底層系統的兼容性完全不同。

最大的陷阱：經驗池的構成，決定了Skill的天花板

經驗不是越多越好

微軟團隊測試了五種經驗池：成功率100%、75%、50%、25%、0%。

結果：

SpreadsheetBench：偏向更多成功軌跡

SWE-bench-Verified：在主要成功的池中達到峯值

ALFWorld：在失敗較多的池中表現最佳

為什麼？

因為不同領域的"有用經驗"不同。

在ALFWorld這種具身規劃任務中，失敗的嘗試經常揭示無效動作和死衚衕——失敗本身就是信息。

在SpreadsheetBench這種表格任務中，成功軌跡展示的是可行的計算路徑——成功本身就是信息。

但有一點是共通的：全失敗的池始終最差。

因為成功軌跡提供的是"怎麼走"，失敗軌跡提供的是"別走哪"。只有知道"怎麼走"，才能真正前進。

實戰啓示

不要用同一套經驗策略對付所有領域

Huashu Design的"撞、借、請"為什麼有效？因為它針對"設計"這個領域的特點：設計需要多樣性，所以強制AI探索三種可能性。

如果你的任務是代碼調試，經驗策略應該完全不同——可能需要更多失敗案例，因為失敗案例能揭示bug模式。

經驗池的構成，是Skill系統的"食譜"。食譜不對，技巧再好也做不出好菜。

最後的洞察：Skill系統的本質

微軟論文的最後一句話說得很好：

我們將這些貢獻將智能體Skill提取從啓發式、直覺驅動的實踐轉向基於原則、以效用為基礎的學科。

但我想更進一步：Skill系統的本質，是讓AI學會"教AI"。

Huashu Design的作者說得對：

我以前以為AI設計工具的價值是幫我更快做出我本來想做的東西。用了它我才明白，真正值錢的是它給了我一版我自己根本想不到、但一眼就服的方案。

當"做出來"越來越便宜，剩下唯一難的就是知道"該選哪個"。

Skill系統的價值不是幫AI更快完成任務，而是幫AI學會把"經驗"轉化為"可複用的知識"。

這不是工具，這是進化的開始。

給實戰者的三個建議

1. 不要迷信"讀起來好"

用A/B測試驗證Skill效果。關注三個維度：失敗機制編碼、可執行具體性、高風險動作黑名單。

2. 經驗池要精心設計

明確你的領域特性，設計適合的經驗構成策略。不要套用別人的配方。

3. Skill適配是每目標屬性

針對不同模型調整Skill表達方式。Skill是重塑策略，不是加載工具。