你寫的AI Agent Skill,可能正在幫倒忙

作者:飛叔AI沉思錄
日期:2026年6月8日 下午5:07
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI Agent Skill嘅核心係教AI「教AI」:提取比執行難,直覺信唔過,本質係重塑策略

整理版摘要

呢篇文章整合咗微軟研究院最新論文《From Raw Experience to Skill Consumption》同埋Huashu Design作者花叔嘅實戰經驗,揭示咗AI Agent Skill系統嘅三個反直覺真相。作者發現,好多開發者以為寫Skill好簡單,但其實Skill嘅提取、評估同消費都有深層陷阱。整體結論係:Skill系統嘅本質唔係幫AI更快完成任務,而係幫AI將經驗轉化為可複用嘅知識。

論文通過實驗指出,更好嘅執行器未必係更好嘅提取器——GPT-5.4執行最強但提取最弱,反而輕量模型Gemini-3.1-Flash-Lite提取效能最高,因為提取係「翻譯」能力而唔係「執行」能力。同時,人類直覺認為流暢完整嘅Skill,實際表現往往更差,例如低ΔSkill「編碼前解決合約」看似完美但冇用,高ΔSkill「當宿主引擎唔評估公式字符串時預先計算靜態值」先真正有效。花叔嘅「撞、借、請」三套邏輯同樣係逼AI跳出舒適區,而唔係俾多啲選項。

最後,Skill消費唔係加載工具,而係重塑模型嘅默認策略:同一Skill喺GPT-5.4Qwen3.5-9B上會產生完全唔同嘅行為模式。經驗池嘅構成亦需要因應領域設計——失敗案例喺ALFWorld中有用,成功案例喺SpreadsheetBench先關鍵。作者提醒實戰者:唔好信直覺要信A/B測試,經驗池要精心設計,Skill適配係每目標屬性。

  • 結論:Skill提取需要「翻譯」能力,唔係「執行」能力,揀提取器要揀會講清楚步驟嘅人,而唔係最強執行者。
  • 方法:用A/B測試驗證Skill效果,關注三個維度:失敗機制編碼、可執行具體性、高風險動作黑名單;避免只睇「讀起嚟順唔順」。
  • 差異:讀起嚟好嘅Skill往往表現更差——流暢完整同解決問題係兩回事,通用建議會降低性能。
  • 啟發:Skill唔係附加插件,而係操作系統,會重塑模型嘅默認策略,所以要針對唔同模型調整表達方式。
  • 可行動點:經驗池要根據領域特性設計,例如調試任務要多啲失敗案例,設計任務要強制探索多樣性(如花叔嘅「撞、借、請」)。
整理重點

真相一:執行高手唔等於提取高手

微軟團隊喺SpreadsheetBench任務上做咗個實驗,結果好反直覺:GPT-5.4作為執行器表現最強,但作為提取器排名最後;相反,輕量級模型Gemini-3.1-Flash-Lite實現咗最高提取效能。點解會咁?因為Skill提取同任務執行係兩種唔同能力——執行器要「完成任務」,提取器要「將過程翻譯成說明書」。

花叔嘅Huashu Design都印證呢個邏輯:俾AI「執行」設計唔難,難嘅係令AI將設計過程「翻譯」成可複用嘅Skill。AI好容易俾啲通用建議(「要做個好設計」),而唔係具體補救措施(「Excel引擎唔評估公式字符串時要預先計算靜態值」)。微軟論文驗證咗:通用建議往往無效,具體補救措施先真正有用。

整理重點

真相二:睇起嚟順眼嘅Skill,往往最冇用

另一個震驚數據:微軟團隊用GPT-5.4做「評委」判斷兩個Skill文本嘅質量,準確率得46.4%,同隨機掟銀仔冇分別。更誇張嘅係,當兩個Skill真實性能差距超過5%時,評委反而揀中讀起嚟更好但實際更差嘅Skill,準確率得15.8%。

原因係:人類同AI嘅直覺傾向「流暢、完整、邏輯清晰」,但呢啲特徵同「能解決問題」係兩回事。論文舉例:低ΔSkill「編碼前解決合約,注意邊界條件」——讀起嚟完美,但係空話;高ΔSkill「當宿主引擎唔評估公式字符串時,預先計算靜態值」——讀起嚟具體,針對性極強。花叔嘅「圖片前置」都係呢個邏輯:唔係話「要做高質量內容」,而係具體指出「鸚鵡科普網站冇鸚鵡圖就係失敗」。

整理重點

真相三:Skill係操作系統,唔係插件

同一份Skill喺唔同模型上效果天差地別:強池Skill喺Gemini-3.1-Pro提升+1.8%,喺Qwen3.5-35B提升+9.5%;弱池Skill喺GPT-5.4反而-2.0%。點解?因為Skill消費唔係「加載一個工具」,而係「重塑默認策略」。

論文分析兩個模型GPT-5.4消費Skill後,策略變成「評估者對齊的計算和驗證」;Qwen3.5-9B消費Skill後,策略變成「複雜的工作簿原生工作流」。同一份Skill,喺唔同模型嘅「操作系統」裏被解釋成完全唔同嘅行為。花叔嘅「撞、借、請」都係呢個邏輯:唔係俾AI三個新工具,而係改變AI嘅「操作系統」——從「揀最安全風格」變成「主動探索三種可能性」。

整理重點

經驗池嘅陷阱:食譜唔啱,技巧再好都冇用

微軟團隊測試咗五種經驗池(成功率100%到0%),發現唔同領域嘅「有用經驗」完全唔同:ALFWorld呢啲具身規劃任務,失敗案例揭示無效動作同死衚衕——失敗本身就係信息;SpreadsheetBench呢啲表格任務,成功軌跡展示可行計算路徑——成功先係信息。但有一點共通:全失敗嘅池始終最差,因為成功軌跡提供「點樣行」,失敗軌跡提供「唔好行邊度」,得知道「點樣行」先真正前進。

花叔嗰套「撞、借、請」點解有效?因為佢針對「設計」呢個領域——設計需要多樣性,所以強制AI探索三種可能性。如果係代碼調試,經驗策略就應該完全相反:需要更多失敗案例去揭示bug模式。

圖片

前言

兩日前,Huashu Design——呢個GitHub上16k+ star項目嘅作者花叔喺錄B站教學時發現一個問題:v1版內置20種設計風格,原意係為咗多樣性,結果全部收斂成「安全極簡風」。

問題出喺邊?

喺模糊需求面前,AI會自動匿入佢最熟、最唔會出錯嘅安全角落。花叔後來總結出「撞、借、請」三套邏輯——靠運氣隨機、借獲獎作品手法、請大師由頭諗——逼AI跳出舒適區。
花叔呢篇文章揭示咗一個深層問題:AI Agent需要「skill」,但skill唔係簡單嘅工具箱。
微軟研究院最近發表嘅論文《From Raw Experience to Skill Consumption》(arXiv 2605.23899),對Agent Skill進行咗系統性研究,發現咗三個反直覺嘅真相。

真相一:更好嘅執行器,唔一定係更好嘅提取器

數據講反話

喺SpreadsheetBench任務上,微軟團隊做咗一個實驗:
GPT-5.4:作為執行器表現最強,但作為提取器排名最後
Gemini-3.1-Flash-Lite:輕量級模型,卻實現咗最高嘅提取效能(EE)

點解?

因為Skill提取同任務執行係兩種唔同嘅能力。
執行器要嘅係「完成任務」,提取器要嘅係「將完成過程翻譯成人哋睇得明嘅說明書」。
Huashu Design嘅「撞、借、請」都係呢個邏輯:叫AI「執行」設計唔難,難嘅係叫AI將設計過程「翻譯」成可複用嘅Skill。AI淨係會俾通用建議(「要做個好設計」),而唔係具體補救措施(「Excel引擎唔評估公式字符串時要預先計算靜態值」)。
微軟論文驗證咗呢一點:通用建議通常冇用,具體補救措施先至真正有用。

實戰啟示

選擇提取器 ≠ 選擇最強模型

Skill提取係「翻譯」能力,唔係「執行」能力。你需要嘅係能夠將過程講得清楚嘅人,而唔係能夠將事情做到完美嘅人。
就好似煮餸,最好嘅廚師唔一定寫到最好嘅食譜。食譜需要嘅係清晰嘅步驟、明確嘅份量、可重現嘅細節——呢啲唔係手藝,而係另一種能力。

真相二:睇起嚟越好嘅Skill,表現往往越差

圖片

一個令人震驚嘅數據

微軟團隊叫GPT-5.4做「評判」,睇兩個Skill文本,邊個質量高啲。
準確率:46.4%。
同隨機擲銀冇分別。
更恐怖嘅係,當兩個Skill嘅真實性能差距超過5%時,評判反而揀啱得15.8%——讀起嚟更好嘅Skill,實際表現更差。

點解?

因為人類(同AI)嘅直覺傾向於「流暢、完整、邏輯清晰」,但呢啲特徵同「能夠解決問題」係兩回事。
論文入面舉咗個例子:
低ΔSkill:「編碼前解決合約,注意邊界條件,測試所有場景」——讀起嚟完美,全部都係正確但空泛嘅建議
高ΔSkill:「當宿主引擎唔評估公式字符串時,預先計算靜態值」——讀起嚟具體,針對性極強
Huashu Design嘅「圖片前置」都係呢個邏輯:唔係籠統咁話「要做高質量內容」,而係具體指出「鸚鵡科普網站冇鸚鵡圖就係失敗」。

實戰啟示

唔好信直覺,要信A/B測試

Skill好唔好,唔可以靠「讀起嚟順唔順」,要睇「用起嚟靈唔靈」。
微軟團隊最終發現,真正有用嘅得三個維度:
  1. 失敗機制編碼:明確指出咩會失敗
  2. 可執行具體性:俾出嘅係鬱得手嘅具體步驟
  3. 高風險動作黑名單:話俾用戶知唔好掂咩
通用建議(清晰度、完整性、邏輯結構)反而會降低性能——因為佢令Skill變「順」咗,但亦都變「空」咗。

真相三:Skill唔係附加插件,而係操作系統

點解同一個Skill,喺唔同模型上效果差天共地?

微軟團隊將同一個Skill用喺六個模型上:
強池Skill:喺Gemini-3.1-Pro上提升+1.8%,喺Qwen3.5-35B上提升+9.5%
弱池Skill:喺GPT-5.4上反而-2.0%,喺其他模型上只係小幅提升

點解?

因為Skill消費唔係「加載一個工具」,而係「重塑默認策略」。
論文分析咗兩個對比模型:
GPT-5.4:消費Skill後,策略變成「評估者對齊嘅計算同驗證」
Qwen3.5-9B:消費Skill後,策略變成「複雜嘅工作簿原生工作流」
同一份Skill,喺唔同模型嘅「操作系統」入面,被解讀成完全唔同嘅行為模式。
Huashu Design嘅「撞、借、請」都係呢個邏輯:佢唔係俾AI加咗三個新工具,而係改變咗AI嘅「操作系統」——由「選擇最安全嘅風格」變成「主動探索三種可能性」。

實戰啟示

Skill適配係每個目標屬性

唔好期望一個Skill可以喺所有模型上運作。
Skill嘅作用係「重塑策略」,而唔同模型嘅默認策略唔同,所以同一Skill會產生完全唔同嘅重塑效果。
就好似俾Windows裝Mac風格嘅界面,同俾Mac裝Windows風格嘅界面——雖然都係「換個界面」,但底層系統嘅兼容性完全唔同。

最大嘅陷阱:經驗池嘅構成,決定咗Skill嘅天花板

經驗唔係越多越好

微軟團隊測試咗五種經驗池:成功率100%、75%、50%、25%、0%。
結果:
SpreadsheetBench:偏向更多成功軌跡
SWE-bench-Verified:喺主要成功嘅池中達到峯值
ALFWorld:喺失敗較多嘅池中表現最佳

點解?

因為唔同領域嘅「有用經驗」唔同。
喺ALFWorld呢類具身規劃任務中,失敗嘅嘗試經常揭示無效動作同死衚衕——失敗本身就係資訊。
喺SpreadsheetBench呢類表格任務中,成功軌跡展示嘅係可行嘅計算路徑——成功本身就係資訊。
但有一點係共通嘅:全部失敗嘅池始終最差。
因為成功軌跡提供嘅係「點樣行」,失敗軌跡提供嘅係「唔好行邊」。只有知道「點樣行」,先至真正前進。

實戰啟示

唔好用同一套經驗策略應對所有領域

Huashu Design嘅「撞、借、請」點解有效?因為佢針對「設計」呢個領域嘅特點:設計需要多樣性,所以強制AI探索三種可能性。
如果你嘅任務係程式碼除錯,經驗策略應該完全唔同——可能需要更多失敗案例,因為失敗案例能夠揭示bug模式。
經驗池嘅構成,係Skill系統嘅「食譜」。食譜唔啱,技巧再好都整唔出好嘢。

最後嘅洞察:Skill系統嘅本質

微軟論文嘅最後一句話講得好好:
我哋將呢啲貢獻將智能體Skill提取從啟發式、直覺驅動嘅實踐轉向基於原則、以效用為基礎嘅學科。
但我想再進一步:Skill系統嘅本質,係令AI學識「教AI」。
Huashu Design嘅作者講得啱:
我以前以為AI設計工具嘅價值係幫我更快做出我本來想做嘅嘢。用咗我先明白,真正值錢嘅係佢俾咗一版我自己根本諗唔到、但一眼就服嘅方案。
當「做出嚟」越嚟越平,剩下唯一難嘅就係知道「應該揀邊個」。
Skill系統嘅價值唔係幫AI更快完成任務,而係幫AI學識將「經驗」轉化為「可複用嘅知識」。
呢個唔係工具,呢個係進化嘅開始。

俾實戰者嘅三個建議

1. 唔好迷信「讀起嚟好」

用A/B測試驗證Skill效果。留意三個維度:失敗機制編碼、可執行具體性、高風險動作黑名單。

2. 經驗池要精心設計

明確你嘅領域特性,設計適合嘅經驗構成策略。唔好照搬人哋嘅配方。

3. Skill適配係每個目標屬性

針對唔同模型調整Skill表達方式。Skill係重塑策略,唔係加載工具。
圖片

圖片

前言

兩天前,Huashu Design-這個GitHub上16k+ star項目的作者花叔在錄B站教學時發現一個問題:v1版內置20種設計風格,本意是為了多樣性,結果全收斂成了"安全極簡風"。

問題出在哪?

在模糊需求面前,AI會自動躲進它最熟、最不會出錯的那個安全角落。花叔後來總結出"撞、借、請"三套邏輯——靠運氣隨機、借獲獎作品手法、請大師從頭想——逼AI跳出舒適區。
花叔的這篇文章揭示了一個深刻問題:AI Agent需要"skill",但skill不是簡單的工具箱。
微軟研究院最近發表的論文《From Raw Experience to Skill Consumption》(arXiv 2605.23899),對Agent Skill進行了系統性研究,發現了三個反直覺的真相。

真相一:更好的執行器,不一定是更好的提取器

數據說反話

在SpreadsheetBench任務上,微軟團隊做了一個實驗:
GPT-5.4:作為執行器表現最強,但作為提取器排名最後
Gemini-3.1-Flash-Lite:輕量級模型,卻實現了最高的提取效能(EE)

為什麼?

因為Skill提取和任務執行是兩種不同的能力。
執行器要的是"完成任務",提取器要的是"把完成過程翻譯成別人能看懂的說明書"。
Huashu Design的"撞、借、請"也是這個邏輯:讓AI"執行"設計不難,難的是讓AI把設計過程"翻譯"成可複用的Skill。AI只會給出通用建議("要做個好設計"),而不是具體補救措施("Excel引擎不評估公式字符串時要預先計算靜態值")。
微軟論文驗證了這一點:通用建議往往無效,具體補救措施才真正有用。

實戰啓示

選擇提取器 ≠ 選擇最強模型

Skill提取是"翻譯"能力,不是"執行"能力。你需要的是能把過程講清楚的人,而不是能把事情做到完美的人。
就像做菜,最好的廚師不一定能寫出最好的菜譜。菜譜需要的是清晰的步驟、明確的量、可復現的細節——這些不是手藝,而是另一種能力。

真相二:讀起來越好的Skill,往往表現越差

圖片

一個令人震驚的數據

微軟團隊讓GPT-5.4當"評委",看兩個Skill文本,哪個質量更高。
準確率:46.4%。
跟隨機扔硬幣沒區別。
更可怕的是,當兩個Skill的真實性能差距超過5%時,評委反而選對了只有15.8%——讀起來更好的Skill,實際表現更差。

為什麼?

因為人類(和AI)的直覺傾向於"流暢、完整、邏輯清晰",但這些特徵跟"能解決問題"不是一回事。
論文裏舉了個例子:
低ΔSkill:"編碼前解決合約,注意邊界條件,測試所有場景"——讀起來完美,全是正確但空洞的建議
高ΔSkill:"當宿主引擎不評估公式字符串時,預先計算靜態值"——讀起來具體,針對性極強
Huashu Design的"圖片前置"也是這個邏輯:不是泛泛地說"要做高質量內容",而是具體指出"鸚鵡科普網站沒有鸚鵡圖就是失敗"。

實戰啓示

不要相信直覺,要相信A/B測試

Skill好不好,不能靠"讀起來順不順",要靠"用起來靈不靈"。
微軟團隊最終發現,真正有用的只有三個維度:
  1. 失敗機制編碼:明確指出什麼會失敗
  2. 可執行具體性:給的是能動手的具體步驟
  3. 高風險動作黑名單:告訴用戶別碰什麼
通用建議(清晰度、完整性、邏輯結構)反而會降低性能——因為它讓Skill變"順"了,但也變"空"了。

真相三:Skill不是附加插件,而是操作系統

為什麼同一Skill,在不同模型上效果天差地別?

微軟團隊把同一個Skill用在六個模型上:
強池Skill:在Gemini-3.1-Pro上提升+1.8%,在Qwen3.5-35B上提升+9.5%
弱池Skill:在GPT-5.4上反而-2.0%,在其他模型上只小幅提升

為什麼?

因為Skill消費不是"加載一個工具",而是"重塑默認策略"。
論文分析了兩個對比模型:
GPT-5.4:消費Skill後,策略變成"評估者對齊的計算和驗證"
Qwen3.5-9B:消費Skill後,策略變成"複雜的工作簿原生工作流"
同一份Skill,在不同模型的"操作系統"裏,被解釋成了完全不同的行為模式。
Huashu Design的"撞、借、請"也是這個邏輯:它不是給AI加了三個新工具,而是改變了AI的"操作系統"——從"選擇最安全的風格"變成"主動探索三種可能性"。

實戰啓示

Skill適配是每目標屬性

不要期望一個Skill能在所有模型上工作。
Skill的作用是"重塑策略",而不同模型的默認策略不同,所以同一Skill會產生完全不同的重塑效果。
就像給Windows裝Mac風格的界面,和給Mac裝Windows風格的界面——雖然都是"換個界面",但底層系統的兼容性完全不同。

最大的陷阱:經驗池的構成,決定了Skill的天花板

經驗不是越多越好

微軟團隊測試了五種經驗池:成功率100%、75%、50%、25%、0%。
結果:
SpreadsheetBench:偏向更多成功軌跡
SWE-bench-Verified:在主要成功的池中達到峯值
ALFWorld:在失敗較多的池中表現最佳

為什麼?

因為不同領域的"有用經驗"不同。
在ALFWorld這種具身規劃任務中,失敗的嘗試經常揭示無效動作和死衚衕——失敗本身就是信息。
在SpreadsheetBench這種表格任務中,成功軌跡展示的是可行的計算路徑——成功本身就是信息。
但有一點是共通的:全失敗的池始終最差。
因為成功軌跡提供的是"怎麼走",失敗軌跡提供的是"別走哪"。只有知道"怎麼走",才能真正前進。

實戰啓示

不要用同一套經驗策略對付所有領域

Huashu Design的"撞、借、請"為什麼有效?因為它針對"設計"這個領域的特點:設計需要多樣性,所以強制AI探索三種可能性。
如果你的任務是代碼調試,經驗策略應該完全不同——可能需要更多失敗案例,因為失敗案例能揭示bug模式。
經驗池的構成,是Skill系統的"食譜"。食譜不對,技巧再好也做不出好菜。

最後的洞察:Skill系統的本質

微軟論文的最後一句話說得很好:
我們將這些貢獻將智能體Skill提取從啓發式、直覺驅動的實踐轉向基於原則、以效用為基礎的學科。
但我想更進一步:Skill系統的本質,是讓AI學會"教AI"。
Huashu Design的作者說得對:
我以前以為AI設計工具的價值是幫我更快做出我本來想做的東西。用了它我才明白,真正值錢的是它給了我一版我自己根本想不到、但一眼就服的方案。
當"做出來"越來越便宜,剩下唯一難的就是知道"該選哪個"。
Skill系統的價值不是幫AI更快完成任務,而是幫AI學會把"經驗"轉化為"可複用的知識"。
這不是工具,這是進化的開始。

給實戰者的三個建議

1. 不要迷信"讀起來好"

用A/B測試驗證Skill效果。關注三個維度:失敗機制編碼、可執行具體性、高風險動作黑名單。

2. 經驗池要精心設計

明確你的領域特性,設計適合的經驗構成策略。不要套用別人的配方。

3. Skill適配是每目標屬性

針對不同模型調整Skill表達方式。Skill是重塑策略,不是加載工具。
圖片