裝了一大堆Skill,你的AI Coding Agent編程能力就會自動提升?

作者:劉小排r
日期:2026年1月29日 下午4:13
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

裝 Skill 唔會自動提升 AI Coding Agent 能力,AGENTS.md 先係關鍵

整理版摘要

呢篇文章由劉小排寫,佢引用咗 Vercel 嘅實驗結果,想解答一個好實際嘅問題:裝咗一大堆 Skill 之後,AI Coding Agent 嘅編程能力會唔會自動提升?佢嘅結論好直接:唔會。Vercel 嘅實驗比較咗幾種做法,包括唔裝任何嘢、就咁裝 Skill、裝 Skill 再加顯式指令、同埋喺 AGENTS.md 寫明規則。結果發現,AGENTS.md 嘅 Test 通過率係 100%,而就咁裝 Skill 仲衰過乜都唔裝,得 58%。

Vercel 想解決嘅問題係:AI 訓練數據有截止日期,新框架嘅 API(例如 Next.js 16 嘅 'use cache')佢哋唔識,點樣令 AI 識用新 API?Skill 嘅諗法係俾 Agent 自己決定幾時用,但實際效果差。AGENTS.md 就係將關鍵知識直接放喺根目錄,Agent 每輪對話都見到,唔需要佢自己決定睇唔睇。

劉小排反思,呢個實驗揭示咗一個更深嘅問題:我哋成日想 AI 變得更自主、更智能,但現實係 AI 同人一樣,會唔記得用工具,越多選擇越易出錯。最有效嘅方法反而係最笨嘅——直接將資訊塞到佢面前,唔俾佢揀。少即是多,約束即自由。

  • 裝 Skill 唔會自動提升 AI 編程能力,甚至可能令 Test 通過率下降
  • Vercel 實驗顯示AGENTS.mdTest 通過率係 100%,顯著優於 Skill
  • Skill 失效嘅原因:AI 需要自己決定幾時用,但佢會忘記、揀錯時機或用錯方式
  • AGENTS.md 成功嘅關鍵:冇決策點、始終可用、冇順序問題,強制暴露喺上下文
  • 實用建議:與其依賴 AI 主動用工具,不如直接將關鍵資訊寫入 AGENTS.md 或提示詞
值得記低
連結 vercel.com

Vercel 實驗原文

Vercel 官方文章,詳細說明 AGENTS.md 點樣 outperform Skills

整理重點

實驗背景同數據

Vercel 做咗個實驗,想解決一個好現實嘅問題:AI Coding Agent 嘅訓練數據有截止日期,新框架 API 佢哋根本唔知。例如 Next.js 16 嘅 'use cache'、connection()、forbidden(),你叫 Claude 或者 GPT 去寫,十有八九寫錯。

實驗比較咗幾種做法:基線(唔裝任何嘢)、就咁裝 Skill、裝 Skill 再加顯式指令、同埋喺 AGENTS.md 寫明規則。結果如下:

Build / Lint / Test 通過率: 基線:84% / 95% / 63% Skill(唔強調):84% / 89% / 58% Skill + 顯式指令:95% / 100% / 84% AGENT.md:100% / 100% / 100%

整理重點

點解 Skill 咁唔掂?

Vercel 團隊分析得好到位,但劉小排用咗個更直白嘅比喻:AI 大模型嘅思考方式其實好似人。你係咪都試過買咗一堆效率工具,最後都係用返最原始嘅方法?

  • AI 可能根本冇意識到自己需要幫助,覺得「呢個 API 我會啊」然後寫錯
  • AI 知道有 Skill,但忘記咗調用——人類程序員都覺得親切
  • 調用時機唔啱,寫咗一半 code 先去查文檔,改起嚟更麻煩
  • 調用措辭稍有唔同,結果就差好遠,Vercel 原話係「wording was fragile

所以 Skills 嘅設計理念雖然美好——Agent 發現問題時可以自己揾工具——但實際上太多環節可以出錯。你以為佢會主動用,但佢就係唔用。

整理重點

AGENTS.md 點解咁勁?

答案簡單到令人懷疑人生:佢唔需要 Agent 做任何決策。AGENTS.md 就放喺項目根目錄,Agent 每一輪對話都能見到。

Vercel 總結咗三個原因:冇決策點、始終可用、冇順序問題。翻譯成人話:唔俾佢有機會揀唔睇。

整理重點

作者反思:少即是多,約束即自由

呢個實驗揭示咗一個更深層嘅問題:我哋對 AI Agent 嘅期待可能從一開始就錯咗。我哋總想令 AI 變得更智能、更自主、更會判斷,所以裝一大堆插件、Skill、工具,期待佢可以好似資深工程師咁知道幾時用乜嘢。

現實係,AI 就係會忘、會漏、會判斷錯誤,同人一樣。呢個唔係 AI 嘅 Bug,而係 AI 嘅本性。你俾佢越多選擇,佢越容易選錯。反而最笨嘅方法——直接將資訊塞入上下文,唔俾佢任何選擇餘地——效果最好。

劉小排嘅結論係:少即是多,約束即自由。唔好再迷信 Skill 嘅自動化,直接將關鍵知識寫入 AGENTS.md 或者提示詞,先係最實際嘅做法。

哈囉,大家好,我係劉小排。

Skills真係一個好偉大嘅發明,相信你同我一樣,對各種新奇嘅Skills愛不釋手。

裝咗一大堆Skill之後,我一直諗緊一個問題: 我嘅AI Coding Agent寫程式能力,會唔會因為Skill裝得多,寫程式能力就自動提升呢?

啱啱好,最近Vercel做咗一個嚴謹嘅實驗,好解答咗我嘅疑惑。

如果冇耐性,我先話你知省流版答案: 答案係NO!裝再多Skill,AI嘅寫程式能力都唔會自動提升! 但係你可以「顯式聲明」要調用嘅Skill,更好嘅方法係寫到AGENTS.md裏面強調,可以得到明顯提升

我諗,呢個可能係因為AI嘅思考方式比較似人。有時,你叫人去做一個咩任務,佢好多時都會忘記自己已經有嘅某個工具,除非你特別強調。

以下係實驗數據。睇到第二行未?

裝咗 Skill,默認情況下,同冇裝一樣。 甚至 Test 通過率仲低咗 5 個百分點。

就算你喺提示詞裏面顯式叫佢「先探索項目,再調用 Skill」,都只係得 79% 嘅綜合通過率。

而一個 markdown 檔案,直接拉滿到 100%。

配置
Build
Lint
Test
基線
唔裝Skill
84%
95%
63%
Skill
裝Skill、唔強調
84%
89%
58%
Skill 
+ 顯式指令
95%
100%
84%
AGENT.md 
寫到規則裏 
100%
100%
100%
我有一個來自明星AI創業公司嘅朋友,佢睇完篇文章之後直言:「咩『漸進性暴露』,都係白搞!」

Vercel嘅實驗?

Vercel嘅實驗特別聰明。

想解決一個好現實嘅問題:AI 寫程式助手嘅訓練數據有截止日期,新出嘅框架 API 佢根本唔知。例如 Next.js 16 啱啱出 'use cache'connection()forbidden() 呢啲新 API,你叫 Claude 或者 GPT 去寫,十有八九寫錯。

點算?兩條路:

  1. Skills —— 一套打包領域知識嘅開放標準,包含文檔、提示詞、工具,Agent 需要嘅時候自己調用
  2. AGENTS.md —— 喺項目根目錄放一個 markdown 檔案,將關鍵知識寫入去

聽落 Skills 高級啲啫?始終係一套完整系統,按需加載,模塊化設計,好工程化。

結果呢?

開頭你都見到啦。

圖片

有興趣嘅同學可以睇原文

https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals

點解 Skill 咁唔掂?

Vercel 團隊嘅分析好到位,但係我想換一個更直接嘅講法:AI 大模型嘅思考方式,其實同人好似。

你諗下,係咪成日都咁:

  • 買咗一大堆效率工具,Notion、Obsidian、Flomo、滴答清單……到最後都係用微信收藏
  • 訂閲咗一大堆 newsletter,從來冇打開過
  • 收藏咗一百個「稍後閲讀」,從來冇「稍後」
  • 學咗一大堆快捷鍵,做嘢嘅時候都係用滑鼠㩒

你手上面明明有工具,但你就係諗唔起用。

除非有人喺你耳邊不斷講:「用嗰個工具!用嗰個工具!」

AI 都係一樣。

Skills 嘅設計理念好美好:當Agent發現問題,可以自己去揾工具解決問題。

但呢條鏈有太多環節可以出錯:

  1. 佢可能根本冇意識到自己需要幫助(「呢個 API 我識㗎」——然後寫錯)
  2. 佢知道有 Skill,但係唔記得調用(人類程序員見到都覺得親切)
  3. 調用嘅時機唔啱(先寫咗一半 code,先去查文檔,改起上嚟更麻煩)
  4. 調用嘅措辭稍為改一改,結果就完全唔同(Vercel 原話:「wording was fragile」)

呢個就係點解 Skill 喺「默認行為」之下同冇裝一樣。

你以為佢會主動用,但佢就係唔用。

AGENTS.md 點解可以做到 100%?

答案簡單到令人懷疑人生:因為佢唔需要 Agent 做任何決策

AGENTS.md 就放喺項目根目錄,Agent 每一輪對話都睇到。唔需要佢判斷「使唔使調用」,唔需要佢選擇「幾時調用」,唔需要佢煩惱「調用邊個」。

佢就喺嗰度,避無可避。

Vercel 總結咗三點:

  1. No decision point —— 冇決策點
  2. Consistent availability —— 始終可用
  3. No ordering issues —— 冇順序問題

翻譯成人話:唔俾佢有選擇唔睇嘅機會。

呢樣令我諗起管理學一個老笑話:

唔好考驗人性。

同理,唔好考驗 AI 嘅主動性

與其相信佢會主動做正確嘅事,不如直接將正確嘅資訊塞到佢面前。

我嘅思考

呢個實驗結果,其實揭示咗一個更深層嘅問題:

我哋對 AI Agent 嘅期望,可能一開始就錯咗。

我哋成日想令 AI 變得更「智能」、更「自主」、更「識判斷」。所以我哋俾佢裝各種插件、各種 Skill、各種工具,期望佢好似一個資深工程師咁,知道幾時用啲乜。

但現實係,佢就係會唔記得,就係會漏,就係會判斷錯誤。同人一樣。呢個唔係AI嘅Bug,呢個係AI嘅本性

你俾佢越多選擇,佢越容易揀錯。

反而係最蠢嘅方法——直接將資訊塞入上下文,唔俾佢有任何選擇嘅餘地——效果最好。

少即是多,約束即自由。


哈嘍,大家好,我是劉小排。

Skills真是一個偉大的發明,相信你也和我一樣,對各種新奇的Skills愛不釋手。

裝了一大堆Skill以後,我一直在思考一個問題: 我的AI Coding Agent編程能力,會因為Skill裝得多,編程能力就自動提升了嗎?

正好,最近Vercel做了一個嚴謹的實驗,很好的解答了我的疑惑。

如果沒有耐心,我先告訴你省流版答案: 答案是NO!裝再多Skill,AI的編程能力都不會自動提升! 但是你可以“顯示聲明”要調用的Skill,更好的方法是寫到AGENTS.md裏進行強調,能得到明顯提升

我想,這可能是因為AI的思考方式比較像人。有時候,你讓人去完成一個什麼任務,他也往往會忘記自己已經擁有的某個工具,除非你特別強調。

以下是實驗數據。看到第二行沒有?

裝了 Skill,默認情況下,跟沒裝一樣。 甚至 Test 通過率還降了 5 個點。

就算你在提示詞裏顯式告訴它"先探索項目,再調用 Skill",也只能到 79% 的綜合通過率。

而一個 markdown 文件,直接拉滿到 100%。

配置
Build
Lint
Test
基線
不裝Skill
84%
95%
63%
Skill
裝Skill、不強調
84%
89%
58%
Skill 
+ 顯式指令
95%
100%
84%
AGENT.md 
寫到規則裏 
100%
100%
100%
我一個來自明星AI創業公司的朋友,他在看完文章後直言:「什麼“漸進性暴露”,都是白扯!」

Vercel的實驗?

Vercel的實驗特別聰明。

想解決一個很現實的問題:AI 編程助手的訓練數據是有截止日期的,新出的框架 API 它根本不知道。比如 Next.js 16 剛出的 'use cache'connection()forbidden() 這些新 API,你讓 Claude 或者 GPT 去寫,十有八九寫錯。

怎麼辦?兩條路:

  1. Skills —— 一套打包領域知識的開放標準,包含文檔、提示詞、工具,Agent 需要的時候自己去調用
  2. AGENTS.md —— 在項目根目錄放一個 markdown 文件,把關鍵知識寫進去

聽起來 Skills 更高級對吧?畢竟是一套完整的系統,按需加載,模塊化設計,很工程化。

結果呢?

開頭你也看到了。

圖片

感興趣的同學可以閲讀原文

https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals

為什麼 Skill 拉胯了?

Vercel 團隊的分析很到位,但我想換一個更直白的說法:AI 大模型的思考方式,其實很像人。

你想想,你是不是也經常這樣:

  • 買了一堆效率工具,Notion、Obsidian、Flomo、滴答清單……最後還是用微信收藏
  • 訂閲了一堆 newsletter,從來沒打開過
  • 收藏了一百個「稍後閲讀」,從來沒有「稍後」
  • 學了一堆快捷鍵,幹活的時候還是用鼠標點

你手上明明有工具,但你就是想不起來用。

除非有人在你耳邊反覆唸叨:"用那個工具!用那個工具!"

AI 也一樣。

Skills 的設計理念很美好:當Agent發現問題,可以自己去找發現工具來解決問題。

但這個鏈條有太多環節可以出錯:

  1. 它可能根本沒意識到自己需要幫助("這個 API 我會啊"——然後寫錯)
  2. 它知道有 Skill,但忘了調用(人類程序員看了都覺得親切)
  3. 調用的時機不對(先寫了一半代碼,再去查文檔,改起來更麻煩)
  4. 調用的措辭稍微變一下,結果就完全不同(Vercel 原話:"wording was fragile")

這就是為什麼 Skill 在"默認行為"下跟沒裝一樣。

你以為它會主動用,但它就是不用。

AGENTS.md 為什麼能 100%?

答案簡單到讓人懷疑人生:因為它不需要 Agent 做任何決策

AGENTS.md 就放在項目根目錄,Agent 每一輪對話都能看到。不需要它判斷"要不要調用",不需要它選擇"什麼時候調用",不需要它糾結"調用哪個"。

它就在那兒,避無可避。

Vercel 總結了三點:

  1. No decision point —— 沒有決策點
  2. Consistent availability —— 始終可用
  3. No ordering issues —— 沒有順序問題

翻譯成人話:不給它選擇不看的機會。

這讓我想起一個管理學的老梗:

不要考驗人性。

同理,不要考驗 AI 的主動性

與其相信它會主動做正確的事,不如直接把正確的信息塞到它臉上。

我的思考

這個實驗結果,其實揭示了一個更深層的問題:

我們對 AI Agent 的期待,可能從一開始就錯了。

我們總想着讓 AI 變得更"智能"、更"自主"、更"會判斷"。所以我們給它裝各種插件、各種 Skill、各種工具,期待它能像一個資深工程師一樣,知道什麼時候該用什麼。

但現實是,它就是會忘,就是會漏,就是會判斷錯誤。就和人一樣。這不是AI的Bug,這是AI的本性

你給它越多選擇,它越容易選錯。

反而是最笨的方法——直接把信息塞進上下文,不給它任何選擇的餘地——效果最好。

少即是多,約束即自由。