Claude Code 真正的上限,藏在 Harness 裏。

作者:AI信息Gap
日期:2026年5月19日 上午7:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Claude Code嘅上限,唔係模型,係你搭嘅腳手架。

整理版摘要

呢篇文章來自Anthropic嘅AI應用團隊,專門幫企業客戶將Claude Code部署到百萬行級別嘅代碼庫入面。佢哋喺大型單體倉庫、遺留系統、微服務架構入面反覆踩坑,總結出一個核心結論:決定Claude Code表現上限嘅,唔係模型本身,而係你圍繞模型搭嘅嗰套腳手架——Anthropic叫佢做「Harness」。

Harness分做七層,由底層嘅CLAUDE.mdHooks、Skills、Plugins、LSP、MCP服務器,到最外層嘅子代理。Claude Code唔做索引,而係直接喺文件系統入面搜索,好似人類工程師咁遍歷目錄、用grep工具查找關鍵詞。呢個做法確保永遠睇到最新代碼,但需要充足嘅起始資訊先知道點樣揾。Anthropic畀出三條實操建議:喺子目錄啟動Claude Code、測試同lint命令按子目錄配置、定期維護CLAUDE.md。

文章仲講咗點樣喺公司推廣Claude Code,最快嘅團隊係先由一個小團隊搭好基礎建設,再大範圍發放權限。新角色「Agent Manager」專門負責配置同插件市場。最後強調CLAUDE.md嘅架構設計比模型選擇重要十倍,定期清理過期規則先係最被低估嘅建議。

  • Claude Code嘅上限取決於Harness腳手架,而唔係模型本身;AnthropicHarness拆分做七層,由CLAUDE.md到子代理。
  • Claude Code唔做索引,而係直接喺文件系統搜索,確保永遠最新,但需要清晰嘅起始方向。
  • Hooks係強制執行嘅腳本,高階用法係Stop Hook喺會話結束時自動總結經驗並更新CLAUDE.md
  • Skills係按需加載嘅專家知識,可綁定路徑只喺特定目錄激活;Plugins將Skills、HooksMCP打包分發。
  • 實操建議包括喺子目錄啟動Claude Code、按子目錄配置測試命令,同每三到六個月審查CLAUDE.md維護規則。
整理重點

Harness:七層腳手架決定上限

AnthropicClaude Code嘅整套擴展體系拆分做七層,由底層到最外層分別係CLAUDE.mdHooks、Skills、Plugins、LSP、MCP服務器同子代理。呢個結構決定咗Claude Code喺大型代碼庫入面嘅表現。

CLAUDE.md係每次會話啟動時自動加載嘅地圖,根目錄放全局規範,子目錄放局部約定,Claude會喺移動時一路往上揾並疊加讀取。

社羣經驗話單個CLAUDE.md最好60到120行,200行封頂,太多會拖累模型性能。

整理重點

Skills、Plugins與LSP:專家知識按需加載

Skills係按需加載嘅專家知識,唔係次次都加載曬所有內容。例如安全審查Skill只喺審核代碼時加載,文檔更新Skill只喺改咗代碼之後加載。Skills仲可以綁定路徑,例如支付團隊嘅部署Skill只喺支付服務目錄下激活。

  • Plugins將Skills、HooksMCP配置打包成安裝包,通過公司內部插件市場分發,新員工第一天就能擁有一樣嘅起點。
  • LSP(語言服務器協議)畀Claude用符號級精度導航代碼,避免grep常見函數名返回幾千條結果嘅問題,未讀文件已經完成過濾。
  • MCP服務器連接內部工具、數據源同API,成熟團隊將內部結構化搜索封裝成MCP工具,甚至接入文檔系統、工單系統同數據分析平台。
整理重點

子代理:探索與修改分開進行

子代理係獨立嘅Claude實例,有自己嘅上下文窗口。有團隊先派一個只讀子代理去掃描某個子系統,結果寫入文件,然後主代理帶住完整認知去更新代碼。咁樣探索同修改分開進行,效率更高。

七層結構入面,子代理係最外層,負責處理獨立任務,減少主代理嘅上下文污染。

整理重點

三條實操建議:從子目錄開始

  1. 1 喺子目錄啟動Claude Code,而唔係倉庫根目錄。咁做可以令上下文由一開始就聚焦喺相關代碼,唔會被百萬行無關代碼稀釋,同時Claude會自動往上揾CLAUDE.md,唔會丟失根目錄嘅上下文。
  2. 2 測試同lint命令按子目錄配置。淨係改咗一個服務就走去跑全倉庫測試只會超時,子目錄級別嘅CLAUDE.md應該寫清楚用咩命令運行測試同構建。
  3. 3 定期維護CLAUDE.md,每三到六個月審查一次,每次模型更新後都要檢查。舊規則可能限制新模型嘅能力,例如「每次重構只改一個文件」呢類規則喺新模型上反而有害。
整理重點

推廣策略:先搭基建,再放權限

推廣最快嘅團隊有一個共同點:喺大範圍發放訪問權限之前,先有一個小團隊搭好基礎建設。例如有公司兩個工程師提前整好一套PluginsMCP配置,團隊所有人第一日就上手。

Anthropic提出新角色「Agent Manager」,半個PM加半個工程師,專門負責配置、權限同插件市場。

冇專職團隊嘅公司最低配一個DRI(直接責任人),一個人管理CLAUDE.md層級、設置同權限策略,確保跟上模型迭代。

Claude Code年化收入已達25億美元,從0到10億用咗6個月,從10億到25億只花咗3個月。

啱啱,Anthropic 官方發布咗一篇毫不起眼嘅技術網誌。

個名叫「How Claude Code works in large codebases」。

Claude Code 點樣喺大型代碼庫入面做嘢。

但係呢篇文章講嘅內容,可能比一次新模型發布更加重要。

圖片


先講結論。

決定 Claude Code 表現上限嘅,唔係模型,而係你圍住模型搭建嗰套腳手架。

Anthropic 將呢套腳手架叫做「Harness」。

圖片

呢篇網誌嚟自 Anthropic 嘅 AI 應用團隊,專門幫企業客戶將 Claude Code 部署到百萬行級別嘅代碼庫入面。

百萬行代碼嘅單體倉庫、幾十年歷史嘅遺留系統、分佈在十幾個倉庫入面嘅微服務架構。

佢哋喺呢啲環境入面反覆踩坑,總結出下面呢套規律。



Claude Code 唔做索引。

市面上部分 AI 編程工具選擇先用 RAG 將成個代碼庫做一次向量嵌入,查詢嘅時候檢索最相關嘅片段。但問題係,當幾千個工程師每日都在提交代碼,嵌入管道根本跟唔上。你查到嘅函數,可能兩星期前就已經被重新命名咗。

Claude Code 嘅做法係直接喺文件系統入面搜尋。同人類工程師一樣,遍歷目錄、讀檔案、用 grep 工具查找關鍵詞、沿着引用跳轉。每個開發者睇嘅都係最新嘅代碼,唔存在索引過期嘅問題。

代價係咩?佢需要充足嘅起始資訊,先知道應該去邊度揾。



Harness,之前爆紅嘅一個詞。

Anthropic 將 Claude Code 嘅成套擴展體系拆分做七層。

圖片

最底層係 CLAUDE.md。每次會話啟動時自動加載。根目錄放全局規範,子目錄放局部約定。Claude 喺代碼庫入面移動時,會一路向上揾,將沿途嘅 CLAUDE.md 檔案疊加起嚟讀一次。

呢個過程相當於畀 Claude 一份地圖。但呢份地圖必須精簡。塞太多內容,反而會拖累模型性能。社羣經驗係單個檔案 60 到 120 行最優,200 行封頂。超過之後,後面嘅規則會被默認降低權重。

再上一層係 Hooks。呢個係腳本級別嘅硬性控制。同 CLAUDE.md 嘅「建議」唔同,Hook 係百分百強制執行嘅,Claude 繞唔過。格式化、lint 檢查、類型校驗,唔應該靠 AI 記住,應該靠 Hook 強制執行。

Anthropic 提出咗一個反直覺嘅用法。大多數團隊將 Hook 當做安全護欄,防止 Claude 犯錯。但更高階嘅用法係 Stop Hook,每次會話結束時叫 Claude 回顧啱先做咗啲乜,自動總結經驗並更新 CLAUDE.md

會話結束,經驗沉澱。下次會話,Claude Code 就會更識你。

然後係技能 Skills。呢個係按需加載嘅專家知識。唔係每次會話都加載全部知識。例如安全審查 Skill 只喺審核代碼時加載,文檔更新 Skill 只喺改咗代碼之後加載。

Skills 仲可以綁定路徑。支付團隊嘅部署 Skill 只喺支付服務目錄下激活,其他人改其他模塊時唔受影響。

再上去係插件 Plugins。將 Skills、Hooks、MCP 配置打包成一個安裝包,透過公司內部插件市場分發。新員工第一日安裝,就可以擁有同老員工一樣嘅起點。

LSP,語言服務器協議(Language Server Protocol)。叫 Claude 用符號級精度導航代碼,而唔係靠字符串匹配。喺大型代碼庫入面,grep 一個常見函數名會返回幾千條結果,Claude 要打開大量檔案先判斷到邊條啱。LSP 直接返回同一符號嘅引用,Claude 未讀檔案,過濾就已經完成咗。

MCP 服務器(Model Context Protocol),叫 Claude 連接內部工具、數據源同 API。最成熟嘅團隊將內部結構化搜索封裝成 MCP 工具,Claude 直接調用。仲有團隊將內部文檔系統、工單系統、數據分析平台全部接入咗。

最外層係 子代理。佢哋係獨立嘅 Claude 實例,有自己的上下文窗口。有團隊嘅做法係先派一個唯讀子代理去掃描某個子系統,將結果寫入檔案,然後主代理帶住完整認知去更新代碼。

探索同修改,應該分開進行。

圖片


Anthropic 畀出咗三條實操建議。

第一,喺子目錄啟動 Claude Code,唔好喺倉庫根目錄。

呢條建議喺單體倉庫入面好反直覺。因為工具鏈通常假設你喺根目錄操作,但 Claude 從子目錄啟動時,會自動向上揾 CLAUDE.md,根目錄嘅上下文都唔會丟失。上下文一開始就聚焦喺相關代碼上,唔會被百萬行無關代碼稀釋。

第二,測試同 lint 指令要按子目錄配置。

只改咗一個服務,但係運行全倉庫嘅測試,直接超時,上下文全部係無關輸出。子目錄級別嘅 CLAUDE.md 應該寫清楚呢個目錄用咩指令運行測試、點樣構建。

第三, CLAUDE.md 檔案需要定期維護。

模型一直喺度更新。你畀上一代模型寫嘅規則,可能喺下一代模型上唔適用。例如你話畀 Claude「每次重構只改一個檔案」,早期模型確實需要呢個約束嚟保持穩定。但新模型已經可以處理跨檔案嘅協調編輯,呢條規則反而限制咗佢嘅能力。

Anthropic 建議每三到六個月重新審查一次配置,每次模型更新後都要檢查一次。



除咗技術架構,Anthropic 用咗大量篇幅講一件事,「點樣喺公司入面推廣 Claude Code。」

圖片

推廣最快嘅團隊,有一個共通點。「喺大範圍發放訪問權限之前,先有一個細團隊搭好咗基礎建設。」

例如呢間公司,兩個工程師預先搭建咗一套 Plugins 和 MCP 配置。團隊所有人第一日就可以上手。

另一間公司更加激進,專門成立咗一個 AI 編程工具管理團隊,喺大範圍推廣之前就將基礎設施全部搭好。

Anthropic 仲提到一個新角色,「Agent Manager」。半個 PM 加半個工程師,專門負責 Claude Code 嘅配置、權限同插件市場。

冇專職團隊嘅公司,最低配係一個 DRI(直接責任人)。一個人管理 CLAUDE.md 層級、設置同權限策略,負責叫呢啲配置跟得上模型迭代。



網友熱評,「審核 CLAUDE.md 係呢篇文章入面最被低估嘅一條建議。」CLAUDE.md 用得越耐越亂。根本原因唔係缺少規則,係過期規則冇人清理。呢條嘅投入產出比,比 LSP 同子代理加埋都高。」

另一個網友表示贊同。

CLAUDE.md 嘅架構設計比模型選擇重要 10 倍。配置搞錯咗,5 個並行代理會信心滿滿咁構建出 5 套完全唔同嘅系統。瓶頸係共享狀態,而唔係規模。」



呢篇文章發布嘅時間節點,有啲意思。

企業費用管理平台 Ramp 最新數據顯示,Anthropic 商業客戶佔比達到 34.4%,首次超過 OpenAI 嘅 32.3%。

圖片

其中最大嘅增長點就係 Claude Code。據 SemiAnalysis 報告,Claude Code 貢獻咗全球 GitHub 公開代碼提交嘅 4%,一個月前呢個數字仲係 2%。翻咗一倍。

Claude Code 年化收入已經達到 25 億美元。由 0 到 10 億美元用咗 6 個月,由 10 億到 25 億只係用咗 3 個月。

呢篇網誌標註嘅係「Claude Code at scale」系列嘅第一篇。後面仲會有針對非 Git 版本控制、超大規模文件夾等特殊場景嘅內容。



你嘅 Claude Code 唔夠力,可能唔係模型嘅問題。

係你仲未幫佢搭好腳手架。




我係木易,Top2 加美國 Top10 CS 碩士,而家係 AI 產品經理。

關注「AI信息Gap」,叫 AI 成為你嘅外掛。




圖片

剛剛,Anthropic 官方發佈了一篇毫不起眼的技術博客。

名為「How Claude Code works in large codebases」。

Claude Code 怎麼在大型代碼庫裏幹活。

但這篇文章講的內容,可能比一次新模型發佈都重要。

圖片


先說結論。

決定 Claude Code 表現上限的,不是模型,是你圍繞模型搭的那套腳手架。

Anthropic 把這套腳手架叫「Harness」。

圖片

這篇博客來自 Anthropic 的 AI 應用團隊,專門幫企業客戶把 Claude Code 部署到百萬行級別的代碼庫裏。

百萬行代碼的單體倉庫、幾十年歷史的遺留系統、分佈在十幾個倉庫裏的微服務架構。

他們在這些環境裏反覆踩坑,總結出下面這套規律。



Claude Code 不做索引。

市面上部分 AI 編程工具選擇先用 RAG 把整個代碼庫做一遍向量嵌入,查詢的時候檢索最相關的片段。但問題是,當幾千個工程師每天都在提交代碼,嵌入管道根本跟不上。你查到的函數,可能兩週前就被重命名了。

Claude Code 的做法是直接在文件系統裏搜索。和人類工程師一樣,遍歷目錄、讀文件、用 grep 工具查找關鍵詞、沿着引用跳轉。每個開發者查看的都是最新的代碼,不存在索引過期的問題。

代價是什麼?它需要充足的起始信息,才知道該往哪裏找。



Harness,之前爆火的一個詞。

Anthropic 把 Claude Code 的整套擴展體系拆分為了七層。

圖片

最底層是 CLAUDE.md。每次會話啓動時自動加載。根目錄放全局規範,子目錄放局部約定。Claude 在代碼庫裏移動時,會一路往上找,把沿途的 CLAUDE.md 文件疊加起來讀一遍。

這個過程相當於給 Claude 一份地圖。但這份地圖必須精簡。塞太多內容,反而會拖累模型性能。社區經驗是單個文件 60 到 120 行最優,200 行封頂。超過之後,後面的規則會被默認降低權重。

再上面一層是 Hooks。這是腳本級別的硬性控制。跟 CLAUDE.md 的「建議」不同,Hook 是百分百強制執行的,Claude 繞不過去。格式化、lint 檢查、類型校驗,不應該靠 AI 記住,應該靠 Hook 強制執行。

Anthropic 提出了一個反直覺的用法。大多數團隊把 Hook 當安全護欄,防止 Claude 犯錯。但更高階的用法是 Stop Hook,每次會話結束時讓 Claude 回顧剛才幹了什麼,自動總結經驗並更新 CLAUDE.md

會話結束,經驗沉澱。下次會話,Claude Code 就會更懂你。

然後是技能 Skills。這是按需加載的專家知識。不是每次會話都加載全部知識。比如安全審查 Skill 只在審核代碼時加載,文檔更新 Skill 只在改了代碼之後加載。

Skills 還能綁定路徑。支付團隊的部署 Skill 只在支付服務目錄下激活,別人改其他模塊時不影響。

再往上是插件 Plugins。把 Skills、Hooks、MCP 配置打包成一個安裝包,通過公司內部插件市場分發。新員工第一天安裝,就能擁有和老員工一樣的起點。

LSP,語言服務器協議(Language Server Protocol)。讓 Claude 用符號級精度導航代碼,而不是靠字符串匹配。在大型代碼庫裏,grep 一個常見函數名會返回幾千條結果,Claude 得打開大量文件才能判斷哪條對。LSP 直接返回同一符號的引用,Claude 還沒讀文件,過濾就已經完成了。

MCP 服務器(Model Context Protocol),讓 Claude 連接內部工具、數據源和 API。最成熟的團隊把內部結構化搜索封裝成 MCP 工具,Claude 直接調用。還有團隊把內部文檔系統、工單系統、數據分析平台全接進來了。

最外層是 子代理。它們是獨立的 Claude 實例,有自己的上下文窗口。有團隊的做法是先派一個只讀子代理去掃描某個子系統,把結果寫進文件,然後主代理帶着完整認知去更新代碼。

探索和修改,應該分開進行。

圖片


Anthropic 給出了三條實操建議。

第一,在子目錄啓動 Claude Code,別在倉庫根目錄。

這條建議在單體倉庫裏很反直覺。因為工具鏈通常假設你在根目錄操作,但 Claude 從子目錄啓動時,會自動往上找 CLAUDE.md,根目錄的上下文也不會丟失。上下文從一開始就聚焦在相關代碼上,不會被百萬行無關代碼稀釋。

第二,測試和 lint 命令要按子目錄配置。

只改了一個服務,卻運行全倉庫的測試,直接超時,上下文全是無關輸出。子目錄級別的 CLAUDE.md 應該寫清楚這個目錄用什麼命令運行測試、怎麼構建。

第三, CLAUDE.md 文件需要定期維護。

模型一直在更新。你給上一代模型寫的規則,可能在下一代模型上不適用了。比如你告訴 Claude「每次重構只改一個文件」,早期模型確實需要這個約束來保持穩定。但新模型已經能處理跨文件的協調編輯了,這條規則反而限制了它的能力。

Anthropic 建議每三到六個月重新審查一次配置,每次模型更新後也要檢查一遍。



除了技術架構,Anthropic 花了大量篇幅聊一件事,「怎麼在公司裏推廣 Claude Code。」

圖片

推廣最快的團隊,有一個共同點。「在大範圍發放訪問權限之前,先有一個小團隊搭好了基礎建設。」

比如這家公司,兩個工程師提前搭建了一套 Plugins 和 MCP 配置。團隊所有人第一天就能上手。

另一家公司更為激進,專門成立了一個 AI 編程工具管理團隊,在大範圍推廣前就把基礎設施全搭好了。

Anthropic 還提到一個新角色,「Agent Manager」。半個 PM + 半個工程師,專門負責 Claude Code 的配置、權限和插件市場。

沒有專職團隊的公司,最低配是一個 DRI(直接責任人)。一個人管理 CLAUDE.md 層級、設置和權限策略,負責讓這些配置跟上模型迭代。



網友熱評,「審核 CLAUDE.md 是這篇文章裏最被低估的一條建議。CLAUDE.md 用得越久越亂。根本原因不是缺少規則,是過期規則沒人清理。這一條的投入產出比,比 LSP 和子代理加起來都高。」

更一個網友表示贊同。

CLAUDE.md 的架構設計比模型選擇重要 10 倍。配置搞錯了,5 個並行代理會信心滿滿地構建出 5 套完全不同的系統。瓶頸是共享狀態,不是規模。」



這篇文章發佈的時間節點,有點意思。

企業費用管理平台 Ramp 最新數據顯示,Anthropic 商業客戶佔比達到 34.4%,首次超過 OpenAI 的 32.3%。

圖片

其中最大的增長點就是 Claude Code。據 SemiAnalysis 報告,Claude Code 貢獻了全球 GitHub 公開代碼提交的 4%,一個月前這個數字還是 2%。翻了一倍。

Claude Code 年化收入已經達到 25 億美元。從 0 到 10 億美元花了 6 個月,從 10 億到 25 億隻花了 3 個月。

這篇博客標註的是「Claude Code at scale」系列的第一篇。後面還會有針對非 Git 版本控制、超大規模文件夾等特殊場景的內容。



你的 Claude Code 不給力,可能不是模型的問題。

是你還沒給它搭好腳手架。




我是木易,Top2 + 美國 Top10 CS 碩,現在是 AI 產品經理。

關注「AI信息Gap」,讓 AI 成為你的外掛。




圖片