從 Prompt 到 Harness:AI 編程真正缺的是工程紀律

作者:沐風
日期:2026年5月6日 下午1:38
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI編程真正缺嘅係工程紀律,唔係更勁嘅prompt。呢篇整理《Harness Engineering橙皮書》嘅方法論,教你建立指令、回饋、記憶同編排系統,令AI穩定產出。

整理版摘要

呢篇文章係《Harness Engineering橙皮書:AI編程時代嘅工程方法論》嘅讀書筆記整理。作者最近讀完呢本書,覺得乾貨好多,決定整理出嚟方便自己同他人。本書表面係講Harness Engineering——幫AI agent設計指令、約束、工具、記憶、回饋同編排,令佢唔止係識傾偈,仲能夠喺真實工程環境穩定開工。佢真正想解決嘅問題唔係「點樣令AI更聰明」,而係「喺AI已經夠強但仲未穩定嘅情況下,人應該點樣重新設計工作系統」。

作者嘅處境係已經唔再單純「用AI」,而係用AI做開發、寫作、產品文檔同長期項目。佢發現真正影響結果嘅唔係某次對話質量,而係有冇將經驗沉澱成規則、工具、知識庫同回饋循環。本書嘅核心判斷係:AI編程時代,人嘅核心價值唔係親手寫更多代碼,而係設計一個能夠令AI持續產出、持續糾錯、持續積累嘅工作環境。作者從書中提煉出四個核心概念——Harness、回饋層、記憶層同編排層,並畀出每個概念嘅適用場景、誤用風險同實踐步驟。

最後,作者總結咗四個最有用嘅洞察唔好發佈自己唔理解嘅代碼、規則應該從錯誤度生出來、評估者要獨立、上下文唔係越多越好。佢仲指出最反直覺嘅一點:AI越強,越需要工程紀律。模型能力提升唔會自動帶嚟可靠產出,反而令人更容易過度信任。文章結尾提供咗可執行清單同未來應該避免嘅陷阱。

  • 結論:AI編程嘅瓶頸係缺乏工程紀律,而唔係模型能力;人應該設計系統,而唔係追求一次性提示詞。
  • 方法:為每個長期項目建立輕量入口文件(如AGENTS.md),只記錄構建命令、測試方式、禁止事項同常犯錯誤,規則從錯誤度生出來。
  • 差異:回饋層要求可執行嘅驗證手段(測試、lint、截圖等),而唔係AI自評;評估者必須獨立於生成者。
  • 啟發:上下文唔係越多越好,連續兩次走偏就應該重開會話;記憶要控制喺100行以內,只記錄高頻錯誤同穩定偏好。
  • 可行動點:今日就試一個小實驗——用三個會話完成一個功能(規劃、執行、審查);每週做Harness垃圾回收,刪除過時規則,補齊真實錯誤。
值得記低
流程

建立AI協作Harness系統

為每個長期項目創建AGENTS.md入口文件,只記錄構建命令、測試命令、項目禁區同常犯錯誤;每週維護規則,刪除AI能自己推斷嘅內容;同時建立MEMORY.md記錄高頻錯誤同寫作口味,每兩週壓縮一次。

整理重點

從Prompt到Harness:重新定義AI工作環境

本書想解決嘅問題唔係「點樣令AI更聰明」,而係「喺AI已經夠強但仲唔穩定嘅情況下,人應該點樣重新設計工作系統」。以前我哋將注意力放喺prompt度,後來放喺context度,但真實項目嘅問題更硬:AI會誤解、偷懶、幻覺、重複犯錯、寫出自己都冇驗證過嘅代碼。靠一句提示詞管唔住呢啲問題。

AI編程時代,人嘅核心價值唔係親手寫更多代碼,而係設計一個能讓AI持續產出、持續糾錯、持續積累嘅工作環境

呢個就係Harness嘅概念:模型係腦子,Harness係手腳、護欄同儀表盤。作者提出要俾AI一個可以行動嘅殼——能讀文件、改代碼、跑測試、查資料、調用工具,仲有規則、邊界同回饋。

整理重點

打造回饋閉環:讓錯誤變成複利

回饋層唔係叫AI講「我檢查過啦」,而係俾佢可執行嘅驗證手段:測試、lint、截圖、日誌、PlaywrightDevTools、CI。呢點喺所有會產生結果嘅任務都適用,例如寫代碼、改UI、寫文章。

誤用係讓生成者自評,AI好容易滿足於「睇落可以

作者建議每次改動後必須跑最小驗證;寫作時每篇文章用獨立會話審稿;產品設計用截圖同用戶路徑驗證,唔好剩係睇代碼。

  1. 1 畀項目列出3個最小驗證命令
  2. 2 喺規則文件寫清楚「改完必須跑邊啲檢查
  3. 3 UI改動一定要睇截圖,唔好剩係睇源碼
  4. 4 複雜任務開全新會話做Reviewer
  5. 5 驗證失敗時先修Harness,再修單點輸出

記憶層同樣係複利機制。作者話記憶唔係資料庫,而係決策偏好同歷史教訓。要建立項目級MEMORY.md,只記錄「AI無法從文件推斷嘅信息」,每條記憶對應一個真實錯誤或穩定偏好,每兩週壓縮一次,刪除過時內容。

記憶要控制喺100行以內

整理重點

編排層與評估獨立性

編排層係任務拆分同角色安排Planner負責計劃,Generator負責實現,Evaluator負責挑錯。多agent嘅關鍵唔係數量,而係角色邊界。作者強調唔好畀同一個AI自己做自己審,因為佢會偏愛自己第一個方案。

評估者要獨立

呢點可以遷移到寫作:寫完文章後唔好喺同一個context度「潤色一下」,而係開新會話專門揾邏輯漏洞、廢話同唔成立嘅判斷。作者建議寫作流程分成三步:結構會話、正文會話、審稿會話。審稿只允許指出問題,唔可以直接改成一篇更「順」嘅廢話

  • 複雜任務先讓Planner寫計劃
  • 實現會話只負責執行,唔擴展需求
  • 審查會話必須係全新上下文
  • 並行開發時每個任務用獨立worktree
  • 合併前由人判斷結構、取捨同風險
整理重點

反直覺與常見誤區

最反直覺嘅係:AI越強,越需要工程紀律。模型能力提升唔會自動帶嚟可靠產出,反而令人更容易過度信任佢。容易忽略嘅係基礎設施——冇測試同發佈清單,AI只會將混亂放大。

唔好發佈自己唔理解嘅代碼

作者提醒,AI可以寫實現,但責任唔可以外包。真正危險嘅係因為省事接受咗自己解釋唔到嘅嘢。架構邊界、數據流、狀態管理必須自己睇得明;睇唔明就唔合併。另外,規則應該從錯誤度生出來,提前寫500行規則通常係製造噪音。

多agent並行唔係同時開好多窗口,而係任務可隔離、結果可驗證、衝突可合併

仲要避免將規則文件寫成百科:語言慣例、框架常識、AI能從代碼讀出嘅嘢,唔值得佔用上下文。未來應該避免嘅仲有:唔好將時間花喺收藏提示詞上;唔好接受自己睇唔明嘅實現;唔好喺一個失敗context度無限糾正。

整理重點

立即行動:建立可持續嘅Harness系統

今日就可以做一個小實驗:揀一個小功能或一篇短文,用三個會話完成——第一個淨係規劃,第二個淨係執行,第三個淨係審查。唔好讓同一個會話包辦到底。睇下最終返工次數係咪下降。

每週做一次Harness垃圾回收

長期堅持嘅習慣:每週刪除過時規則、合併重複規則、補充真實錯誤、壓縮記憶文件。記錄文件行數同重複錯誤次數。一句話總結:呢本書真正改變作者嘅,係將「使用AI」嘅問題,改成「設計一個令AI不斷變可靠嘅系統」嘅問題。

Harness系統檢查清單 markdown
## 每週Harness垃圾回收步驟
1. 檢查AGENTS.md:刪除AI能自己推斷嘅規則
2. 合併重複規則,補齊近期錯誤
3. 壓縮MEMORY.md,刪除過時記憶
4. 記錄文件行數同重複錯誤次數
5. 檢查回饋層:最小驗證命令是否仍然有效

呢篇文係《Harness Engineering橙皮書:AI編程時代嘅工程方法論》讀書筆記整理。

最近睇完呢本書,覺得乾貨好多,整理嚇,方便自己,方便人哋。

圖片

一、呢本書真正想解決啲乜問題

本書表面係講 Harness Engineering:畀 AI agent 設計指令、約束、工具、記憶、回饋同編排,令佢唔止係識得傾偈,而係喺真實工程環境裏面穩定咁做嘢。

佢真正想解決嘅問題唔係「點樣令 AI 更聰明」,而係「喺 AI 已經夠強但仲未穩定嘅情況下,人應該點樣重新設計工作系統」。以前我哋將注意力放喺 prompt 度,後來放喺 context 度,但真實項目嘅問題更加硬:AI 會誤解、偷懶、幻覺、重複犯錯、寫出自己都未驗證過嘅 code。靠一句提示詞管唔住呢啲問題。

呢本書同我而家最相關嘅一點係:我已經唔係單純「用 AI」,而係用 AI 做開發、寫作、寫產品相關文檔,同埋做長期項目。真正影響結果嘅,唔係某次對話嘅質素,而係我有冇將經驗沉澱成規則、工具、知識庫同回饋循環。

如果淨係帶走一個判斷:AI 編程時代,人嘅核心價值唔係親手寫更多 code,而係設計一個可以令 AI 持續產出、持續糾錯、持續累積嘅工作環境。

二、核心概念

1. Harness:AI 嘅工作環境,唔係提示詞

呢個係乜

Harness 係 AI 可以行動嘅果套殼:識得讀文件、改 code、跑測試、查資料、調用工具,仲有規則、邊界同回饋。模型係腦,Harness 係手腳、護欄同儀錶板。

圖片

用喺咩場景

適合真實項目:iOS App、AI 工具、寫作工作流、獨立產品迭代。唔適合一次性傾偈或者簡單問答。誤用係將 Harness 當成「更長嘅 prompt」,將所有規則塞入一個文件,最後反而污染咗 context。

怎麼用

每個長期項目都建立一個輕量入口文件,例如 AGENTS.md / CLAUDE.md:淨係寫 AI 從 code 睇唔出嘅資訊,例如構建命令、測試方式、項目禁區、發佈流程、成日犯嘅錯。

實踐步驟

  1. 1. 由空文件開始,唔好預設一堆規則。
  2. 2. 每次 AI 犯錯,淨係加一條可以防止翻發嘅規則。
  3. 3. 每星期刪除 AI 可以自己從 code 推斷出嘅規則。
  4. 4. 將複雜規範拆成獨立文檔,入口文件淨係做地圖。
  5. 5. 規則有冇效,用「同類錯誤有冇翻發」嚟判斷。
2. 回饋層:令 AI 必須驗證自己嘅工作

呢個係乜

回饋層唔係叫 AI 話「我 check 咗㗎」,而係畀佢可執行嘅驗證手段:測試、lint、截圖、日誌、Playwright、DevTools、CI。

圖片

用喺咩場景

適合所有會產生結果嘅任務:寫 code、改 UI、寫文章、做產品頁。唔適合純概念討論。誤用係叫生成者自己評分,AI 好容易滿足於「睇落好似得」。

怎麼用

開發中,每次改動之後一定要跑最小驗證;
寫作中,每篇文章用獨立會話審稿;
產品設計,就用截圖同用戶路徑驗證,而唔係淨係睇 code。

實踐步驟

  1. 1. 為項目列出 3 個最小驗證命令。
  2. 2. 喺規則文件裏面寫清楚「改完一定要跑邊啲檢查」。
  3. 3. UI 改動一定要睇截圖,唔好淨係睇源碼。
  4. 4. 複雜任務開一個全新會話做 Reviewer。
  5. 5. 驗證失敗嘅時候先修 Harness,再修單點輸出。
3. 記憶層:令錯誤變成複利

呢個係乜

記憶層解決「今次踩過嘅坑,下次唔好再踩」。佢可以係 MEMORY.md、項目知識庫、覆盤日誌,或者係規則文件裏面新增嘅約束。

用喺咩場景

適合長期項目、系列文章、App 迭代、AI 工作流。唔適合短期一次性任務。誤用係將記憶當垃圾桶,乜都掉入去,最後 AI 揾唔到重點。

怎麼用

應該將 AI 協作入面嘅高頻錯誤、項目背景、寫作口味、發佈步驟沉澱落嚟,但係控制喺 100 行以內。記憶唔係資料庫,記憶係決策偏好同歷史教訓。

圖片

實踐步驟

  1. 1. 建立一個項目級 MEMORY.md
  2. 2. 淨係記錄「AI 冇辦法從文件推斷嘅資訊」。
  3. 3. 每條記憶都對應一個真實錯誤或者穩定嘅偏好。
  4. 4. 每兩星期壓縮一次,刪除過時嘅內容。
  5. 5. 觀察 AI 係咪減少重複解釋嘅成本。
4. 編排層:由一個 AI 做嘢到多個 AI 協作

呢個係乜

編排層係任務拆分同角色安排:Planner 負責計劃,Generator 負責實現,Evaluator 負責捉錯。多 agent 嘅關鍵唔係數量,而係角色邊界。

圖片

用喺咩場景

適合複雜功能、長文章、重構、調研、上線前檢查。唔適合簡單任務。誤用係同時開好多會話但冇隔離工作區同明確目標,最後衝突更多。

怎麼用

獨立開發場景,一個會話寫需求,一個會話實現,一個新會話審查;
寫作場景,一個會話出結構,一個會話寫正文,一個會話捉邏輯漏洞。

實踐步驟

  1. 1. 複雜任務先叫 Planner 寫計劃。
  2. 2. 實現會話淨係負責執行,唔好擴充需求。
  3. 3. 審查會話一定要係全新 context。
  4. 4. 並行開發時每個任務用獨立 worktree。
  5. 5. 合併之前由人判斷結構、取捨同風險。

三、對我真正有用嘅 4 點

1. 唔好發佈自己唔理解嘅 code

Insight

AI 可以寫實現,但責任唔可以外判。真正危險嘅唔係 AI 寫錯,而係我因為貪方便接受咗自己解釋唔到嘅嘢。

我嘅理解

我可以叫 AI 寫 iOS App、Java 工具類、腳本、測試,但架構邊界、數據流、狀態管理一定要自己睇得明。睇唔明就唔合併,呢條線唔可以鬆。

點樣用喺我身上

我嘅開發工作入面,AI PR 合併之前一定要答到三個問題:改咗啲乜、點解咁改、壞咗點樣回滾。答唔到就繼續拆細。

2. 規則應該由錯誤度生出來

Insight

預先寫 500 行規則通常係製造噪音。真正有價值嘅規則嚟自真實失敗。

我嘅理解

我以前成日將「理想嘅工作方式」寫成規範,但 AI 唔會因為規範靚就遵守。更好嘅做法係等佢犯錯,然後將錯誤工程化成約束。

點樣用喺我身上

我每個新項目都從一個空 AGENTS.md 開始:構建命令、測試命令、禁止事項,然後每次踩坑就補一條。

3. 評估者要獨立

Insight

叫同一個 AI 自己寫、自己審,自然會漏嘢。佢會偏愛自己第一個方案。

我嘅理解

呢點可以搬去寫作。我寫完文章之後,唔應該喺同一個 context 度「潤色嚇」,而係開新會話叫佢專登揾邏輯漏洞、廢話同唔成立嘅判斷。

點樣用喺我身上

寫作流程改成三步:結構會話、正文會話、審稿會話。
審稿淨係允許指出問題,唔允許直接改成一篇更「順」嘅廢話。

4. context 唔係越多越好

Insight

context 太長會腐爛,失敗方案會污染之後嘅判斷。改兩次都仲錯,繼續補丁式糾正往往更差。

我嘅理解

我需要更加果斷咁清空重來。尤其係 debug、寫複雜邏輯、做 UI 嘅時候,如果 AI 連續兩次走歪,就應該重開 context,畀佢一個乾淨嘅狀態同更窄嘅問題。

點樣用喺我身上

我嘅開發同寫作都可以採用「二次失敗重啟規則」:同一個問題糾正超過兩次,就生成當前狀態摘要,重開會話繼續。

四、經驗、反直覺點同被忽略嘅細節

最反直覺係:AI 越強,就越需要工程紀律。模型能力提升唔會自動帶嚟可靠嘅產出,反而會令人更容易過度信任佢。

容易忽略嘅係基礎設施。Stripe 嘅個案說明,AI PR 行得鬱,唔止係模型強,而係團隊本身就有測試、部署、回滾同審查信號。個人開發都一樣,冇測試同發佈清單,AI 只會將混亂放大。

一個容易誤用嘅觀點係「多 agent 並行」。並行唔係同時間開好多視窗,而係任務可以隔離、結果可以驗證、衝突可以合併。否則只係將 context 切換嘅成本轉嫁畀自己。

另外,我哋仲要保持懷疑:書入面好多高產案例證明咗速度,但係冇完全證明長期可維護性。AI 寫出嘅 code 半年後仲可唔可以繼續演進,仍然要靠架構、測試同人嘅判斷嚟兜底。

五、睇完本書,接下來需要做嘅嘢 - 可執行清單

一個可以即刻試嘅小實驗

今日揀一個細功能或者一篇短文,用三個會話完成:第一個淨係規劃,第二個淨係執行,第三個淨係審查。唔好俾同一個會話由頭包到尾。睇嚇最終返工次數係咪下降。

一個長期可以堅持嘅習慣

每星期做一次 Harness 垃圾回收:刪除過時規則、合併重複規則、補充真實錯誤、壓縮記憶文件。記錄文件行數同重複錯誤次數。

六、未來應該避免啲乜

避免將時間花喺收藏 prompt 度。真正影響長期產出嘅,唔係某句神奇嘅 prompt,而係項目自己嘅規則、回饋同記憶。

避免叫 AI 寫完之後淨係睇解釋唔睇結果。AI 嘅解釋通常好順,但結果要靠測試、截圖、日誌同 diff 嚟判斷。

避免將規則文件寫成百科。語言慣例、框架常識、AI 可以從 code 讀到嘅嘢,唔值得佔用 context。

避免接受自己睇唔明嘅實現。短期好似慳時間,長期會變成冇辦法維護嘅債務。

避免喺一個失敗嘅 context 入面無限糾正。連續兩次走歪,就應該重開,而唔係繼續將錯誤路徑加厚。

七、一句話總結

呢本書真正改變我嘅,係將「用 AI」嘅問題,改成「設計一個令 AI 不斷變可靠嘅系統」嘅問題。

2026.05.06 19:58
滬·趙巷

📌 聲明:本文由 AI 輔助完成

                 

此文是《Harness Engineering橙皮書:AI編程時代的工程方法論》讀書筆記整理。

最近讀完這本書,感覺乾貨滿滿,整理一下,方便自己,方便他人。

圖片

一、這本書真正想解決什麼問題

這本書表面上在講 Harness Engineering:給 AI agent 設計指令、約束、工具、記憶、反饋和編排,讓它不只是會聊天,而是能在真實工程環境裏穩定幹活。

它真正想解決的問題不是「怎麼讓 AI 更聰明」,而是「在 AI 已經足夠強但還不穩定的情況下,人應該怎樣重新設計工作系統」。以前我們把注意力放在 prompt 上,後來放在 context 上,但真實項目的問題更硬:AI 會誤解、偷懶、幻覺、重複犯錯、寫出自己也沒驗證過的代碼。靠一句提示詞管不住這些問題。

這本書和我現在最相關的一點是:我已經不是單純在“使用 AI”,而是在用 AI 做開發、寫作、寫產品相關文檔,以及做長期項目。真正影響結果的,不是某次對話質量,而是我有沒有把經驗沉澱成規則、工具、知識庫和反饋循環。

如果只帶走一個判斷:AI 編程時代,人的核心價值不是親手寫更多代碼,而是設計一個能讓 AI 持續產出、持續糾錯、持續積累的工作環境。

二、核心概念

1. Harness:AI 的工作環境,不是提示詞

這是什麼

Harness 是 AI 可以行動的那套殼:能讀文件、改代碼、跑測試、查資料、調用工具,也有規則、邊界和反饋。模型是腦子,Harness 是手腳、護欄和儀表盤。

圖片

用在什麼場景

適合真實項目:iOS App、AI 工具、寫作工作流、獨立產品迭代。不適合一次性閒聊或簡單問答。誤用是把 Harness 當成“更長的 prompt”,把所有規則塞進一個文件,最後反而污染上下文。

怎麼用

給每個長期項目建一個輕量入口文件,比如 AGENTS.md / CLAUDE.md:只寫 AI 從代碼裏看不出來的信息,例如構建命令、測試方式、項目禁區、發佈流程、常犯錯誤。

實踐步驟

  1. 1. 從空文件開始,不預設一堆規則。
  2. 2. 每次 AI 犯錯,只加一條能防止復發的規則。
  3. 3. 每週刪除 AI 能自己從代碼推斷出的規則。
  4. 4. 把複雜規範拆到獨立文檔,入口文件只做地圖。
  5. 5. 規則是否有效,用“同類錯誤有沒有復發”判斷。
2. 反饋層:讓 AI 必須驗證自己的工作

這是什麼

反饋層不是讓 AI 說“我檢查過了”,而是給它可執行的驗證手段:測試、lint、截圖、日誌、Playwright、DevTools、CI。

圖片

用在什麼場景

適合所有會產生結果的任務:寫代碼、改 UI、寫文章、做產品頁。不適合純概念討論。誤用是讓生成者自評,AI 很容易滿足於“看起來可以”。

怎麼用

開發中,每次改動後必須跑最小驗證;
寫作中,每篇文章用獨立會話審稿;
產品設計,則用截圖和用戶路徑驗證,而不是隻看代碼。

實踐步驟

  1. 1. 給項目列出 3 個最小驗證命令。
  2. 2. 在規則文件裏寫清楚“改完必須跑哪些檢查”。
  3. 3. UI 改動必須看截圖,不只看源碼。
  4. 4. 複雜任務開一個全新會話做 Reviewer。
  5. 5. 驗證失敗時先修 Harness,再修單點輸出。
3. 記憶層:讓錯誤變成複利

這是什麼

記憶層解決“這次踩過的坑,下次別再踩”。它可以是 MEMORY.md、項目知識庫、覆盤日誌,也可以是規則文件裏的新增約束。

用在什麼場景

適合長期項目、系列文章、App 迭代、AI 工作流。不適合短期一次性任務。誤用是把記憶當垃圾桶,什麼都往裏丟,最後 AI 找不到重點。

怎麼用

應該把 AI 協作中的高頻錯誤、項目背景、寫作口味、發佈步驟沉澱下來,但控制在 100 行以內。記憶不是資料庫,記憶是決策偏好和歷史教訓。

圖片

實踐步驟

  1. 1. 建一個項目級 MEMORY.md
  2. 2. 只記錄“AI 無法從文件推斷的信息”。
  3. 3. 每條記憶都對應一個真實錯誤或穩定偏好。
  4. 4. 每兩週壓縮一次,刪除過時內容。
  5. 5. 觀察 AI 是否減少重複解釋成本。
4. 編排層:從一個 AI 幹活到多個 AI 協作

這是什麼

編排層是任務拆分和角色安排:Planner 負責計劃,Generator 負責實現,Evaluator 負責挑錯。多 agent 的關鍵不是數量,而是角色邊界。

圖片

用在什麼場景

適合複雜功能、長文章、重構、調研、上線前檢查。不適合簡單任務。誤用是同時開很多會話但沒有隔離工作區和明確目標,最後衝突更多。

怎麼用

獨立開發場景,一個會話寫需求,一個會話實現,一個新會話審查;
寫作場景,一個會話出結構,一個會話寫正文,一個會話挑邏輯漏洞。

實踐步驟

  1. 1. 複雜任務先讓 Planner 寫計劃。
  2. 2. 實現會話只負責執行,不擴展需求。
  3. 3. 審查會話必須是全新上下文。
  4. 4. 並行開發時每個任務用獨立 worktree。
  5. 5. 合併前由人判斷結構、取捨和風險。

三、對我真正有用的 4 個點

1. 不要發佈自己不理解的代碼

Insight

AI 可以寫實現,但責任不能外包。真正危險的不是 AI 寫錯,而是我因為省事接受了自己無法解釋的東西。

我的理解

我可以讓 AI 寫 iOS App、Java 工具類、腳本、測試,但架構邊界、數據流、狀態管理必須自己看懂。看不懂就不合並,這條線不能松。

如何用在我身上

我的開發工作裏,AI PR 合併前必須能回答三個問題:改了什麼、為什麼這樣改、壞了怎麼回滾。答不上來就繼續拆小。

2. 規則應該從錯誤里長出來

Insight

提前寫 500 行規則通常是在製造噪音。真正有價值的規則來自真實失敗。

我的理解

我以前容易把“理想工作方式”寫成規範,但 AI 不會因為規範漂亮就遵守。更好的方式是等它犯錯,然後把錯誤工程化成約束。

如何用在我身上

我的每個新項目都從一個空 AGENTS.md 開始:構建命令、測試命令、禁止事項,然後每次踩坑補一條。

3. 評估者要獨立

Insight

讓同一個 AI 自己寫、自己審,天然會漏。它會偏愛自己的第一個方案。

我的理解

這點可以遷移到寫作。我寫完文章後,不應該讓同一個上下文“潤色一下”,而應該開新會話讓它專門找邏輯漏洞、廢話和不成立的判斷。

如何用在我身上

寫作流程改成三步:結構會話、正文會話、審稿會話。
審稿只允許指出問題,不允許直接改成一篇更“順”的廢話。

4. 上下文不是越多越好

Insight

上下文太長會腐爛,失敗方案會污染後續判斷。修兩次還錯,繼續補丁式糾正往往更差。

我的理解

我需要更果斷地清空重來。尤其是調 bug、寫複雜邏輯、做 UI 時,如果 AI 連續兩輪走偏,就應該重開上下文,給它乾淨的狀態和更窄的問題。

如何用在我身上

我的開發和寫作都可以採用“二次失敗重啓規則”:同一個問題糾正超過兩次,就生成當前狀態摘要,重開會話繼續。

四、經驗、反直覺點和被忽略的細節

最反直覺的是:AI 越強,越需要工程紀律。模型能力提升不會自動帶來可靠產出,反而會讓人更容易過度信任它。

容易忽略的是基礎設施。Stripe 的案例說明,AI PR 能跑起來,不只是模型強,而是團隊本來就有測試、部署、回滾和審查信號。個人開發也一樣,沒有測試和發佈清單,AI 只會把混亂放大。

一個容易誤用的觀點是“多 agent 並行”。並行不是同時開很多窗口,而是任務可隔離、結果可驗證、衝突可合併。否則只是把上下文切換成本轉嫁給自己。

此外,我們還要保持懷疑:書裏很多高產案例證明了速度,但沒有完全證明長期可維護性。AI 寫出的代碼是否能在半年後繼續演進,仍然需要靠架構、測試和人的判斷來兜底。

五、讀完此書,接下來需要做的事 - 可執行清單

一個可以立刻嘗試的小實驗

今天選一個小功能或一篇短文,用三個會話完成:第一個只規劃,第二個只執行,第三個只審查。不要讓同一個會話包辦到底。看最終返工次數是否下降。

一個長期可以堅持的習慣

每週做一次 Harness 垃圾回收:刪掉過時規則、合併重複規則、補充真實錯誤、壓縮記憶文件。記錄文件行數和重複錯誤次數。

六、未來應該避免什麼

避免把時間花在收藏提示詞上。真正影響長期產出的,不是某句神奇 prompt,而是項目自己的規則、反饋和記憶。

避免讓 AI 寫完後只看解釋不看結果。AI 的解釋經常很順,但結果要靠測試、截圖、日誌和 diff 判斷。

避免把規則文件寫成百科。語言慣例、框架常識、AI 能從代碼裏讀出來的東西,不值得占上下文。

避免接受自己看不懂的實現。短期像省時間,長期會變成無法維護的債務。

避免在一個失敗上下文裏無限糾正。連續兩次走偏,就應該重開,而不是繼續把錯誤路徑加厚。

七、一句話總結

這本書真正改變我的,是把“使用 AI”的問題,改成了“設計一個讓 AI 不斷變可靠的系統”的問題。

2026.05.06 19:58
滬·趙巷

📌 聲明:本文由 AI 輔助完成