Codex 進階,模型變強後,開發流程該怎麼重做?

作者:廢才俱樂部Club
日期:2026年6月12日 下午4:15
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

模型變強後,開發流程應由指揮變成驗收;人定目標、標準同邊界,模型自行規劃執行,但門禁同審查要更嚴。

整理版摘要

呢篇文章係作者分享佢嘅開發流程由4.0升級到5.0嘅經驗。作者本身係一個AI Agent系統嘅開發者,佢發現隨住模型能力變強,以前寫得好細嘅流程反而限制咗模型嘅發揮,所以佢提出咗一個新嘅思路:產品經理5.0。核心係人只負責定目標、定標準、定邊界,其餘點樣做交俾模型自己規劃同執行。聽落好似偷懶,但其實驗收同門禁比以前更嚴格。

作者用一個具體例子說明:4.0時佢寫咗一套完整嘅除錯流程,但5.0時成個文件縮到得41行,只保留原則。結果模型自己組織嘅除錯思路仲好過佢以前寫嘅流程。呢個轉變反映咗成個行業嘅趨勢:人由指揮每一步,退到定義咩叫做完。

整體嚟講,呢套系統叫「廢才產品經理5.0」,仍然係以Harness為骨架,但內容物換咗。Guides從詳細流程變為目標、標準同邊界;執行層嘅固定Sub-Agent由四個減到兩個;進化系統由四層改為短鏈;仲新增咗一個叫/goal自驅嘅功能,可以將成個階段交俾模型自己跑完。作者強調,呢套方案對模型要求更高,唔係更低,因為模型需要自己判斷點樣拆任務、點樣驗收、點樣除錯。

  • 結論:開發流程應從「指揮每一步」轉為「定義目標、標準同邊界」,由模型自行規劃執行,但質量門禁必須更嚴。
  • 方法:採用「廢才產品經理5.0」架構,以Harness為骨架,Guides只留驗收標準,Sensors(hook)確保確定性,Steering Loop(進化系統)改為短鏈即時生效。
  • 差異:5.0比4.0規則量大減(主控171行、11個Skill共678行),但對模型能力要求更高;新增/goal自驅,可以整段交俾模型自己跑,但Goal必須寫得可驗證。
  • 啟發:文檔驅動開發——一個session只做一個功能,先改文檔再改代碼,保持上下文集中;模型嘅執行過程唔需要太詳細嘅指引,關鍵係驗收標準同門禁。
  • 可行動點:想採用呢套系統,建議先用一個小項目跑通全流程;模型要用旗艦檔;初次上手要留意安裝步驟;而且唔係所有環節都適合自驅(例如需求訪談)。
整理重點

點解要升級到5.0

呢篇文章解決一個問題:模型已經會自己規劃、自己糾錯,管佢嘅系統應該點樣跟著升級。作者嘅答案係「產品經理5.0」,核心思路係將每一步點樣做還俾模型,人只負責定目標、定標準、定邊界。

人只負責定目標、定標準、定邊界

聽落似偷懶,其實正相反,敢咁樣放手,係因為驗收同門禁攥得比以前更緊。作者用咗一個具體例子:4.0嘅bug-fixer寫咗一套完整調試流程,5.0只留41行原則,結果模型自己安排嘅調試思路仲好過以前寫嘅流程。

整理重點

5.0嘅具體變化

5.0嘅Harness骨架冇變,但每一層嘅內容物唔同咗。Guides從詳細流程換成目標、標準同邊界;執行層嘅固定Sub-Agent由四個減到兩個;進化系統從四層升級路徑縮成當場拍板嘅短鏈;另外多咗一樣4.0完全冇嘅嘢——/goal自驅,可以將一整段開發交俾模型自己跑完。

  1. 1 產品開發拆成八個階段,每個階段對應一個Skill,另有三個Skill管體系本身。
  2. 2 product-spec-builder係少數不減反增嘅Skill,因為源頭需求採集嘅質量決定後面所有環節,佢加入咗七階段訪談同AI能力對照表。
  3. 3 design-brief-builder改為俾選擇題,將抽象詞翻譯成具體設計屬性再確認,避免誤解。
  4. 4 dev-builder刪流程最狠,只留紀律,例如改代碼前先評估影響範圍、優先複用已有組件、完成聲明必須附驗證命令同輸出。
  5. 5 bug-fixer從完整流程縮成41行原則:不猜不試、一次只改一個地方、同一bug反覆修不好就強制停下。

/goal係一條自驅指令,將完整目標整段交出去,模型自己規劃執行,驗證唔過就換路子,直到目標達成先返嚟找你。但寫好一條Goal比寫提示詞難,所以5.0專門做咗goal-creator幫手生成。

Goal範例 text
/goal 完成 DEV-PLAN Phase 6,多軌時間線核心與手動編輯。完成的標準:
1. Phase 6 交付清單逐項實現,對照清單逐項打勾貼出2. tsc --noEmit 零錯誤,輸出已貼3. code-reviewer 兩階段審查 PASS,報告已貼4. dev server 啓動無報錯,新功能可用,舊功能迴歸通過驗證方式:
- 跑 tsc --noEmit 貼輸出,啓動 dev server 貼日誌- spawn code-reviewer,貼兩階段結論約束:
- 不動 Phase 7 範圍的文件,不直推 main執行策略:目標導向,一條路不通換方法,多種都試過才停;長任務記一句進度日誌。
整理重點

質量底線:審查、hook同進化系統

敢刪流程嘅底氣全喺質量門禁。5.0嘅審查叫「推理型傳感器」,兩階段閉環:Stage 1查做對咗冇(對Spec逐條對照代碼),Stage 2查做好咗冇(代碼質量、安全、視覺)。審查失敗自動轉修復,循環到雙過先允許提交。

每個結論要麼有證據,要麼唔成立

  • 子Agent由四個減到兩個,留低code-reviewer同evolution-runner,因為呢啲工作需要獨立判斷嘅乾淨上下文。
  • 六個hook管確定性判斷:編譯門禁、自動推送、停止門禁、審查標記、反饋信號捕捉、進化提醒。作者話:「要判斷嘅俾模型,要保證嘅俾hook」。
  • 進化系統改成短鏈:你糾正後,hook抓信號,下次新session spawn evolution-runner消化成具體建議,當場逐條問你,同意即時改規則,唔同意就刪。仲有雙向進化:唔單止加規則,仲會提議刪除過時規則,同埋分層:通用規律入規則文件,項目專屬入用戶記憶。
整理重點

開發節奏:文檔驅動,一個session一個功能

AI係靠上下文驅動,即係靠文檔驅動。每個新session對項目一無所知,全部理解來自當場讀到嘅文檔。所以Product SpecDEV-PLAN呢啲文檔就係跨session接續嘅關鍵。

一個session只開發一個功能

作者推薦一個好實用嘅節奏:一個session只開發一個功能。功能做完,文檔更新,session關掉,下一個功能開新嘅。咁樣可以避免上下文過長導致模型注意力被稀釋。

  • 變更先改文檔再動代碼,文檔係唯一事實來源。上游文檔動咗,主Agent會提醒你檢查下游。
  • 設計稿權重最高,Design-Brief次之,Product-Spec管功能邏輯,UI衝突以設計稿為準。
  • 寫代碼前從設計工具讀取精確數值,寫完再逐項對照,有偏差先修再提交。
整理重點

安裝同注意事項

作者提醒,呢套方案對模型要求比4.0更高,唔係更低。詳細流程刪除後,活點樣拆、做到咩程度算合格、卡住點樣換路,全靠模型自己判斷。所以模型建議直接用旗艦檔,唔好用輕量檔省錢,否則會喺返工度加倍還返。

初次上手建議先用一個小項目跑通全流程,從一句想法跑到發佈,確認各環節嘅產出質量符合預期,再投入正經項目。安裝步驟同每個文件嘅說明喺配置包文檔度,不佔文章篇幅。

模型負責聰明,結構負責可靠

這篇文章解決一個問題,模型已經會自己規劃、自己糾錯了,管它的那套系統該怎麼跟着升級。我的答案是產品經理 5.0。核心思路一句話能說完,把每一步怎麼做還給模型,人只負責定目標、定標準、定邊界。聽起來像偷懶,其實正相反,敢這麼放手,是因為驗收和門禁攥得比以前更緊。

用過 4.0 的朋友,或者自己搭過 Agent 系統的,應該都有體會。規則這個東西是會上癮的。AI 跳了一步,你加一條規則,它臆測了一次,你再加一條,規則庫越寫越厚,看起來越來越嚴密。直到某次模型升級,你發現它本來能用更聰明的辦法解決問題,卻被你的流程摁在原地,老老實實走你半年前設計的路線。維護 4.0 這段時間,我最深的體會就是寫得越細的部分,過時得越快

舉個具體的例子。4.0 的 bug-fixer,我寫了一套完整的調試流程,先收集證據,再分析模式,接着提假設逐個驗證,最後實施修復,每一步做什麼、產出什麼,安排得清清楚楚。5.0 的 bug-fixer 整個文件只有 41 行,過程全刪了,留下的只有原則。不猜不試,沒證據不下結論。一次只改一個地方,因為同時改多處就沒法判斷哪個是真修復。同一個 bug 反覆修不好就強制停下,重新審視問題本身,那多半不是代碼層面的事。至於具體怎麼調試,它自己安排。我原本擔心刪成這樣會翻車,實際跑下來,它組織調試的思路比我當年寫的流程還合理。

整個行業都在往同一個方向走,人從指揮每一步,退到定義什麼算做完。大家現在聊的也不再是 vibe coding,是怎麼讓模型自己跑完一整段任務。

廢才產品經理 5.0 還是一套面向產品開發全流程的 Harness。這個概念 4.0 講過,Agent 等於模型加 Harness,模型提供智能,Harness 讓智能變得可用。前饋的 Guides 在行動前注入標準,反饋的 Sensors 在行動後檢查結果,進化的 Steering Loop 讓系統越用越好,這個骨架 5.0 一點沒動,動的是每一層的內容物。Guides 從詳細流程換成了目標、標準和邊界,執行層的固定 Sub-Agent 從四個減到兩個,進化系統從四層升級路徑縮成當場拍板的短鏈,另外多了一樣 4.0 完全沒有的東西,把一整段開發交給模型自己跑完的 /goal 自驅。主控文件裏的第一性原理寫得很直接,講規則、講需求、講標準,剩下你自己來,不需要把過程一步一步餵給你,那隻會壓低你的上限,規則只許更精煉、更準,不許膨脹。

落到數字上更直觀。5.0 的主控 AGENTS.md 一共 171 行,十一個 Skill 的主文件加起來 678 行,連進化規則和兩個子 Agent 定義全算上,整套系統 928 行。個別 Skill 帶着按需加載的附件,比如需求訪談的問題庫,那是刻意留厚的,後面會講為什麼。你要做的只是描述想法,從需求文檔到設計圖到代碼到發佈,按標準自動推進,嫌一步一步看着煩,還可以把一整個階段交出去,讓它自己跑完。

先從十一個 Skill 說起

前饋控制的邏輯沒變,在 Agent 動手之前注入標準,提高一次做對的概率。變的是注入的東西,4.0 注入方法論加執行流程,5.0 只注入目標、驗收標準和邊界,過程留白。產品開發還是拆成八個階段,每個階段對應一個 Skill,另有三個 Skill 在流水線之外,管這套體系本身。下面順着流水線走一遍,看每個環節刪掉了什麼、留下了什麼。刪得並不平均,有的環節反而變厚了。

product-spec-builder 負責需求收集。拿我手上的真實項目舉例,這期視頻做的 VibCut,一個跑在 Mac 上的視頻剪輯 Agent,就是用這套流程開發的。我開口說想做個視頻剪輯 Agent,它不接茬,先上網搜了一圈競品回來問我,剪映的智能字幕已經很成熟了,你的差異在哪。我說痛點不在轉字幕,在字幕出來之後,篩停頓、刪廢話、同步改時間線全靠手,一條 5 分鐘的口播要剪一個小時,我要的是一個能自己判斷該刪哪裏、動手改時間線、改完還能回滾的剪輯 Agent。它接着問第一版服務誰,所有人等於沒有人。問到最後,Spec 裏寫下的第一版用戶就一種人,剪口播的創作者。這個 Skill 是 5.0 裏少數不減反增的,訪談分七個階段,問題、用戶、範圍這些地基不過關,不解鎖後面的細節,另外還有一張 AI 能力對照表,主動告訴你現在 AI 生視頻、生圖、配音各做到了什麼程度,免得你不知道可以要什麼。道理不復雜,執行過程模型自己會,你腦子裏的需求它替你想不了,源頭採集的質量決定後面所有環節,該厚的地方就得厚

design-brief-builder 管設計規範,問法是同一個路數。它的第一條原則是形態先於視覺,先認清你做的是網頁、終端工具還是對話式 Agent,再談好不好看,拿網頁那套頁面組件的思路去套終端工具,後面每一問都是錯的。它從不問你想要什麼風格,永遠給選擇題。高級感是哪種,蘋果那種大留白,還是愛馬仕那種深色配金。信息密度要 Linear 那種緊湊,還是 Notion 那種寬鬆。你說出的每個抽象詞,都會被翻譯成具體的設計屬性再向你確認,簡潔翻成大留白加剋制配色加少字重,翻得不對,你當場就能糾正。

到了設計圖和開發計劃這兩步,留下的基本只剩規矩。design-maker 通過 Pencil 或 Figma 的 MCP 連接,直接在設計工具裏生成整套設計稿,規矩有三條。Spec 裏每個有 UI 的功能都要有頁面,漏一個,開發就只能靠猜。每個頁面不只畫默認態,空狀態、加載態、錯誤態都要有。先建可複用組件再拼頁面,免得一個按鈕畫十遍、改一次改十處。頁面裏填的是真實內容,不是佔位假文。dev-planner 這邊,讀完需求和設計先上網驗證技術選型,框架版本、兼容性、有沒有現成組件,確認完再按依賴關係把項目拆成有序的 Phase,基礎設施先做,被依賴的先做,風險高的儘量排早。硬標準兩條。每個 Phase 完成後必須能編譯、能運行、能看到效果,不允許寫一堆跑不起來的半成品。計劃裏不許出現待定、回頭再補這類佔位符,每個任務要完整到一個不瞭解項目背景的人也能照着開工。

再往下是 dev-builder,刪流程刪得最狠的地方,留下來的全是紀律。改代碼前先評估影響範圍,刪一個被多處引用的東西,先全項目搜一遍引用點,一次清乾淨。優先複用已有組件和樣式,不自造輪子。按鈕、數字、卡片必須代表真實數據和真實行為,不寫死、不留裝飾性的假功能。完成聲明必須在同一條消息裏附上剛跑的驗證命令和輸出,之前編譯過了這種話不算數,沒有當場驗證就等於沒有完成

bug-fixer 開頭講過了,從完整流程瘦身成 41 行原則。這裏補一個細節,它形成假設時一次最多三個,按可能性排序逐個驗證,被否定的記下原因不再重複驗,連續三次修復失敗強制停下重審。

流水線的出口是審查和發佈。code-review 兩階段閉環,是整套系統的質量底線,下面單獨講。release-builder 負責構建發佈,它的出發點是一句很多人栽過跟頭的話,dev 環境測通不等於打包出來能用,開發和打包後的運行環境,路徑、依賴、權限全都不同,所以必須從安裝包測起,不是從構建目錄測。發佈前有一道絕對底線叫隱私審計,對着構建產物逐項查開發者路徑、數據庫文件、環境變量、API Key、明文密碼,查到任何一項立刻停下,修完重新構建再查。能構建,不等於能發佈

流水線之外的三個,管的是體系本身。goal-creator 替你寫自驅指令,5.0 最重要的新增,馬上單獨講。evolution-engine 消化你的糾正,提煉成規則改進建議,進化那節細說。skill-builder 負責造新 Skill,只在進化系統提議、你點頭之後才出手,它是最後手段,不是常規操作。

被問得最多的一個問題

把流程刪了,過程靠什麼組織。5.0 的答案寫在主控裏,叫規劃與執行,所有環節共用同一個模式,統共不到二十行。

任何環節開工前,主 Agent 先把活拆成有序、可獨立驗收的步驟,每步寫明目標和完成標準。然後看工作能不能隔離,選執行方式,彼此耦合的自己順着做,互不依賴的並行做,能徹底隔離、需要乾淨上下文的,spawn 子 Agent 去做。執行中守三條標準。上下文自帶,開工前把相關文檔的原文讀進來,不靠記憶和摘要。結果自檢,產出對照完成標準,用證據說話。排障自驅,沒達標就自己定位自己修,循環到達標,同一個問題反覆卡住才來找你。

這次瘦身可以這麼理解,4.0 是十一份各寫各的詳細流程,5.0 是一條通用的組織模式,加十一份驗收標準。要維護的知識從每個環節怎麼做,收斂成了所有環節怎麼組織,規則量就是這麼掉下來一個量級的。

寫 Goal 不寫過程

最能體現 5.0 思路的,是這個 4.0 裏完全不存在的玩法。

/goal 是一條自驅指令,把一個完整目標整段交出去,比如完成開發計劃裏的某個 Phase,模型就開始自己規劃和執行,驗證不過就換路子,直到目標達成,或者確實山窮水盡才回來找你,中途不用你盯着。

這東西好用的前提是 Goal 本身寫得好,而這恰恰是大多數人栽的地方。完成條件寫成把功能做完,等於沒寫,模型說做完就算做完嗎?/goal 的判定器只認看得見的證據,所以完成條件必須寫成能自我證明的形式,跑了什麼命令、貼出什麼輸出、產出哪些文件、清單逐項打勾。另外還有個硬限制,整條指令 4000 字符以內,每個字都得帶信息,套話寫進去純屬浪費額度。

說實話,寫好一條 Goal 比寫好一段提示詞難。所以 5.0 專門做了 goal-creator。你說一句接下來這個階段讓它自己跑,它結合當前項目狀態和對話上下文,替你把整條指令寫好,完成標準逐條可驗證,驗證方式寫明跑什麼查什麼,約束只寫真實存在的邊界,不灌保持代碼整潔這種放之四海皆準的廢話。你過目,複製,發送,自驅就開始了。

拿 VibCut 的開發計劃舉例,它生成的指令長這樣。

/goal 完成 DEV-PLAN Phase 6,多軌時間線核心與手動編輯。

完成的標準:
1. Phase 6 交付清單逐項實現,對照清單逐項打勾貼出
2. tsc --noEmit 零錯誤,輸出已貼
3. code-reviewer 兩階段審查 PASS,報告已貼
4. dev server 啓動無報錯,新功能可用,舊功能迴歸通過

驗證方式:
- 跑 tsc --noEmit 貼輸出,啓動 dev server 貼日誌
- spawn code-reviewer,貼兩階段結論

約束:
- 不動 Phase 7 範圍的文件,不直推 main

執行策略:目標導向,一條路不通換方法,多種都試過才停;長任務記一句進度日誌。

注意第二、三條完成標準,它把項目自己的驗收門禁寫進了 Goal。這是刻意的,自驅的完成條件必須覆蓋項目門禁,不然模型幹完活,會卡在沒過審查不讓收工的關卡上進退不得。

兩個邊界提前說清。指令它替你寫,發送必須你自己來,自驅的啓動權永遠在人手裏。還有,不是所有環節都適合自驅,需求訪談這種要你來回拍板的事,交出去等於讓模型猜你想要什麼,猜得越流暢,錯得越徹底。適合交出去的是標準清晰、證據可驗的環節,開發階段最典型。

我為什麼敢刪

回頭看那條 Goal 的完成標準,第三條寫着 code-reviewer 兩階段審查 PASS,現在講的就是它。敢刪過程的底氣全在這一層,所以這一層不但沒瘦,還更嚴了。框架裏管它叫推理型傳感器,做的是需要動腦的檢查,純機械的那部分歸 hook,後面講。

閉環和 4.0 一致。功能開發完成,主 Agent 自動 spawn 獨立的 code-reviewer 做兩階段審查,審查員是嚴格 QA 的人設,只報告不修復。Stage 1 查做對了沒有,Spec 逐條對照代碼,每條功能要麼有實現並附文件行號,要麼沒有,不存在大致匹配這個選項。Stage 2 查做好了沒有,代碼質量、安全掃描、視覺還原。Stage 1 有高優先級問題就停在 Stage 1,不往下走。審查失敗自動轉修復,質量問題回 dev-builder,確屬缺陷和安全漏洞才動用 bug-fixer,修完重新審,從 Stage 1 重來,循環到雙過才允許提交。

5.0 給審查加了兩個新維度,都是開發 VibCut 時踩出來的。一個叫引導真實性,界面上的佔位符和提示文案,必須對應真實存在的功能。VibCut 就被抓過現行,輸入框的提示寫着可以用某個符號喚起技能,代碼裏卻沒有一行處理那個符號的邏輯,這種引導一律按未實現處理。另一個叫測試真實性,不只看有沒有測試,要看測試有沒有真的證明行為是對的,用假前提把缺陷蓋成預期、斷言方向寫反、只測順暢路徑從不碰故障路徑,這些看着全綠、實際什麼都沒證明的測試,全會被點名。審查員的原則一句話,每個結論要麼有證據,要麼不成立

落到每個 Phase 上,收尾要過四關,審查、測試完整性、編譯、功能測試,每一關都得拿出證據來。

子 Agent 從四個減到兩個

審查必須獨立這件事,牽出執行層的一個問題,哪些活配得上固定角色。4.0 有四個固定 Sub-Agent,編碼的、審查的、記反饋的、掃進化的,5.0 減到兩個,留下審查的 code-reviewer 和消化進化的 evolution-runner。

取捨標準只有一條,真正需要獨立判斷的工作,才值得單開一個隔離的上下文。審查必須獨立,寫代碼的上下文去審自己的代碼,會繼承自己全部的錯誤假設,你寫錯的前提,自檢時還是那個前提,審查的價值恰恰在於它不知道你怎麼想的,只看代碼和需求對不對得上。進化消化同理,它要冷靜地把你的牢騷提煉成通用規則,不該被當前對話帶着走。至於編碼,普通的任務分解配不上一個常設角色,主 Agent 自己規劃自己做,真需要隔離時臨時 spawn 一個執行型子 Agent,用完即走。記反饋的那個直接去掉了,活兒被一個 hook 加主 Agent 順手分掉。

隔離原則一點沒松。每個子 Agent 都是全新實例,不繼承 session 歷史,主 Agent 把 Spec 條目、交付清單、涉及文件、項目結構完整複製給它。執行型子 Agent 只編碼和自檢,不能再 spawn 子 Agent,也不能 commit,審查閉環和提交永遠握在主 Agent 手裏,一個子 Agent 的錯誤假設傳不到下一個任務。有一點 Codex 用戶要知道,Codex 只在主 Agent 顯式請求時才 spawn 子 Agent,不會自己派,所以審查閉環、進化消化這些環節,規則裏都寫明瞭由主 Agent 主動 spawn,這是適配時要注意的點。

六個 hook

子 Agent 管的是判斷要乾淨的活,另有一類事不需要任何判斷,但必須每次都對,這類交給 hook。六個 hook,4.0 一個沒刪,5.0 一個沒加。這層穩定的原因很簡單,它管的是確定性判斷,編譯過沒過、審沒審查、推沒推送,這種非黑即白的事跟模型聰不聰明無關,模型再升級,編譯必須通過這件事也不會過時。

pre-tool-shell 在 commit 前跑編譯檢查,不過就直接阻止提交,它還順手管一件事,啓動 dev server 前清掉佔用端口,端口被佔是很多靈異問題的來源。auto-push 在 commit 成功後自動推送遠程,保護分支除外。配套的提交紀律是原子化,一個功能一個 commit。stop-gate 在 Agent 準備收工時攔一道,代碼改了還沒過審查的,回去審完再停。mark-review-needed 盯着代碼文件,一有改動就標記待審查,和 stop-gate 配合,改了就跑不掉。detect-feedback-signal 監聽你的消息,發現糾正和不滿的措辭,把原話抓進進化隊列。check-evolution 在每次新開 session 時看一眼隊列,有積壓就提醒先處理。

取捨邏輯一句話,要判斷的給模型,要保證的給 hook。規則寫一百遍,模型也有走神的那一次,hook 是程序,程序不走神。

進化系統這次改大了

4.0 的進化走四層路徑,反饋先靜默記錄,同一條出現三次以上才升級成正式規則。設計得挺穩重,用起來太慢,一條明明白白的教訓,要眼睜睜看它犯滿三次。

5.0 改成短鏈。你糾正它,hook 把原話抓成信號入隊,措辭隱晦沒抓到的,主 Agent 自己識別自己補記。下次新開 session,主 Agent 第一件事 spawn evolution-runner,把積壓的信號消化成具體的改動建議,回來當場逐條問你。同意,立刻改進對應的規則文件。否了,信號和建議一起刪。點頭即生效,沒有緩衝期,也絕不揹着你改規則。有個適配細節順帶交代,消化放在 session 啓動時同步執行,是因為 Codex 的 hook 不支持異步後台任務,好在消化本身很輕,幾分鐘就還給你。

比速度更重要的是兩個新性質。先說雙向,它不光往裏加規則,還會掃描現有規則提議退休,你已經內化的、從沒觸發過的、和別條重複的,都是刪除候選,判斷標準是刪了它會不會復現當初的失敗,不會就刪,規則總量要能往下走,不然用久了規則又會重新堆起來。再說分層,通用規律才進規則文件,項目專屬的偏好,比如某個項目的文案口吻、某篇稿子的素材取捨,進的是用戶記憶,框架不被單個項目的口味污染。

舉個新鮮的例子,就發生在寫這篇稿子的過程裏。前一個工作 session,我陸續提了八條修改意見。新 session 一開,它消化完直接來問我,有四條信號指向同一個問題,講解類內容應該先給全景、再講原理、最後落價值,要不要立成一條正式的寫作規則。另外幾條是一次性的措辭調整,現有規則已經覆蓋,建議直接刪。我點頭的當場進了規則庫,搖頭的當場消失,全程幾分鐘。你現在讀的這篇文章,就是帶着那條新規則寫出來的。

文檔驅動,一個 session 只幹一件事

這套系統裏還藏着一個開發方法,值得單獨拎出來。

AI 是靠上下文驅動的,說白了就是靠文檔驅動的。模型不記得上一個對話,每個新 session 對你的項目一無所知,它的全部理解來自當場讀到的東西。Product Spec 和 DEV-PLAN 存在的意義就在這,新開一個 session,模型把文檔讀一遍,就知道做到哪了、接下來幹什麼。廢才啓動時的項目狀態檢測乾的就是這件事,掃一遍文檔和代碼的存在狀態,自動路由到當前該乾的環節。

順着這個邏輯往下推,會得到一個很實用的開發節奏,一個 session 只開發一個功能。功能做完,文檔更新,session 關掉,下一個功能開新的。原因不玄乎,上下文一長,模型的注意力會被稀釋,前面聊的需求被擠出去,後面寫的代碼開始跑偏,所有長對話都這個毛病。一個 session 一個功能,每次的上下文量都可控,模型始終在注意力最好的狀態下幹活。代價是一個習慣,變更先改文檔再動代碼,文檔是唯一事實來源,上游文檔動了,主 Agent 會提醒你檢查下游要不要跟着改,改不改由你拍板,它不擅自動手。

4.0 時代,跨 session 接續是上下文不夠用時的補救。5.0 把它倒過來,變成主動選擇的開發節奏。我覺得這是整套方案裏最值得學走的一個習慣,就算你不用廢才,這招也通用。

順着文檔再說一條 4.0 的老規矩,原樣保留。設計稿權重最高,Design-Brief 次之,Product-Spec 管功能邏輯,UI 衝突時以設計稿為準。連帶的紀律也還在,新增或修改 UI 必須同步更新設計稿,不然審查環節對照設計稿驗收,新功能就成了盲區。寫代碼前,dev-builder 會從設計工具裏讀取頁面的精確數值,寬高、間距、字號、顏色、圓角,每個任務都重新讀,不憑記憶,寫完再把代碼實際值和設計值逐項對照,有偏差先修再提交。

醜話說在前面。和 4.0 一樣,別期待一步到位,完整產品不可能一個 session 跑完,靠文檔接續,文檔不更新它就接不上。設計圖那步依賴支持 MCP 的設計工具,沒有就跳過,靠 Design-Brief 兜底。/goal 自驅不替你做產品決策,需求沒想清楚,它只會把錯的東西高效地做完。這套流程是給認真要落地的產品準備的,隨手搓個一次性 demo 犯不上。

還有一句更要緊的,這套方案對模型的要求比 4.0 更高,不是更低。詳細流程刪掉之後,活怎麼拆、做到什麼程度算合格、卡住了怎麼換路,全靠模型自己判斷。需求訪談靠它追問出真需求,追問不到位,後面全在錯誤的基準上跑。開發執行靠它誠實自檢,一個把沒驗證說成應該沒問題的模型,會污染整條流水線。審查靠它逐條對照給證據,進化靠它從你的牢騷裏提煉通用規律。底子不夠的模型,撐不住這種程度的放手。所以模型建議直接用旗艦檔,別用輕量檔省錢,省下的會在返工里加倍還回去。Sub-Agent 各有獨立上下文,token 消耗隨任務量增長,心裏要有數。初次上手建議先拿一個小項目跑通全流程,從一句想法跑到發佈,確認各環節的產出質量符合預期,再投入正經項目。

最後交代一下安裝

真決定上手的話,這裏只給個輪廓,完整的安裝步驟和每個文件的說明在配置包文檔裏,不佔文章的篇幅。這套方案我做了 Codex 和 Claude Code 兩套適配,結構完全同構,Claude Code 版把 AGENTS.md 換成 CLAUDE.md,.codex 換成 .claude,hooks.json 換成 settings.json,其餘一一對應。

以 Codex 版為例,裝完之後你的項目裏多了這些東西。根目錄一份 AGENTS.md 主控,Codex 啓動會自動讀它,171 行裝下角色、第一性原理、執行模式和全部調度規則。.agents/skills/ 下十一個 Skill 各佔一個文件夾,什麼時候被自動觸發由 SKILL.md 的 description 決定,也可以用 /skills 手動調用,訪談問題庫這類重型附件放在 references/ 裏按需加載,平時不佔上下文。.codex/ 裏是技術層,config.toml 配模型和 MCP,六個 hook 腳本加一份觸發時機的綁定,兩個 TOML 文件定義 code-reviewer 和 evolution-runner,進化規則寫在 EVOLUTION.md,信號隊列 signals.jsonl 和待拍板的 proposals.md 也在這。4.0 的 feedback 目錄和一堆模板文件,到此正式退役。跑起來之後,Product-Spec、DEV-PLAN 這些文檔會在對應環節自動生成在項目根目錄,它們就是跨 session 接續的全部依據。

把整套系統畫成一張圖,和 4.0 那張對照着看,能看出哪層瘦了、哪層換了、哪層一動沒動。

┌────────────────────────────────────────────────────────┐
│  調度層   AGENTS.md 主控(廢才)171 行                   │
│           項目狀態檢測、流程路由、規劃與執行、Skill 調度   │
├────────────────────────────────────────────────────────┤
│  引導層   Skill × 11(Guides,從詳細流程換成驗收標準)    │
│           流水線八個   需求 / 設計規範 / 設計圖 / 計劃     │
│                        開發 / 修復 / 審查 / 發佈          │
│           體系三個     自驅指令 / 進化消化 / 新 Skill 生成 │
├────────────────────────────────────────────────────────┤
│  執行層   固定 Sub-Agent × 2 + 臨時執行型子 Agent        │
│           code-reviewer 獨立審查                         │
│           evolution-runner 消化進化信號                   │
├────────────────────────────────────────────────────────┤
│  檢查層   Hook × 6 + Review→Fix 閉環(Sensors)          │
│           編譯門禁 審查門禁 停止門禁 信號捕捉              │
├────────────────────────────────────────────────────────┤
│  進化層   signals.jsonl → proposals.md → 逐條拍板         │
│           Steering Loop 規則可進可退                      │
└────────────────────────────────────────────────────────┘

如果你想把這套思路搬去搭自己的 Agent 系統,判斷標準濃縮成三條。給模型的知識寫成 Skill,只寫什麼時候用、要什麼輸入、按什麼標準驗收、產出什麼,過程讓它自己定,重型知識拆出去按需加載,平時不佔上下文。需要獨立判斷、乾淨上下文或真正並行的工作,才 spawn 子 Agent,單純想給功能分類不算理由。必須每次都對的檢查寫成 hook,交給程序。

一句話概括 5.0 的設計觀,模型負責聰明,結構負責可靠

最後說一句。模型每升一級,你寫的詳細流程就過時一截,但什麼算做好不會過時,驗收標準不會過時,門禁不會過時。5.0 刪掉的從來不是約束,是那種模型不行、我得替它想好每一步的不信任



圖片