OpenSpec 項目實戰（八）| 3 期改造、2 處修復、verify 第 4 維度依然缺席後，我把工作流拆成三檔

作者：術哥無界

日期：2026年6月8日上午8:30

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

OpenSpec改造揭示後置檢查天花板，術哥提出三檔工作流：按風險選擇流程強度，平衡速度與質量

整理版摘要

呢篇文章係術哥喺OpenSpec v1.3.1項目實戰系列嘅第八篇。佢之前幾期改造咗tasks template、拆分review同verify職責、統一verify SKILL.md嘅定義，但第7期修完後verify報告仍然只得3個維度，Task Granularity缺席。呢次佢唔急住寫新功能，反而覆盤咗三期改造嘅實際效果同共同缺口，發現後置檢查（template、review、verify）有用但有天花板——AI係概率性執行者，唔係確定性機器，讀咗規則唔等於遵守。

為咗解決呢個問題，術哥提出咗三檔工作流：快速檔（低風險改動，靠瀏覽器確認兜底）、標準檔（普通功能開發，用Superpowers writing-plans管執行顆粒度）、嚴格檔（高風險改動，行TDD加兩階段review）。每檔有明確嘅適用場景、工具組合同質量門檻，核心係「改錯代價越高，流程越嚴格」。佢仲用shuge AI Toolbox嚟舉例，講清楚每檔適合咩改動。

最後佢規劃咗第9至15期嘅實戰計劃，直接用呢三檔流程驗證唔同場景，目標係用數據驅動嚟校準工作流效率。總括嚟講，呢篇文嘅結論係：AI編程要管理嘅係風險，唔係儀式感；OpenSpec管「做咩」，Superpowers管「點做」，兩套工具唔係二選一，而係按風險組合使用。

第7期verify修復實驗表明：即使全鏈路統一，AI仍可能唔跟模板輸出，提示詞約束有概率性天花板
三層改造各有收穫（template生效、review拆分有用），但共同缺口係後置檢查無法保證執行紀律，AI報告不能盡信
解決方案係三檔工作流：快速檔靠瀏覽器確認、標準檔靠writing-plans、嚴格檔靠TDD+review，按風險選擇流程強度
快速檔約5分鐘額外成本，標準檔約15-20分鐘，嚴格檔約30-40分鐘，用時間換質量保證
後續第9-15期會用呢三檔流程實戰驗證：標準檔實現Markdown預覽、嚴格檔寫正則測試器、快速檔優化UI等

結構示例

結構示例 text

### Summary| Dimension    | Status              ||--------------|---------------------|| Completeness | 11/11 tasks, 7/8 scenarios || Correctness  | Requirement implemented, 1 scenario uncovered || Coherence    | Followed/Issues  |

整理重點

第7期verify修復實驗：全鏈路改咗，AI仲係行老路

術哥先交代第7期修咗咩。原本verify SKILL.md入面有內部矛盾：L46定義話有four dimensions，但Summary Scorecard模板（L117-127）得3行，Graceful Degradation段（L159-164）亦寫住verify all three dimensions。佢改咗兩處，加返Task Granularity行，將three改做four，以為咁就可以見到第4維度。

全鏈路統一後，AI仍然按慣性輸出3維度

執行/opsx:verify後，報告Summary得Completeness、Correctness、Coherence三行，Task Granularity完全冇出現。術哥話呢個結果有啲意外，但反映出一個反直覺嘅點：AI生成輸出時唔係逐項填模板，佢有自己嘅慣性路徑。

不過術哥補充，雖然第4維度缺席，但verify喺其他3個維度發揮咗實際價值——佢發現咗1個CRITICAL issue（大文件JSON解析漏咗size check）同1個WARNING（有效JSON點擊語法校驗按鈕嘅測試用例缺失）。所以結論唔係verify冇用，而係純後置檢查有天花板。

verify有用，但提示詞約束嘅天花板仍然存在

整理重點

三層改造效果回顧：後置檢查嘅共同缺口

術哥將第5-7期放埋一齊睇：第5期改tasks template生效，因為template優先級高過instruction；第6期拆分review/verify職責部分生效，review嘅拆分方向建議有參考價值，但verify第4維度因內部矛盾未生效；第7期修完矛盾後仍未生效。

1 第5期：template改造生效，tasks格式規範，經驗係「template比instruction更能約束輸出格式」
2 第6期：review從5維度減到4維度，為tasks提供拆分方向建議；verify新增第4維度但未生效
3 第7期：全鏈路同步後AI仍然唔跟模板，Task Granularity缺席

三層改造嘅共同缺口有幾個：task checkbox唔代表真係跟TDD執行；verify報告唔能替代fresh test/build/browser；AI完成報告唔可以直接信。術哥指出呢啲問題根源係同一條：AI係概率性執行者，佢讀咗規則唔等於遵守，標咗完成唔等於真係完成。

缺口：checkbox唔代表執行、verify唔能替代測試、AI報告唔能信

概率性執行者呢個根因解釋咗所有後置檢查嘅侷限

整理重點

三檔工作流：按風險選擇流程強度

術哥提出將工作流分三檔，每檔有唔同適用場景、工具組合同質量門檻。快速檔適合低風險改動（文案、樣式微調），流程係OpenSpec + fresh verify + 瀏覽器檢查，質量門檻係fresh verification，唔信AI報告，約5分鐘額外成本。

快速檔：改按鈕顏色、調整間距，風險低，靠瀏覽器兜底
標準檔：實現新工具（如Markdown預覽），有明確輸入輸出，用writing-plans管執行顆粒度，約15-20分鐘
嚴格檔：bug修復、公共模塊重構，必須先有失敗測試或根因分析，加兩階段review，約30-40分鐘

術哥仲用shuge AI Toolbox舉例：工具頁標題改措辭用快速檔；實現時間戳轉換工具用標準檔；重構公共基礎組件用嚴格檔。呢個原則同軟件工程講嘅風險驅動測試係同一思路——唔係所有代碼都需要100%測試覆蓋，但高風險代碼必須有測試。

OpenSpec管「做咩」，Superpowers管「點做」

三檔工作流按風險組合兩套工具，唔係二選一

整理重點

第9-15期規劃：用實戰校準三檔流程

術哥已經定好第9-15期嘅檔位分配：第9期標準檔實現Markdown預覽工具，驗證writing-plans嘅顆粒度價值；第10期嚴格檔寫正則測試器，驗證TDD喺複雜邏輯中嘅效果；第11期快速檔做工具頁體驗優化，睇下輕量流程對低風險改動係咪夠用。

1 第9期（標準檔）：Markdown預覽工具，關鍵驗證點係writing-plans能唔能唔拖慢速度而令任務顆粒度更可控
2 第10期（嚴格檔）：正則測試器，TDD嘅Red-Green-Refactor循環能否提高邊界條件處理
3 第11期（快速檔）：工具頁UI微調，驗證輕量流程對低風險改動係咪足夠
4 第12期（標準檔）：時間戳轉換工具，同第9期對比標準檔嘅穩定性
5 第13期（嚴格檔）：修復真實Bug，測試systematic-debugging嘅實際效果
6 第14期（嚴格檔）：重構工具頁公共基礎，因為一處改動影響所有工具
7 第15期（覆盤）：收集第9-14期嘅速度同質量數據，校準三檔流程

關鍵驗證點：writing-plans顆粒度、TDD邊界條件、systematic-debugging效果

整理重點

真正要管理嘅係風險，唔係儀式感

術哥回顧第5-7期改造路徑，其實都係答緊同一個問題：點樣令AI編程嘅產出質量可控。第5期用template，有效但只管輸出格式；第6期拆review/verify，有效但後置檢查有天花板；第7期修矛盾，但AI唔跟模板。

後置檢查有用，但不能保證執行過程本身係啱

三檔工作流將質量保證從後置檢查向前移：快速檔靠瀏覽器確認兜底，標準檔靠writing-plans做計劃前置，嚴格檔靠TDD同review管執行過程。風險越高，前置越多。

術哥話，如果將三檔工作流壓縮成一條規則就係咁。唔好追求流程嘅儀式感，而係管理風險。OpenSpec同Superpowers各管一段，按風險組合用。

OpenSpec管「做咩」，Superpowers管「點做」

兩套工具唔係二選一，係按風險選擇組合強度

🚩 2026 年「術哥無界」系列實戰文件 X 篇原創計劃第 133 篇，OpenSpec 項目實戰「2026」系列第 8 篇
大家好，歡迎嚟到 術哥無界 | ShugeX ｜運維有術。
我是術哥，一個專注於 AI 編程、AI 智能體、Agent Skills、MCP、雲原生、AIOps、Milvus 向量數據庫嘅技術實踐者同開源佈道者！
Talk is cheap, let's explore。無界探索，有術而行。

信息圖封面：verify 實驗結果 + 三檔工作流 — 資訊圖封面：verify 實驗結果 + 三檔工作流程

圖：verify 實驗結果 + 三層改造覆盤 + 三檔工作流程設計

說明：本文內容係基於 OpenSpec v1.3.1 實際項目操作記錄同讀者反饋整理。verify SKILL.md 修復同三層改造效果都喺 shuge-ai-toolbox 項目中實際驗證，但 verify 第 4 維度（Task Granularity）修復後仍然未生效，文中如實記錄。文中嘅配置修改同代碼僅供參考，實際效果請以你嘅項目環境測試結果為準。如果有實際使用經驗，歡迎喺評論區分享交流。

第 5 期改咗 tasks template，tasks 格式穩咗。OpenSpec 項目實戰（五）｜UI 視覺打磨 + 改 template 令 AI 寫出規範任務

第 6 期拆咗 review 同 verify 嘅職責，review 給出嘅拆分方向建議有咗參考價值。OpenSpec 項目實戰（六） | review 拆分 + verify 增強 + 實現第一個工具

第 7 期將 verify SKILL.md 裏便兩處矛盾同步修咗，以為今次總算可以見到第 4 維度 Task Granularity 出現喺報告裏便。OpenSpec 項目實戰（七）| verify 2 個工具、3 處修復，第 4 維度依然缺席

結果：verify 報告 Summary 表格仍然只有 3 行。Completeness、Correctness、Coherence，同改之前一模一樣。

呢一期唔寫新功能，專門覆盤第 7 期 verify 修復實驗嘅真實結果，梳理第 5-7 期三層改造各解決咗啲咩、仲缺啲咩，然後給出後續系列嘅工作流程規則——按風險揀流程強度，唔再一刀切。

完整流程如下：工作流總覽

第 7 期 verify 修復實驗：改咗全鏈路，AI 仍然按老路徑走

先交代第 7 期修咗啲咩。

第 6 期喺 verify SKILL.md 裏便新增咗第 4 維度 Task Granularity，但執行 /opsx:verify 後報告淨係輸出咗 3 個維度。當時翻咗一遍源文件，根因係 SKILL.md 內部矛盾——L46 定義部分寫咗 four dimensions，但後面兩處引用仲停留喺 three：

Summary Scorecard 模板（L117-127）：表格得 3 行，缺 Task Granularity 行
Graceful Degradation 段（L159-164）：最後一句寫嘅係 verify all three dimensions

第 7 期改咗兩處：Summary Scorecard 加咗 Task Granularity 行（| Task Granularity | Format/TDD/Code |），Graceful Degradation 嘅 three 改成 four。改動好細。

修完之後直接行 Propose → Apply → Verify，今期 verify 階段應該可以用到修復後嘅配置。執行 /opsx:verify 之後，AI 輸出嘅報告係咁嘅：

### Summary
| Dimension    | Status              |
|--------------|---------------------|
| Completeness | 11/11 tasks, 7/8 scenarios |
| Correctness  | Requirement implemented, 1 scenario uncovered |
| Coherence    | Followed/Issues  |

3 行。Task Granularity 冇出現。定義、模板、退化邏輯全鏈路統一咗，AI 生成報告時依然跳過咗模板，按慣性輸出。

老實講，見到呢個結果嘅時候有啲意外。修之前以為係改定義冇改引用嘅問題，引用同步之後應該就可以生效。但實際情況係，就算全鏈路都對齊咗，AI 在生成輸出時並唔嚴格按模板逐項填充——佢自己有慣性路徑，讀到模板但唔一定會照住行。

有個反直覺嘅點值得記錄：verify 報告雖然缺咗第 4 維度，但喺其他 3 個維度上發揮咗實際價值。呢啲係第 7 期 /opsx:verify 嘅實際輸出——佢發現咗 1 個 CRITICAL issue，spec 裏便定義咗大檔案 JSON 解析場景（超過 1MB 要提示用戶），但實現中冇做 size check。仲發現咗 1 個 WARNING，有效 JSON 點擊語法校驗按鈕嘅測試用例缺失。呢啲係 specs 寫咗但 tasks 冇覆蓋到嘅場景，verify 將佢哋撈咗出嚟。

所以結論唔係verify 冇用，而是verify 嘅後置檢查有用，但純提示詞約束有天花板。

再睇 verify SKILL.md 嘅當前版本——L46-54 確實定義咗四個維度，Task Granularity 下面仲詳細拆咗四項檢查：任務格式（### 任務 N）、TDD 合規（Red/Green/Refactor）、代碼完整性（冇 TBD/TODO）、粒度評估（2-5 分鐘範圍）。定義本身冇問題。Summary Scorecard 模板都加咗 Task Granularity 行。Graceful Degradation 都改咗做 four。全鏈路都啱，但 AI 就係唔輸出。

呢個俾咗一個好實際嘅教訓：提示詞約束係一條鏈路，唔係孤立嘅定義。L46 寫得幾靚都冇用，後面模板同退化邏輯冇跟上，執行層就按舊路徑行。但反轉都成立——全鏈路都跟上咗，都唔代表 AI 一定會照住行。呢個係提示詞約束同代碼邏輯嘅本質區別：代碼係確定性嘅，提示詞係概率性嘅。你改咗代碼裏便嘅 if (x === 3) 變成 if (x === 4)，行為一定會變。你改咗提示詞裏便嘅 three 變成 four，行為可能唔變。

verify 報告 3 維度 vs SKILL.md 定義的 4 維度 — verify 報告 3 維度 vs SKILL.md 定義嘅 4 維度

圖：SKILL.md 定義了 4 個維度，AI 實際只輸出了 3 個，Task Granularity 缺席

三層改造解決了什麼，沒解決什麼

把第 5-7 期放在一起看，每期改造的效果很清楚。

第 5 期：template 改造（生效）

前 4 期嘅 tasks.md 格式都唔啱——## 1. + - [ ] 1.1 嘅扁平列表，AI 唔會按 TDD 五步結構拆任務。改 instruction 無效，根因係 OpenSpec 源碼裏便 template 優先級高過 instruction。舊 template 用嘅就係 ## 1. 格式。

改咗 tasks template，換成 ### 任務 N：[名稱] + 涉及文件列表 + TDD 五步結構（寫失敗測試 → 確認失敗 → 寫最小實現 → 確認通過 → 提交）。從第 5 期起 tasks.md 格式規範咗，後續幾期都穩定輸出。

呢條經驗好直接：template 比 instruction 更加能夠約束輸出格式。

第 6 期：review/verify 職責拆分（部分生效）

讀者反饋：review 維度 5（任務粒度審查）係一個擺設——review 喺 tasks 之前生成，根本睇唔到 tasks.md，點樣審查任務粒度？

改咗兩個方向。review 從 5 維度減到 4 維度，將維度 5 去掉，改為為 tasks 提供拆分方向建議。verify 從 3 維度加到 4 維度，新增 Task Granularity 維度。

效果：review 嘅拆分方向建議有參考價值——第 6 期同第 7 期都輸出咗先純函數、再組件、最後路由嘅建議，同實際 tasks 拆分一致。verify 第 4 維度未生效（因內部矛盾，第 7 期修咗矛盾後仍未生效）。

第 7 期：verify 閉環修復（未生效）

上一個章節已經詳細講咗。全鏈路同步之後 AI 仍然按 3 維度輸出。

三層改造嘅共同缺口

三層改造各有收穫，但有幾個問題係佢哋都解決唔到嘅：

task checkbox 唔能夠證明真係按 TDD 執行：tasks.md 裏便嘅 [x] 淨係記錄 AI 聲稱嘅狀態，唔記錄實際執行過程。AI 可以標 [x] 但實際跳過咗某啲步驟
verify 報告唔能夠替代 fresh test/build/browser：verify 係 AI 自己審自己。第 7 期 verify 發現咗遺漏場景，但 json-formatter 嘅 export default bug 係瀏覽器檢查先至發現嘅
AI 完成報告唔可以直接信：apply 階段嘅完成報告標咗 11/11 tasks complete，但 json-formatter 嘅 index.tsx 少咗 export default，頁面加載直接卡死
對低風險任務使用完整流程會拖慢速度：唔係每個改動都需要完整 TDD + review + verify。改個按鈕顏色行全套流程，投入產出比太低

呢四個缺口指向同一個問題：質量保證唔能夠只靠後置檢查，執行過程嘅紀律同樣重要。而後置檢查嘅約束力，又受限制於 AI 對提示詞模板嘅遵循程度。

換個角度講，呢三個問題（checkbox 唔代表執行、verify 唔能夠替代測試、AI 報告唔可以直接信）本質上都係同一個根因：AI 係概率性嘅執行者，唔係確定性嘅機器。佢讀咗規則唔等於遵守規則，標咗完成唔等於真係完成，通過咗 verify 唔等於代碼冇問題。要彌補呢個差距，一係喺執行過程中加強紀律（令 AI 一定要按規則行），一係喺驗證環節引入獨立證據（唔信任 AI 自己嘅輸出）。前者係 Superpowers 嘅思路，後者係瀏覽器檢查同 fresh test 嘅思路。

圖：第 5-7 期改造效果 + 共同缺口

點解要引入 Superpowers，但唔全量照搬

三層改造暴露嘅缺口，啱啱對應 Superpowers 幾個核心 skill 要解決嘅問題。

writing-plans 解決嘅係任務顆粒度不可控。佢將每個任務拆成 2-5 分鐘嘅步驟，每步有明確嘅文件路徑、代碼模板同驗證命令。計劃顆粒度由結構化模板約束，唔依賴 AI 自覺。呢個啱啱補返咗task checkbox 唔能夠證明執行過程嘅缺口——唔係令 AI 聲稱做咗啲咩，而係喺計劃階段就將每一步要做啲咩定死。

test-driven-development 解決嘅係核心邏輯冇先驗證。佢嘅鐵律係先寫失敗測試，再寫最小實現。Red-Green-Refactor 循環。如果冇見到測試失敗，你唔知佢測試咗啲咩。呢個直接補返咗TDD 執行紀律嘅缺口。

verification-before-completion 解決嘅係AI 完成報告唔可以信。佢嘅核心原則係證據優先，唔允許喺驗證前聲稱完成。任何完成聲明必須有 fresh verification evidence。唔信任 AI 嘅成功報告。呢個對應第 7 期 json-formatter 嘅 export default bug——AI 標咗 11/11 complete 但實際有 bug，如果有 fresh browser check 就唔會漏過去。

subagent-driven-development 解決嘅係高風險改動需要獨立審查。每個任務派一個獨立 subagent 執行，兩階段 review：spec compliance review + code quality review。唔喺任務之間暫停等確認，連續執行。呢個適合核心邏輯、bugfix、公共模塊重構呢類一處錯誤影響多個工具嘅場景。

但係唔係所有任務都需要上呢套完整流程。

寫個按鈕文案改顏色，唔需要 writing-plans 拆成 2-5 分鐘步驟。調個 CSS 間距，唔需要先寫失敗測試。工具頁標題改個措辭，唔需要 subagent 兩階段 review。

講白啲，Superpowers 嘅每個 skill 都有適用場景，但如果所有改動都行全套流程，速度會慢到唔實用。項目實戰需要速度，唔能夠只追求流程嘅完備。

所以答案唔係OpenSpec vs Superpowers 二選一，亦唔係所有任務都上 Superpowers 嚴格檔。答案係按風險揀流程強度。

三檔工作流程：快速檔、標準檔、嚴格檔

基於上面嘅分析，後續系列嘅工作流程分三檔。每檔嘅適用場景、工具組合、質量門檻同速度成本都唔同。

快速檔：低風險改動

適用場景：文案調整、樣式微調、小範圍 UI 交互優化。可以通過瀏覽器同截圖快速確認嘅改動。改錯咗都唔影響其他功能。

執行流程：

OpenSpec propose/tasks/apply
→ /opsx:verify
→ npm run build
→ 瀏覽器檢查主路徑
→ /opsx:archive

質量門檻：

fresh verification，唔憑 AI 嘅完成報告話好了——第 7 期就係 AI 標咗 11/11 但頁面加載卡死
必須瀏覽器確認主路徑——export default 嘅 bug 只有瀏覽器先發現到
唔強制完整 TDD——改個按鈕顏色唔需要先寫失敗測試

速度：同之前嘅 OpenSpec 單工具流程基本一樣，多咗一步瀏覽器確認。預估額外成本約 5 分鐘。呢度嘅時間係流程設計估算，唔係今期實測耗時。

喺 shuge AI Toolbox 裏便，快速檔適合嘅場景：工具頁標題改措辭、調整 textarea 高度、修改按鈕 hover 效果、調整頁面間距、修改提示文案。呢啲改動嘅共同特徵係：影響範圍小（淨係改一個組件甚至一行 CSS），驗證方法直觀（睇一眼就知道啱唔啱），回滾成本低（改返就得）。

快速檔嘅底線係唔慳瀏覽器檢查。就算只係改咗一行 CSS，都要打開頁面睇一眼實際效果。呢 5 分鐘嘅投入，可以攔住AI 標咗完成但頁面冇變或改咗顏色但影響咗其他元素呢類低級問題。

標準檔：普通功能開發

適用場景：一個獨立工具嘅實現。有明確嘅輸入輸出。有核心純函數或可測試邏輯。改錯咗隻影響呢一個工具。

執行流程：

OpenSpec propose
→ proposal/specs/design/review/tasks 全套工件
→ Superpowers writing-plans 展開執行計劃
→ /opsx:apply 執行
→ /opsx:verify + test + build + 瀏覽器檢查
→ /opsx:archive

質量門檻：

OpenSpec 管規格邊界——proposal、specs、design 定義做啲咩同唔做
Superpowers writing-plans 管執行顆粒度——將任務拆成 2-5 分鐘步驟，每步有文件路徑同驗證命令
核心邏輯必須測試——純函數優先寫測試
verify 必須記錄真實輸出——唔可以概括，引用原文

速度：比快速檔多一個 writing-plans 環節。預估額外成本約 15-20 分鐘，換嚟嘅係任務顆粒度嘅可控同執行紀律嘅保證。呢個數字後續要喺第 9、12 期實戰中校準。

喺 shuge AI Toolbox 裏便，標準檔適合嘅場景：實現一個新嘅工具（Markdown 預覽、時間戳轉換等）、給現有工具加新功能按鈕、修改工具頁嘅交互邏輯。

嚴格檔：高風險改動

適用場景：bug 修復、公共模塊重構、路由同狀態管理嘅改動、核心算法修改。一處錯誤會影響多個工具或整個平台。

執行流程：

OpenSpec propose
→ Superpowers writing-plans 展開執行計劃
→ TDD 或 systematic-debugging
→ spec compliance review
→ code quality review
→ final verification
→ /opsx:archive

質量門檻：

先有失敗測試或根因分析——bug 修復必須有能夠復現嘅失敗測試，唔可以只係改咗代碼就話修好咗
每個重要任務有 review——spec compliance 確認實現咗需求，code quality 確認代碼質量達標
唔允許只係靠 build 通過就話完成——第 7 期 build 通過咗，但 export default bug 仲喺度

速度：比標準檔多 TDD + 兩階段 review。預估額外成本約 30-40 分鐘，換嚟嘅係高風險改動嘅質量保證。呢個數字同樣係預估，後續要用嚴格檔實戰校準。改錯咗代價好高嘅地方，呢筆投入值得。

喺 shuge AI Toolbox 裏便，嚴格檔適合嘅場景：修復一個影響多個工具嘅 bug、重構工具頁嘅公共基礎組件、修改路由或狀態管理嘅核心邏輯。

三檔對比

檔位	適用場景	工具組合	質量門檻	預估額外時間成本
快速檔	文案、樣式、低風險體驗優化	OpenSpec + fresh verify	build + 瀏覽器確認主路徑	約 5 分鐘
標準檔	普通工具功能、明確輸入輸出	OpenSpec + Superpowers writing-plans	plan 顆粒度 + 測試 + build + 瀏覽器檢查	約 15-20 分鐘
嚴格檔	核心邏輯、bugfix、公共重構	OpenSpec + Superpowers TDD/debug/review	失敗測試/根因證據 + review loop + final verification	約 30-40 分鐘

選擇標準就一句話：改錯咗代價有幾高？代價越高，流程越嚴格。

改個按鈕顏色，代價係用戶點兩下發現唔啱，改返就得。行快速檔。實現一個新工具，代價係工具不可用但唔影響其他功能。行標準檔。重構公共基礎組件，代價係一個改動可能影響所有工具。行嚴格檔。

圖：三檔工作流程嘅選擇邏輯——風險越高，流程越嚴格

你喺項目中係點樣分級嘅？或者話，你覺得呢種按風險分級嘅思路喺實際項目中可行嗎？歡迎喺評論區傾下。

後續系列點樣用呢三檔

第 9-15 期嘅檔位分配已經定好咗，每期用對應嘅流程強度。

第 9 期：標準檔，Markdown 預覽工具

呢個將係三檔工作流程嘅第一個實戰驗證。用標準檔實現 Markdown 預覽工具：OpenSpec 管規格同工件，Superpowers writing-plans 管執行顆粒度。

關鍵驗證點：writing-plans 可唔可以在唔明顯拖慢速度嘅前提下，令任務顆粒度比純 OpenSpec tasks.md 更可控。如果 writing-plans 展開嘅執行計劃比 OpenSpec tasks 更細，而且 apply 階段 AI 嘅執行更準確，咁標準檔就有價值。如果 writing-plans 只係多咗一層文檔但執行效果差不多，咁就需要調整策略。

第 10 期：嚴格檔，正則測試器

正則測試器嘅核心係正則表達式引擎同匹配高亮。呢個係有複雜邏輯嘅工具，適合用 TDD 驅動。先寫失敗測試確認正則匹配行為，再寫最小實現。

關鍵驗證點：TDD 嘅 Red-Green-Refactor 循環喺 AI 編程中係咪真係可以提高代碼質量。正則表達式嘅邊界條件多（空輸入、非法正則、超長匹配），TDD 可以提前暴露呢啲邊界。

第 11 期：快速檔，工具頁體驗優化

喺前兩期嚴格同標準檔之後，插一期快速檔。純 UI/UX 微調：按鈕間距、交互反饋、加載狀態、錯誤提示樣式。行快速檔流程，驗證低風險改動用輕量流程係咪足夠。

第 12 期：標準檔，時間戳轉換工具

繼續用標準檔實現新工具。同第 9 期對比，睇標準檔喺唔同工具上嘅穩定性同效率。

第 13 期：嚴格檔，修復真實 Bug

喺第 9-12 期嘅工具開發過程中，大概率會積累一啲 bug。第 13 期專門用一個 change 修一個真實 bug，行嚴格檔：先復現、寫失敗測試、定位根因、修復、verify。

關鍵驗證點：systematic-debugging 喺 AI 編程中嘅實際效果。可唔可以通過根因分析而唔係盲目改代碼嚟修復 bug。

第 14 期：嚴格檔，重構工具頁公共基礎

到第 13 期，shuge AI Toolbox 應該有 5-6 個工具喇。每個工具頁都獨立實現，但組件模式高度相似（textarea + 操作控件 + 結果展示）。呢期重構公共基礎，提取共享組件。

行嚴格檔嘅原因：一處改動影響所有工具。重構時唔可以破壞現有功能，每個改動都需要驗證。

第 15 期：覆盤

唔寫新功能，覆盤第 9-14 期嘅速度同質量數據。三檔工作流程喺 6 期實戰中嘅表現：快速檔夠唔夠快、標準檔值唔值額外 15 分鐘、嚴格檔嘅 review 有冇真正攔住問題。

規劃總覽

期數	檔位	內容	關鍵驗證點
第 9 期	標準檔	Markdown 預覽工具	writing-plans 嘅顆粒度價值
第 10 期	嚴格檔	正則測試器	TDD 喺複雜邏輯中嘅效果
第 11 期	快速檔	工具頁體驗優化	輕量流程對低風險改動係咪夠用
第 12 期	標準檔	時間戳轉換工具	標準檔喺唔同工具上嘅穩定性
第 13 期	嚴格檔	修復真實 Bug	systematic-debugging 嘅實際效果
第 14 期	嚴格檔	重構工具頁公共基礎	嚴格檔對高風險重構嘅保護
第 15 期	覆盤	三檔工作流程速度同質量	數據驅動嘅流程評估

回顧：真正要管理嘅係風險，唔係儀式感

回頭睇下第 5-7 期嘅改造路徑，其實係喺回答同一個問題：點樣令 AI 編程嘅產出質量可控。

第 5 期嘅答案係多改 template。有效，但淨係管輸出格式。第 6 期嘅答案係拆 review 同 verify 嘅職責。有效，但後置檢查有天花板。第 7 期嘅答案係將 verify 嘅內部矛盾修完。做咗，但 AI 唔按模板行。

三層改造嘅共同侷限係：都喺後置檢查上做文章。template 管格式係後置嘅（format after generation），review 管方向係後置嘅（review after propose），verify 管質量係後置嘅（verify after apply）。後置檢查有用——第 7 期 verify 確實撈咗出遺漏場景——但佢唔能夠保證執行過程本身係啱嘅。

三檔工作流程嘅邏輯係：將質量保證從後置檢查往前移。快速檔靠瀏覽器確認做後置兜底。標準檔靠 writing-plans 做計劃前置。嚴格檔靠 TDD 同 review 做執行過程控制。風險越高，前置越多。

OpenSpec 適合管方向同工件：proposal 定義做啲咩，specs 定義做到咩程度，design 定義點樣做，archive 留下變更記錄。Superpowers 適合管執行紀律同證據：writing-plans 管計劃顆粒度，TDD 管測試先行，verification-before-completion 管證據優先，subagent review 管獨立審查。

兩套工具唔係二選一嘅關係，係各管一段。OpenSpec 管做什麼，Superpowers 管怎麼做。三檔工作流程係按風險揀組合強度。

講到底，真正要管理嘅係風險，唔係儀式感。

如果將三檔工作流程壓縮成一條規則，就係：改之前先問自己，呢處改動如果出咗 bug，要花幾耐定位同修復？答案係 5 分鐘，行快速檔。答案係半個鐘，行標準檔。答案係半日甚至更耐，行嚴格檔。

呢個同軟件工程裏便一直講嘅風險驅動測試係同一個思路——唔係所有代碼都需要 100% 測試覆蓋率，但高風險代碼必須有測試。三檔工作流程將呢個原則落到咗 AI 編程嘅工作流程選擇上。

預告

第 9 期用標準檔實現 Markdown 預覽工具。重點驗證 Superpowers writing-plans 可唔可以令執行顆粒度比純 OpenSpec tasks.md 更可控，同時唔明顯拖慢速度。標準檔嘅第一個實戰樣本。

聲明：本文係基於 OpenSpec v1.3.1 源碼分析、實際項目操作記錄同讀者反饋整理。所有改造都喺 shuge-ai-toolbox 項目中實際驗證。配置同代碼僅供參考，請以實際環境測試為準。

項目倉庫：https://github.com/shuge-x/shuge-ai-toolbox

好啦，多謝你睇我嘅文章，如果鍾意可以點讚轉發俾需要嘅朋友，我哋下一期再見！敬請期待！

🚩 2026 年「術哥無界」系列實戰文檔 X 篇原創計劃第 133 篇，OpenSpec 項目實戰「2026」系列第 8 篇
大家好，歡迎來到 術哥無界 | ShugeX ｜運維有術。
我是術哥，一名專注於 AI 編程、AI 智能體、Agent Skills、MCP、雲原生、AIOps、Milvus 向量數據庫的技術實踐者與開源佈道者！
Talk is cheap, let's explore。無界探索，有術而行。

圖：verify 實驗結果 + 三層改造覆盤 + 三檔工作流設計

說明：本文內容基於 OpenSpec v1.3.1 實際項目操作記錄和讀者反饋整理。verify SKILL.md 修復和三層改造效果均在 shuge-ai-toolbox 項目中實際驗證，但 verify 第 4 維度（Task Granularity）修復後仍未生效，文中如實記錄。文中的配置修改和代碼僅供參考，實際效果請以你的項目環境測試結果為準。如果有實際使用經驗，歡迎在評論區分享交流。

第 5 期改了 tasks template，tasks 格式穩了。OpenSpec 項目實戰（五）｜UI 視覺打磨 + 改 template 讓 AI 寫出規範任務

第 6 期拆了 review 和 verify 的職責，review 給出的拆分方向建議有了參考價值。OpenSpec 項目實戰（六） | review 拆分 + verify 增強 + 實現第一個工具

第 7 期把 verify SKILL.md 裏兩處矛盾同步修了，以為這次總能看到第 4 維度 Task Granularity 出現在報告裏。OpenSpec 項目實戰（七）| verify 2 個工具、3 處修復，第 4 維度依然缺席

結果：verify 報告 Summary 表格還是隻有 3 行。Completeness、Correctness、Coherence，和改之前一模一樣。

這一期不寫新功能，專門覆盤第 7 期 verify 修復實驗的真實結果，梳理第 5-7 期三層改造各解決了什麼、還缺什麼，然後給出後續系列的工作流規則——按風險選流程強度，不再一刀切。

完整流程如下：工作流總覽

第 7 期 verify 修復實驗：改了全鏈路，AI 還是按老路徑走

先交代第 7 期修了什麼。

第 6 期在 verify SKILL.md 裏新增了第 4 維度 Task Granularity，但執行 /opsx:verify 後報告只輸出了 3 個維度。當時翻了一遍源文件，根因是 SKILL.md 內部矛盾——L46 定義部分寫了 four dimensions，但後面兩處引用還停留在 three：

Summary Scorecard 模板（L117-127）：表格只有 3 行，缺 Task Granularity 行
Graceful Degradation 段（L159-164）：最後一句寫的是 verify all three dimensions

第 7 期改了兩處：Summary Scorecard 加了 Task Granularity 行（| Task Granularity | Format/TDD/Code |），Graceful Degradation 的 three 改成 four。改動很小。

修完後直接走 Propose → Apply → Verify，本期 verify 階段應該能用上修復後的配置。執行 /opsx:verify 後，AI 輸出的報告是這樣的：

### Summary
| Dimension    | Status              |
|--------------|---------------------|
| Completeness | 11/11 tasks, 7/8 scenarios |
| Correctness  | Requirement implemented, 1 scenario uncovered |
| Coherence    | Followed/Issues  |

3 行。Task Granularity 沒出現。定義、模板、退化邏輯全鏈路統一了，AI 生成報告時仍然跳過了模板，按慣性輸出。

說實話，看到這個結果的時候有點意外。修之前以為是改定義沒改引用的問題，引用同步後應該就能生效。但實際情況是，即使全鏈路都對齊了，AI 在生成輸出時並不嚴格按模板逐項填充——它有自己的慣性路徑，讀到模板但不一定照着走。

有個反直覺的點值得記錄：verify 報告雖然缺了第 4 維度，但在其他 3 個維度上發揮了實際價值。這些是第 7 期 /opsx:verify 的實際輸出——它發現了 1 個 CRITICAL issue，spec 裏定義了大文件 JSON 解析場景（超過 1MB 要提示用戶），但實現中沒做 size check。還發現了 1 個 WARNING，有效 JSON 點擊語法校驗按鈕的測試用例缺失。這些是 specs 寫了但 tasks 沒覆蓋到的場景，verify 把它們撈出來了。

所以結論不是verify 沒用，而是verify 的後置檢查有用，但純提示詞約束有天花板。

再看 verify SKILL.md 的當前版本——L46-54 確實定義了四個維度，Task Granularity 下面還詳細拆了四項檢查：任務格式（### 任務 N）、TDD 合規（Red/Green/Refactor）、代碼完整性（無 TBD/TODO）、粒度評估（2-5 分鐘範圍）。定義本身沒問題。Summary Scorecard 模板也加了 Task Granularity 行。Graceful Degradation 也改成了 four。全鏈路都對了，但 AI 就是不輸出。

這給了一個很實際的教訓：提示詞約束是一條鏈路，不是孤立的定義。L46 寫得再漂亮，後面模板和退化邏輯沒跟上，執行層就按舊路徑走。但反過來也成立——全鏈路都跟上了，也不代表 AI 一定照走。這是提示詞約束和代碼邏輯的本質區別：代碼是確定性的，提示詞是概率性的。你改了代碼裏的 if (x === 3) 變成 if (x === 4)，行為一定變。你改了提示詞裏的 three 變成 four，行為可能不變。

圖：SKILL.md 定義了 4 個維度，AI 實際只輸出了 3 個，Task Granularity 缺席

三層改造解決了什麼，沒解決什麼

把第 5-7 期放在一起看，每期改造的效果很清楚。

第 5 期：template 改造（生效）

前 4 期的 tasks.md 格式都不對——## 1. + - [ ] 1.1 的扁平列表，AI 不會按 TDD 五步結構拆任務。改 instruction 無效，根因是 OpenSpec 源碼裏 template 優先級高於 instruction。舊 template 用的就是 ## 1. 格式。

改了 tasks template，換成 ### 任務 N：[名稱] + 涉及文件列表 + TDD 五步結構（寫失敗測試 → 確認失敗 → 寫最小實現 → 確認通過 → 提交）。從第 5 期起 tasks.md 格式規範了，後續幾期都穩定輸出。

這條經驗很直接：template 比 instruction 更能約束輸出格式。

第 6 期：review/verify 職責拆分（部分生效）

讀者反饋：review 維度 5（任務粒度審查）是個擺設——review 在 tasks 之前生成，根本看不到 tasks.md，怎麼審查任務粒度？

改了兩個方向。review 從 5 維度減到 4 維度，把維度 5 去掉，改為為 tasks 提供拆分方向建議。verify 從 3 維度加到 4 維度，新增 Task Granularity 維度。

效果：review 的拆分方向建議有參考價值——第 6 期和第 7 期都輸出了先純函數、再組件、最後路由的建議，和實際 tasks 拆分一致。verify 第 4 維度未生效（因內部矛盾，第 7 期修了矛盾後仍未生效）。

第 7 期：verify 閉環修復（未生效）

上一節已經詳細說了。全鏈路同步後 AI 仍然按 3 維度輸出。

三層改造的共同缺口

三層改造各有收穫，但有幾個問題是它們都解決不了的：

task checkbox 不能證明真的按 TDD 執行：tasks.md 裏的 [x] 只記錄 AI 聲稱的狀態，不記錄實際執行過程。AI 可以標 [x] 但實際跳過了某些步驟
verify 報告不能替代 fresh test/build/browser：verify 是 AI 自己審自己。第 7 期 verify 發現了遺漏場景，但 json-formatter 的 export default bug 是瀏覽器檢查才發現的
AI 完成報告不能直接信：apply 階段的完成報告標了 11/11 tasks complete，但 json-formatter 的 index.tsx 少了 export default，頁面加載直接卡死
對低風險任務使用完整流程會拖慢速度：不是每個改動都需要完整 TDD + review + verify。改個按鈕顏色走全套流程，投入產出比太低

這四個缺口指向同一個問題：質量保證不能只靠後置檢查，執行過程中的紀律同樣重要。而後置檢查的約束力，又受限於 AI 對提示詞模板的遵循程度。

換個角度說，這三個問題（checkbox 不代表執行、verify 不能替代測試、AI 報告不能直接信）本質上都是同一個根因：AI 是概率性的執行者，不是確定性的機器。它讀了規則不等於遵守規則，標了完成不等於真的完成，通過了 verify 不等於代碼沒問題。要彌補這個差距，要麼在執行過程中加強紀律（讓 AI 不得不按規則走），要麼在驗證環節引入獨立證據（不信任 AI 自己的輸出）。前者是 Superpowers 的思路，後者是瀏覽器檢查和 fresh test 的思路。

圖：第 5-7 期改造效果 + 共同缺口

為什麼引入 Superpowers，但不全量照搬

三層改造暴露的缺口，恰好對應 Superpowers 幾個核心 skill 要解決的問題。

writing-plans 解決的是任務顆粒度不可控。它把每個任務拆成 2-5 分鐘的步驟，每步有明確的文件路徑、代碼模板和驗證命令。計劃顆粒度由結構化模板約束，不依賴 AI 自覺。這正好補上了task checkbox 不能證明執行過程的缺口——不是讓 AI 聲稱做了什麼，而是在計劃階段就把每一步要做什麼定死。

test-driven-development 解決的是核心邏輯沒有先驗證。它的鐵律是先寫失敗測試，再寫最小實現。Red-Green-Refactor 循環。如果沒看到測試失敗，你不知道它測試了什麼。這直接補上了TDD 執行紀律的缺口。

verification-before-completion 解決的是AI 完成報告不能信。它的核心原則是證據優先，不允許在驗證前聲稱完成。任何完成聲明必須有 fresh verification evidence。不信任 AI 的成功報告。這對應第 7 期 json-formatter 的 export default bug——AI 標了 11/11 complete 但實際有 bug，如果有 fresh browser check 就不會漏過去。

subagent-driven-development 解決的是高風險改動需要獨立審查。每個任務派一個獨立 subagent 執行，兩階段 review：spec compliance review + code quality review。不在任務間暫停等人確認，連續執行。這適合核心邏輯、bugfix、公共模塊重構這類一處錯誤影響多個工具的場景。

但不是所有任務都需要上這套完整流程。

寫個按鈕文案改顏色，不需要 writing-plans 拆成 2-5 分鐘步驟。調個 CSS 間距，不需要先寫失敗測試。工具頁標題改個措辭，不需要 subagent 兩階段 review。

說白了，Superpowers 的每個 skill 都有適用場景，但如果所有改動都走全套流程，速度會慢到不實用。項目實戰需要速度，不能只追求流程的完備。

所以答案不是OpenSpec vs Superpowers 二選一，也不是所有任務都上 Superpowers 嚴格檔。答案是按風險選擇流程強度。

三檔工作流：快速檔、標準檔、嚴格檔

基於上面的分析，後續系列的工作流分三檔。每檔的適用場景、工具組合、質量門檻和速度成本都不同。

快速檔：低風險改動

適用場景：文案調整、樣式微調、小範圍 UI 交互優化。可以通過瀏覽器和截圖快速確認的改動。改錯了也不影響其他功能。

執行流程：

OpenSpec propose/tasks/apply
→ /opsx:verify
→ npm run build
→ 瀏覽器檢查主路徑
→ /opsx:archive

質量門檻：

fresh verification，不憑 AI 的完成報告說好了——第 7 期就是 AI 標了 11/11 但頁面加載卡死
必須瀏覽器確認主路徑——export default 的 bug 只有瀏覽器能發現
不強制完整 TDD——改個按鈕顏色不需要先寫失敗測試

速度：和之前的 OpenSpec 單工具流程基本一樣，多了一步瀏覽器確認。預估額外成本約 5 分鐘。這裏的時間是流程設計估算，不是本期實測耗時。

在 shuge AI Toolbox 裏，快速檔適合的場景：工具頁標題改措辭、調整 textarea 高度、修改按鈕 hover 效果、調整頁面間距、修改提示文案。這些改動的共同特徵是：影響範圍小（只改一個組件甚至一行 CSS），驗證方式直觀（看一眼就知道對不對），回滾成本低（改回來就行）。

快速檔的底線是不省瀏覽器檢查。哪怕只改了一行 CSS，也要打開頁面看一眼實際效果。這 5 分鐘的投入，能攔住AI 標了完成但頁面沒變或改了顏色但影響了別的元素這類低級問題。

標準檔：普通功能開發

適用場景：一個獨立工具的實現。有明確的輸入輸出。有核心純函數或可測試邏輯。改錯了隻影響這一個工具。

執行流程：

OpenSpec propose
→ proposal/specs/design/review/tasks 全套工件
→ Superpowers writing-plans 展開執行計劃
→ /opsx:apply 執行
→ /opsx:verify + test + build + 瀏覽器檢查
→ /opsx:archive

質量門檻：

OpenSpec 管規格邊界——proposal、specs、design 定義做什麼和不做
Superpowers writing-plans 管執行顆粒度——把任務拆成 2-5 分鐘步驟，每步有文件路徑和驗證命令
核心邏輯必須測試——純函數優先寫測試
verify 必須記錄真實輸出——不能概括，引用原文

速度：比快速檔多一個 writing-plans 環節。預估額外成本約 15-20 分鐘，換來的是任務顆粒度的可控和執行紀律的保證。這個數字後續要在第 9、12 期實戰中校準。

在 shuge AI Toolbox 裏，標準檔適合的場景：實現一個新的工具（Markdown 預覽、時間戳轉換等）、給已有工具加新功能按鈕、修改工具頁的交互邏輯。

嚴格檔：高風險改動

適用場景：bug 修復、公共模塊重構、路由和狀態管理的改動、核心算法修改。一處錯誤會影響多個工具或整個平台。

執行流程：

OpenSpec propose
→ Superpowers writing-plans 展開執行計劃
→ TDD 或 systematic-debugging
→ spec compliance review
→ code quality review
→ final verification
→ /opsx:archive

質量門檻：

先有失敗測試或根因分析——bug 修復必須有能復現的失敗測試，不能只改了代碼就聲稱修好了
每個重要任務有 review——spec compliance 確認實現了需求，code quality 確認代碼質量達標
不允許只靠 build 通過宣稱完成——第 7 期 build 通過了，但 export default bug 還在

速度：比標準檔多 TDD + 兩階段 review。預估額外成本約 30-40 分鐘，換來的是高風險改動的質量保證。這個數字同樣是預估，後續要用嚴格檔實戰校準。改錯了代價很高的地方，這筆投入值得。

在 shuge AI Toolbox 裏，嚴格檔適合的場景：修復一個影響多個工具的 bug、重構工具頁的公共基礎組件、修改路由或狀態管理的核心邏輯。

三檔對比

檔位	適用場景	工具組合	質量門檻	預估額外時間成本
快速檔	文案、樣式、低風險體驗優化	OpenSpec + fresh verify	build + 瀏覽器確認主路徑	約 5 分鐘
標準檔	普通工具功能、明確輸入輸出	OpenSpec + Superpowers writing-plans	plan 顆粒度 + 測試 + build + 瀏覽器檢查	約 15-20 分鐘
嚴格檔	核心邏輯、bugfix、公共重構	OpenSpec + Superpowers TDD/debug/review	失敗測試/根因證據 + review loop + final verification	約 30-40 分鐘

選擇標準就一句話：改錯了代價有多高？代價越高，流程越嚴格。

改個按鈕顏色，代價是用戶點兩下發現不對，改回來就行。走快速檔。實現一個新工具，代價是工具不可用但不影響其他功能。走標準檔。重構公共基礎組件，代價是一個改動可能影響所有工具。走嚴格檔。

圖：三檔工作流的選擇邏輯——風險越高，流程越嚴格

你在項目中是怎麼分級的？或者說，你覺得這種按風險分級的思路在實際項目中可行嗎？歡迎在評論區聊聊。

後續系列怎麼用這三檔

第 9-15 期的檔位分配已經定好了，每期用對應的流程強度。

第 9 期：標準檔，Markdown 預覽工具

這將是三檔工作流的第一個實戰驗證。用標準檔實現 Markdown 預覽工具：OpenSpec 管規格和工件，Superpowers writing-plans 管執行顆粒度。

關鍵驗證點：writing-plans 能不能在不明顯拖慢速度的前提下，讓任務顆粒度比純 OpenSpec tasks.md 更可控。如果 writing-plans 展開的執行計劃比 OpenSpec tasks 更細，而且 apply 階段 AI 的執行更準確，那標準檔就有價值。如果 writing-plans 只是多了一層文檔但執行效果差不多，那需要調整策略。

第 10 期：嚴格檔，正則測試器

正則測試器的核心是正則表達式引擎和匹配高亮。這是有複雜邏輯的工具，適合用 TDD 驅動。先寫失敗測試確認正則匹配行為，再寫最小實現。

關鍵驗證點：TDD 的 Red-Green-Refactor 循環在 AI 編程中是否真的能提高代碼質量。正則表達式的邊界條件多（空輸入、非法正則、超長匹配），TDD 能提前暴露這些邊界。

第 11 期：快速檔，工具頁體驗優化

在前兩期嚴格和標準檔之後，插一期快速檔。純 UI/UX 微調：按鈕間距、交互反饋、加載狀態、錯誤提示樣式。走快速檔流程，驗證低風險改動用輕量流程是否足夠。

第 12 期：標準檔，時間戳轉換工具

繼續用標準檔實現新工具。和第 9 期對比，看標準檔在不同工具上的穩定性和效率。

第 13 期：嚴格檔，修復真實 Bug

在第 9-12 期的工具開發過程中，大概率會積累一些 bug。第 13 期專門用一個 change 修一個真實 bug，走嚴格檔：先復現、寫失敗測試、定位根因、修復、verify。

關鍵驗證點：systematic-debugging 在 AI 編程中的實際效果。能不能通過根因分析而不是盲目改代碼來修復 bug。

第 14 期：嚴格檔，重構工具頁公共基礎

到第 13 期，shuge AI Toolbox 應該有 5-6 個工具了。每個工具頁都獨立實現，但組件模式高度相似（textarea + 操作控件 + 結果展示）。這期重構公共基礎，提取共享組件。

走嚴格檔的原因：一處改動影響所有工具。重構時不能破壞已有功能，每個改動都需要驗證。

第 15 期：覆盤

不寫新功能，覆盤第 9-14 期的速度和質量數據。三檔工作流在 6 期實戰中的表現：快速檔夠不夠快、標準檔值不值額外 15 分鐘、嚴格檔的 review 有沒有真正攔住問題。

規劃總覽

期數	檔位	內容	關鍵驗證點
第 9 期	標準檔	Markdown 預覽工具	writing-plans 的顆粒度價值
第 10 期	嚴格檔	正則測試器	TDD 在複雜邏輯中的效果
第 11 期	快速檔	工具頁體驗優化	輕量流程對低風險改動是否夠用
第 12 期	標準檔	時間戳轉換工具	標準檔在不同工具上的穩定性
第 13 期	嚴格檔	修復真實 Bug	systematic-debugging 的實際效果
第 14 期	嚴格檔	重構工具頁公共基礎	嚴格檔對高風險重構的保護
第 15 期	覆盤	三檔工作流速度和質量	數據驅動的流程評估

回顧：真正要管理的是風險，不是儀式感

回頭看看第 5-7 期的改造路徑，其實是在回答同一個問題：怎麼讓 AI 編程的產出質量可控。

第 5 期的答案是多改 template。有效，但只管輸出格式。第 6 期的答案是拆 review 和 verify 的職責。有效，但後置檢查有天花板。第 7 期的答案是把 verify 的內部矛盾修完。做了，但 AI 不按模板走。

三層改造的共同侷限是：都在後置檢查上做文章。template 管格式是後置的（format after generation），review 管方向是後置的（review after propose），verify 管質量是後置的（verify after apply）。後置檢查有用——第 7 期 verify 確實撈出了遺漏場景——但它不能保證執行過程本身是對的。

三檔工作流的邏輯是：把質量保證從後置檢查往前移。快速檔靠瀏覽器確認做後置兜底。標準檔靠 writing-plans 做計劃前置。嚴格檔靠 TDD 和 review 做執行過程控制。風險越高，前置越多。

OpenSpec 適合管方向和工件：proposal 定義做什麼，specs 定義做到什麼程度，design 定義怎麼做，archive 留下變更記錄。Superpowers 適合管執行紀律和證據：writing-plans 管計劃顆粒度，TDD 管測試先行，verification-before-completion 管證據優先，subagent review 管獨立審查。

兩套工具不是二選一的關係，是各管一段。OpenSpec 管做什麼，Superpowers 管怎麼做。三檔工作流是按風險選擇組合強度。

說到底，真正要管理的是風險，不是儀式感。

如果把三檔工作流壓縮成一條規則，就是：改之前先問自己，這處改動如果出了 bug，要花多久定位和修復？答案是 5 分鐘，走快速檔。答案是半小時，走標準檔。答案是半天甚至更久，走嚴格檔。

這和軟件工程裏一直說的風險驅動測試是同一個思路——不是所有代碼都需要 100% 測試覆蓋率，但高風險代碼必須有測試。三檔工作流把這個原則落到了 AI 編程的工作流選擇上。

預告

第 9 期用標準檔實現 Markdown 預覽工具。重點驗證 Superpowers writing-plans 能不能讓執行顆粒度比純 OpenSpec tasks.md 更可控，同時不明顯拖慢速度。標準檔的第一個實戰樣本。

聲明：本文基於 OpenSpec v1.3.1 源碼分析、實際項目操作記錄和讀者反饋整理。所有改造均在 shuge-ai-toolbox 項目中實際驗證。配置和代碼僅供參考，請以實際環境測試為準。

項目倉庫：https://github.com/shuge-x/shuge-ai-toolbox

好啦，謝謝你觀看我的文章，如果喜歡可以點贊轉發給需要的朋友，我們下一期再見！敬請期待！