Spec Kit vs OpenSpec vs Superpowers：三大AI編程框架深度測評

作者：AI智聞說

日期：2026年5月15日上午8:42

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Spec Kit、OpenSpec、Superpowers三大AI編程框架深度測評，結論係冇最好嘅框架，只有最適合嘅框架。

整理版摘要

呢篇文章係作者親身用同一個項目（Go微服務加JWT認證）分別測試三個AI編程框架——Spec Kit、OpenSpec、Superpowers——之後寫嘅深度測評。作者背景係AI編程工具使用者，想解決「AI寫代碼快但經常唔係你想要」嘅問題。整體結論係三個框架理念唔同，各有優缺點，冇最好嘅框架，只有最適合嘅框架。作者仲畀出組合建議同決策樹幫讀者選擇。

Spec Kit係GitHub官方出品，主張「規範先行，階段門控」，適合綠地項目同大型團隊，但文檔量大、速度慢。OpenSpec係Fission-AI開發，主打增量規範，專為棕地項目設計，迭代快，但缺少治理機制。Superpowers係Jesse Vincent嘅紀律框架，用14條鐵律確保代碼質量，TDD同審查做得好，但方向校準依賴brainstorming，token消耗高。

作者實測數據顯示，Spec Kit最慢但最安全（1.5小時，0次超範圍實現），OpenSpec速度同質量最平衡（40分鐘，1次超範圍），Superpowers代碼質量最高（55分鐘，10個測試，但2次返工）。最終建議：方向偏用SDD框架，質量差用紀律框架；組合使用OpenSpec + Superpowers效果最佳。文章仲提供適用場景對比、框架侷限性同起步建議。

結論：三大框架理念根本唔同——Spec Kit管「做咩」，OpenSpec管「點樣對齊」，Superpowers管「點樣做」。
方法：Spec Kit用7步階段門控（含憲法），OpenSpec用增量規範（Delta Spec），Superpowers用14條鐵律（TDD、審查等）。
差異：文檔量比例懸殊（Spec Kit文檔係代碼3.7-7.5倍），速度Spec Kit最慢（1.5小時），Superpowers代碼質量最高（TDD自動生成10個測試）。
啟發：框架可以組合，最好嘅組合係OpenSpec + Superpowers，方向同質量兼顧。
可行動點：先確定自己痛點係「方向偏」定「質量差」，然後用同一個需求試三個框架，再揀最順手嘅。

結構示例

結構示例 text

# Python版（官方主推）uvx --from git+https://github.com/github/spec-kit.git specify init 項目名# Bun/TypeScript版bunx @spec-kit/cli init 項目名# 指定AI工具specify init 項目名 --ai claude

整理重點

三個框架嘅核心定位：做咩、點樣對齊、點樣做

三個框架解決嘅根本唔係同一個問題。Spec Kit專注「做咩、點解做」，OpenSpec專注「做咩、點樣對齊」，Superpowers專注「點樣做、按咩標準」。

核心問題：Spec Kit係做咩、點解做；OpenSpec係做咩、點樣對齊；Superpowers係點樣做、按咩標準
核心理念：Spec Kit係規範先行，階段門控；OpenSpec係增量規範，迭代優先；Superpowers係紀律框架，鐵律驅動
控制手段：Spec Kit用相位門（Phase Gate）；OpenSpec用Delta規範 + verify；Superpowers用鐵律 + 減速帶
一句話區分：Spec Kit係「先審批再施工」；OpenSpec係「邊改圖紙邊施工」；Superpowers係「按規矩施工」

整理重點

Spec Kit — 先審批再施工，最安全但最慢

Spec Kit係GitHub官方開源嘅SDD框架，源自John Lam嘅研究，由Principal Product Engineer Den Delimarsky主導開發。目前約96K+星標，流程由7步組成，其中3步可選。

1 前置階段：Constitution（憲法）定義不可協商嘅原則，例如「必須TDD」、「必須CLI-first」。憲法喺後續所有階段被引用。
2 階段一：/specify — 只關注做咩同點解做，產出spec.md（PRD），自動對照憲法做自評。
3 階段二：/clarify（可選） — 挖掘未知嘅未知，發現spec嘅模糊點同遺漏。
4 階段三：/checklist（可選） — 用英文單元測試方式檢查spec覆蓋度。
5 階段四：/plan — 關注點樣做，產出plan.md同配套文檔。
6 階段五：/tasks — 將spec同plan分解成可執行小任務。
7 階段六：/analyze（可選） — 跨產物一致性檢查。
8 階段七：implement — 按tasks.md逐項執行，每個階段有顯式檢查點。

實測表現：階段門控真係管用，用Spec Kit嗰陣喺spec階段發現需求寫反咗，改成本幾乎為零。憲法機制好實用，團隊新人唔使估項目底線。但文檔量太大，Scott Logic實測CRUD功能產生2,577行Markdown同689行代碼（文檔量3.7倍），GPS集成文檔量更達7.5倍。對棕地項目唔友好，速度慢，同樣JWT認證Spec Kit要1.5小時，OpenSpec只要40分鐘。

整理重點

OpenSpec — 邊改圖紙邊施工，速度同質量最平衡

OpenSpec係Fission-AI開發嘅SDD框架，核心係「規範係source of truth，代碼係派生產物」。支持30+種AI工具，專為棕地項目設計。

1 /opsx:onboard — 將已有代碼庫反向工程成baseline規範，無痛接入。
2 /opsx:explore — 同AI討論技術方案，唔生成產物。
3 /opsx:propose — 一次過生成proposal.md、delta specs、design.md、tasks.md。
4 /opsx:apply — 按tasks.md逐項執行。
5 /opsx:archive — 將delta specs合併到主規範。

Delta規範係殺手鐧：唔使重寫整個規範，只寫變化部分。JWT認證功能嘅Delta規範只寫咗3個新增場景同2個修改場景。verify三維驗證（完整性、正確性、一致性）能抓到代碼審查睇唔到嘅問題，例如我用咗內存map存黑名單，但design.md選嘅係Redis。迭代速度快，從propose到apply只要40分鐘。但冇憲法機制，團隊協作規範風格可能唔一致，apply階段缺少紀律，AI可能跳過規範直接寫代碼。

整理重點

Superpowers — 按規矩施工，代碼質量最高

Superpowers係Jesse Vincent開發嘅紀律框架，核心係「AI無紀律，就畀佢紀律」。5個月GitHub星標從零到91K+，流程由14條Skill組成。

Process類（4條）：brainstorming、systematic-debugging、verification-before-completion等，防止流程性錯誤
Implementation類（3條）：test-driven-development、writing-plans、executing-plans，確保實現質量
Review類（3條）：requesting-code-review、receiving-code-review、finishing-a-development-branch，多視角驗證
Orchestration類（4條）：dispatching-parallel-agents、subagent-driven-development、using-git-worktrees，代理協作管理

實測表現：TDD鐵律真係有效 — 「冇失敗測試唔寫代碼」係鐵律，測試覆蓋率從0%到80%+。獨立代理審查避免確認偏誤，systematic-debugging嘅3次規則節省2-3小時。但方向校準依賴brainstorming而非顯式規範，TDD做得再好，需求對唔上都白搭。流程開銷大，簡單功能都要走完整流程。token消耗高，代理鏈式調用更快觸及使用上限。

整理重點

同一個項目實測：各有千秋，睇場景揀框架

用「Go微服務加JWT認證」分別走完完整流程，關鍵數據：Spec Kit耗時1.5小時，文檔量約3500行MD，0個測試，0次超範圍實現；OpenSpec耗時40分鐘，文檔量約800行MD，0個測試，1次超範圍實現；Superpowers耗時55分鐘，唔生成文檔，自動生成10個測試，2次返工。

1 Spec Kit最慢但最安全 — 階段門控同憲法確保方向唔會偏，但文檔量太大，審查負擔重。
2 OpenSpec速度同質量最平衡 — Delta規範加verify，喺速度同規範合規之間找到最佳平衡點。
3 Superpowers代碼質量最高 — TDD加審查確保代碼質素，但方向校準依賴brainstorming，AI可能做出唔需要嘅功能。

適用場景：Spec Kit適合綠地項目、大型團隊、安全合規要求高嘅項目；OpenSpec適合棕地項目、中小團隊、快速迭代場景；Superpowers適合代碼質量要求高、長期維護嘅項目。組合建議：OpenSpec + Superpowers效果最佳，OpenSpec管方向，Superpowers管執行。

GitHub官方推出嘅Spec Kit、Fission-AI嘅OpenSpec、Jesse Vincent嘅Superpowers——三個框架都話可以令AI編程更受控，但佢哋嘅思路完全唔同。我用同一個Project行咗一次，話你知佢哋嘅真實表現。

寫喺前面

AI編程工具愈嚟愈勁，但問題都愈嚟愈明顯：AI寫Code好快，但佢寫出嚟嘅嘢成日都唔係你想要嘅。

三個框架都想解決呢個問題，不過路線唔同：

•

Spec Kit（GitHub官方）——用SDD（規範驅動開發，Spec-Driven Development），等AI先寫PRD再寫Code

•

OpenSpec（Fission-AI）——用增量規範（Delta Spec），等AI喺現有Project上面對齊需求

•

Superpowers（Jesse Vincent）——用紀律框架（Skill），等AI跟工程標準執行

我花咗三個禮拜，用同一個Project（幫Go微服務加JWT認證）分別行咗三個框架嘅完整流程。呢篇文係我嘅完整測評：每個框架點用、適合咩場景、踩咗咩坑、同埋最後我揀咗邊個。

（註：SDD領域重有GSD（61K+星標）、BMAD-METHOD（46K+星標）等框架，各有側重，本文集中講三個代表性框架。）

一、三個框架嘅核心定位

先搞清楚一個關鍵分別：三個框架解決嘅唔係同一個問題。

維度	Spec Kit	OpenSpec	Superpowers
核心問題	做咩、點解要做	做咩、點樣對齊	點樣做、跟咩標準
核心理念	規範先行，階段閘控	增量規範，疊代優先	紀律框架，鐵律驅動
控制手段	相位閘（Phase Gate）	Delta規範 + verify	鐵律 + 減速帶
核心產物	constitution、spec、plan、tasks	proposal、specs、design、tasks	代碼、測試、審查報告
失敗模式	階段之間走樣、文件太重	規範同實現脱節	方向啱但執行過龍
類比	建築審批流程	增量設計圖則	施工操作規程
GitHub星標	~96K+	~28K+	~91K+

一句話分清楚：Spec Kit係「先審批再施工」，OpenSpec係「邊改圖則邊施工」，Superpowers係「唔理圖則，跟規矩施工」。

二、Spec Kit深度測評

背景

Spec Kit係GitHub官方開源嘅SDD框架，嚟自John Lam嘅研究，由GitHub Principal Product Engineer Den Delimarsky主導開發。2025年9月發佈，幾日內突破50K星標，目前大約96K+星標、5.5K+ Fork、200+貢獻者。最新版本0.8.9。

核心工作流：7步流程（3步可揀）

Spec Kit嘅流程係最嚴格，每個階段都有相位閘（Phase Gate），前一階段唔過關就唔可以入下一階段：

前置階段：Constitution（憲法）

定義Project唔可以傾嘅原則。例如「一定要TDD」、「一定要CLI-first」、「安全合規標準」。憲法會喺之後所有階段入面作為約束條件俾人引用。

# 項目憲法

## 不可協商的原則

1. 所有新功能必須先寫測試
2. 優先使用CLI交互，GUI為輔
3. 所有API必須通過安全審查
4. 數據存儲必須加密

階段一：/specify（規範）

淨係關注「做咩」同「點解要做」，唔做技術決定。產出spec.md（相當於PRD），包含用戶故事、功能需求、預期結果、假設。生成之後會自動對照憲法做自評（self-assessment）。

階段二：/clarify（釐清，可揀）

發掘「未知嘅未知」——spec寫完之後，AI自動發現需求入面嘅模糊位同遺漏。例如spec寫咗「支援多語言」，clarify會追問「支援邊啲語言？切換方式係點？回退策略點處理？」。呢個係Spec Kit獨有嘅防盲點機制。

階段三：/checklist（檢查清單，可揀）

用「英文單元測試」方式檢查spec嘅覆蓋度——UX、安全、無障礙、邊界情況係咪都覆蓋到。相當於幫spec做一次全方位嘅代碼審查。

階段四：/plan（計劃）

關注「點樣做」。產出plan.md同配套文件：module-contracts.md（模塊契約）、data-model.md（數據模型）、research.md（技術調研）、quickstart.md（快速啓動指南）。所有技術決定一定要符合憲法。

階段五：/tasks（任務分解）

將spec同plan分解成可執行嘅細任務，包含分階段實施計劃、任務同用戶故事嘅對應、檢查點、可並行標記、依賴關係。

階段六：/analyze（分析，可揀）

跨產物一致性檢查——spec、plan、tasks之間有冇矛盾或者遺漏。例如spec要求「支援離線使用」，但plan揀咗要連網嘅方案，analyze會捉到呢個唔一致。

階段七：Implement（實施）

AI跟tasks.md逐項執行，每個階段有顯式檢查點俾人人工審查。

實測表現

優點：

階段閘控真係有用——spec階段唔準提技術方案，強迫你先諗清楚需求。我第一次用Spec Kit嗰陣，喺spec階段發現需求寫錯咗（將「30分鐘過期」寫成「30秒過期」），呢個時候改嘅成本幾乎係零

憲法機制好實用——團隊入面嘅新人唔使估Project嘅技術底線，憲法寫得好清楚

擴展生態豐富——91個社區擴展、18個預設，安全合規、架構治理、無障礙等都有現成方案

跨工具支援好——切換AI工具只需一條命令，規範喺所有工具之間保持一致

缺點：

文件量太大——Scott Logic嘅實測數據顯示，CRUD功能產生2,577行Markdown同689行代碼（文件量3.7倍），GPS整合產生2,262行Markdown同約300行代碼（文件量7.5倍）。功能越簡單，文件同代碼嘅比例越失平衡，審查負擔重

對棕地Project唔友善——Spec Kit按功能分片（每個功能獨立文件），喺現有Project上面增量開發嗰陣，要理解完整系統就要拼裝多個來源。冇OpenSpec嗰種Delta規範機制

速度慢——同樣嘅JWT認證功能，Spec Kit由Constitution到Implement行完要1.5小時，OpenSpec只需40分鐘。多出嚟嘅時間主要花喺階段閘控同文件審查上

部分文件價值有限——research.md有時喺論證好明顯嘅事實，例如「JWT比session更適合移動端」呢啲唔使調研嘅結論

Presets同Extensions

呢個係Spec Kit同另外兩個框架最大嘅分別：

Presets（預設）——自訂模板、格式、術語，唔改變工具本身。18個預設涵蓋安全合規、架構治理、無障礙等場景。甚至有個「海盜語」預設嚟展示能力邊界。

Extensions（擴展）——加新命令或者工作流。91個擴展包括：

擴展	用途
Architecture Guard	檢測架構漂移
CI Guard	CI合規閘控
MAQA	多代理質量保證閘
Ralph Loop	自主循環——自動實現所有任務
AIDE	7步AI驅動工程生命週期

安裝

# Python版（官方主推）
uvx --from git+https://github.com/github/spec-kit.git specify init 項目名

# Bun/TypeScript版
bunx @spec-kit/cli init 項目名

# 指定AI工具
specify init 項目名 --ai claude

三、OpenSpec深度測評

背景

OpenSpec係Fission-AI開發嘅開源SDD框架，核心概念係「規範係source of truth，代碼係規範嘅派生產物」。支援30+種AI工具，專為棕地Project設計。

核心工作流：增量式

OpenSpec嘅流程係最靈活，強調疊代而唔係閘控：

/opsx:onboard — 將現有代碼庫逆向工程成baseline規範，令現有Project無痛接入

/opsx:explore — 同AI討論技術方案，唔生成任何產物

/opsx:propose — 一次產生proposal.md、delta specs、design.md、tasks.md

/opsx:apply — 跟tasks.md逐項執行

/opsx:archive — 將delta specs合併到主規範，歸檔變更

擴展流程（workflows profile）：

多咗verify、sync、bulk-archive、continue、ff等命令，適合需要更多控制嘅場景。

verify嘅三維驗證模型：

verify從三個維度檢查實現同規範嘅一致性，報告分CRITICAL（一定要修）、WARNING（建議修）、SUGGESTION（可揀優化）三級：

維度	檢查咩
完整性	所有tasks做完未，每個需求有冇對應嘅實現
正確性	實現符合規範意圖嗎，邊界情況處理咗未
一致性	代碼同design.md嘅決定一致嗎，命名規範統一嗎

Schema自定義： OpenSpec允許透過YAML定義自定義產物流程，例如加個「調研階段」：

# 自定義"調研先行"流程
name: research-first
artifacts:
  - id: research
    generates: research.md
    requires: []
  - id: proposal
    generates: proposal.md
    requires: [research]
  - id: tasks
    generates: tasks.md
    requires: [proposal]

唔係每個Project都需要design.md，Schema令你可以按需要調整，而唔係俾工具綁死。

實測表現

優點：

Delta規範係殺手鐧——唔使重寫成個規範，淨係寫變咗嘅部分。喺現有Project上面加功能嗰陣，呢個設計慳咗大量時間。我個JWT認證功能，Delta規範淨係寫咗3個新增場景同2個修改場景，唔使重寫成個認證規範

並行開發天然支援——每個變更獨立文件夾，兩個人同時改同一個spec嘅唔同需求唔會衝突

verify可以捉到代碼審查捉唔到嘅問題——verify喺完整性、正確性、一致性三個維度檢查。實測入面發現我嘅實現用咗內存map存黑名單，但design.md揀咗Redis。代碼審查冇發現，因為代碼本身質量冇問題，只係同規範唔一致。verify嘅CRITICAL/WARNING/SUGGESTION三級報告令問題一目瞭然

疊代速度快——由propose到apply只需40分鐘（同一個Project，Spec Kit要1.5小時）

缺點：

冇憲法/治理機制——Spec Kit有Constitution作為不可傾嘅底線，OpenSpec冇等價物。團隊協作嗰陣，唔同人可能寫出風格唔一致嘅規範

apply階段缺少紀律——AI跟tasks.md執行，但冇TDD、冇代碼審查、冇驗證機制。實現質量完全取決於AI嘅「自覺性」

規範同實現容易脱節——冇Spec Kit噉嘅階段閘控，AI可能跳過規範直接寫代碼，或者喺實現過程入面偏離design.md嘅決定

擴展性弱——有Schema自定義功能，可以自定義產物流程，但社區生態遠唔及Spec Kit嘅91個擴展同18個預設

目錄結構

目錄/文件	用途
`openspec/specs/`	系統行為嘅真相源（當前狀態）
`openspec/changes/功能名/`	進行中嘅變更（每個變更獨立文件夾）
`openspec/changes/archive/`	已完成嘅變更歸檔

安裝

npm install -g @fission-ai/openspec@latest
cd 你的項目目錄
openspec init
openspec update

四、Superpowers深度測評

背景

Superpowers係Jesse Vincent開發嘅紀律框架，5個月內GitHub星標由零升到91K+。核心概念：如果你嘅AI助手聰明但冇紀律，就俾佢紀律。

核心工作流：14條紀律

Superpowers嘅流程係最注重執行質量，14個Skill組成一條嚴格嘅開發流水線：

using-superpowers — 檢查應該用邊個Skill。核心係「1%規則」：只要當前任務有1%嘅可能性對應到某個Skill，就一定要先調用該Skill再回應。設計意圖係防止最常見嘅失敗模式——AI因為「覺得簡單」而跳過結構化流程

brainstorming — 先問清楚需求先動手

writing-plans — 拆成2-5分鐘嘅細任務

using-git-worktrees — 建立隔離工作空間

subagent-driven-development — 每個任務派新代理

executing-plans — 冇子代理時自己執行

test-driven-development — 先寫失敗測試再寫代碼

systematic-debugging — 先揾根因再修bug

requesting-code-review — 派獨立代理審查

receiving-code-review — 確認審查意見再實施

dispatching-parallel-agents — 獨立問題同時派多個代理

verification-before-completion — 話完成之前一定要行驗證

finishing-a-development-branch — 驗證、合併、清理

writing-skills — 用TDD方法寫新Skill

實測表現

優點：

TDD鐵律真係有效——「冇失敗測試唔寫代碼」唔係建議，係鐵律。AI先寫測試再寫實現，測試覆蓋率由0%直接去到80%+

獨立代理審查避免確認偏誤——審查代理淨係睇代碼變更，唔知道你嘅思考過程，可以捉到你睇唔到嘅問題

調試方法論最成熟——systematic-debugging嘅「3次規則」（連續3次修復失敗，停落嚟討論）同「最急嘅時候最應該用系統方法」嘅理念，實測慳咗2-3小時

提交粒度最合理——8個任務8次提交，每次提交都係原子性嘅。對比冇Superpowers嗰陣嘅1次大提交

缺點：

方向校準依賴brainstorming而唔係顯式規範——brainstorming可以發現需求問題，但唔似Spec Kit噉有憲法同spec閘控嚟系統性約束方向。TDD做得幾好，做出嚟嘅嘢同需求對唔上都冇用

流程開銷大——每個任務派新代理、獨立審查、驗證，簡單功能都要行完整流程。一次性Script用Superpowers係浪費時間

成本高——代理鏈式調用明顯增加token消耗。好多實踐者反映Superpowers嘅代理鏈式調用會更快觸到Claude Pro/Max嘅使用上限

冇規範累積機制——每次新對話，AI會唔記得之前嘅決定。唔似OpenSpec有主規範累積，亦唔似Spec Kit有Constitution

Skill分類（跟官方四類劃分）

類別	包含Skill	設計邏輯
Process（流程）	brainstorming、systematic-debugging、verification-before-completion	防止流程性錯誤
Implementation（實現）	test-driven-development、writing-plans、executing-plans	確保實現質量
Review（審查）	requesting-code-review、receiving-code-review、finishing-a-development-branch	多視角驗證
Orchestration（編排）	dispatching-parallel-agents、subagent-driven-development、using-git-worktrees	代理協作管理

每類Skill嘅嚴格程度唔同：TDD係鐵律（Skip嘅代價係指數級增長嘅bug），代碼審查接收係建議（人做最終決定）。判斷標準得一個：AI skip呢步嘅代價有幾大。

安裝

# Claude Code安裝
claude plugin install superpowers

# 或者手動安裝：將skill文件複製到 ~/.claude/skills/ 目錄

# Gemini CLI：通過GEMINI.md配置

# 驗證：說"幫我規劃一個功能"
# AI應該先問問題而不是直接寫代碼

五、同一個Project嘅對比實測

我用「幫Go微服務加JWT認證」呢個需求，分別用三個Framework行咗一次完整流程。以下係關鍵數據：

維度	Spec Kit	OpenSpec	Superpowers
總耗時	1.5小時	40分鐘	55分鐘
文檔量	~3500行MD	~800行MD	唔生成文件，淨係有代碼同測試
測試數量	0個（要手動補）	0個（要手動補）	10個（自動生成）
提交次數	1次大提交	1次大提交	8次精準提交
需求對齊	憲法+spec閘控	proposal+specs	brainstorming
規範合規	自評檢查	verify	實施前驗證（TDD+審查）
AI超出範圍實現	0次	1次（proposal嘅排除範圍唔夠完善，AI自動補充咗非預期功能）	2次
返工次數	1次（階段之間走樣）	0次	2次（方向偏差）

關鍵發現：

Spec Kit最慢但最安全——階段閘控同憲法機制確保方向唔會偏，但文件量太大，審查負擔重

OpenSpec速度同質量最平衡——Delta規範+verify嘅組合，喺速度同規範合規之間揾到最佳平衡點

Superpowers代碼質量最高但方向容易偏——TDD+審查確保代碼質量，但方向校準依賴brainstorming而唔係顯式規範，AI可能做出唔需要嘅功能

六、三個框架嘅適用場景

Spec Kit適合咩

•

綠地Project（由零開始，需要完整規範體系）

•

大型團隊（需要治理、合規、多人對齊）

•

安全合規要求高嘅Project（有現成嘅安全合規預設同擴展）

•

需要跨AI工具嘅團隊（30+種工具整合，切換零成本）

OpenSpec適合咩

•

棕地Project（喺現有代碼上加功能，Delta規範天然適合）

•

中小團隊（流程輕量，上手快）

•

需要快速疊代嘅場景（由propose到apply只需40分鐘）

•

多變更並行開發（每個變更獨立文件夾，唔會衝突）

Superpowers適合咩

•

代碼質量要求高嘅Project（TDD+審查確保質量）

•

長期維護嘅Project（測試同審查嘅投資回報高）

•

AI輔助編程場景（流程彌補AI嘅偷懶傾向）

•

複雜功能開發（設計階段防止走錯方向）

唔適合嘅場景

框架	不適合
Spec Kit	一次性Script、細改動、個人細Project（流程開銷大過收益好多）
OpenSpec	需要強治理嘅團隊、需要強治理嘅綠地Project（缺少憲法同閘控機制嗰陣可以配合Superpowers用）
Superpowers	一次性Script、緊急hotfix、探索性原型（流程會卡住）

七、框架組合：1+1大過2

三個框架唔係互斥嘅，可以組合使用。

最佳組合：OpenSpec + Superpowers

點解？ OpenSpec管「做咩」（方向），Superpowers管「點樣做」（執行）。兩個框架互補：

OpenSpec嘅explore同propose確定需求同方案

Skip OpenSpec嘅apply（Superpowers嘅TDD做得更好）

將OpenSpec嘅design.md同specs餵俾Superpowers做背景

Superpowers逐個task行TDD

每個task完成後：代碼審查 + spec-compliance-check + verify

全量測試通過後archive

實測數據： 兩個框架組合使用嗰陣，返工次數降到0-1次，同時保持代碼質量。具體踩坑同銜接方法，我之前寫過一篇《兩個AI編程框架一齊用，我踩咗7個坑》，呢度唔重複。

可揀組合：Spec Kit + Superpowers

Spec Kit嘅憲法同階段閘控 + Superpowers嘅TDD同審查。適合需要強治理嘅大型團隊。但要留意：Spec Kit嘅文件量已經好大，加上Superpowers嘅流程開銷，總時間可能翻倍。

唔推薦：Spec Kit + OpenSpec

兩個都係SDD框架，功能重疊太多。Spec Kit嘅/specify同OpenSpec嘅/opsx:propose做嘅係同一件事，同時用只會增加混亂。

八、選擇決策樹

代碼要生存幾耐？生存1日 → 三個都唔用，直接寫

有幾多人掂代碼？1個人 → 睇第3步；3人以上 → 睇第4步

一個人維護：現有Project加功能揀OpenSpec，新Project由零開始揀Spec Kit，淨係關心代碼質量揀Superpowers

團隊協作：需要合規治理揀Spec Kit，快速疊代為主揀OpenSpec + Superpowers，代碼質量底線揀Superpowers

核心判斷標準：代碼要生存幾耐 × 有幾多人掂 × 合規要求有幾高。

九、三個框架嘅限制

每個框架都有自己解決唔到嘅問題，老實講：

Spec Kit嘅限制：

•

文件量係代碼量嘅3.7-7.5倍（Scott Logic實測，功能越簡單比例越失平衡），部分文件價值有限

•

俾人批評係「重返瀑布模型」——階段閘控雖然安全，但降低咗靈活性

•

棕地Project上唔及OpenSpec，要完整重寫規範而唔係增量更新

OpenSpec嘅限制：

•

冇治理機制，團隊協作嗰陣規範風格可能唔一致

•

apply階段缺少紀律，AI可能跳測試、唔做審查

•

社區生態唔及Spec Kit，擴展同預設數量差距大

Superpowers嘅限制：

•

方向校準依賴brainstorming而唔係顯式規範，系統性需求容易被遺漏

•

每次新對話AI會唔記得之前嘅決定，冇規範累積

•

token消耗明顯增加，成本係三個框架中最高的

寫喺最後

三個框架本質上係三種唔同嘅AI編程哲學：

Spec Kit——「先諗清楚先動手」，用階段閘控確保方向

OpenSpec——「邊做邊對齊」，用增量規範適應變化

Superpowers——「跟規矩做事」，用鐵律確保質量

冇最好嘅框架，只有最適合嘅框架。如果你嘅Project需要合規同治理，揀Spec Kit。如果你喺現有Project上面快速疊代，揀OpenSpec。如果你淨係關心代碼質量，揀Superpowers。如果你既要方向啱又要質量好，揀OpenSpec + Superpowers。

3條起步建議：

先諗清楚你嘅痛點係「方向偏」定「質量差」——方向偏用SDD框架，質量差用紀律框架

唔好一次用曬所有功能——Spec Kit由憲法開始，OpenSpec由propose開始，Superpowers由3條鐵律開始

用同一個需求分別試一次——唔試唔知邊個順手，試過先知邊個適合你

掃碼關注「AI智聞說」，每日3分鐘掌握AI新知識

GitHub官方出品的Spec Kit、Fission-AI的OpenSpec、Jesse Vincent的Superpowers——三個框架都號稱讓AI編程更可控，但它們的思路完全不同。我用同一個項目跑了一遍，告訴你各自的真實表現

寫在前面

AI編程工具越來越強，但問題也越來越明顯：AI寫代碼很快，可它寫出來的東西經常不是你要的。

三個框架都想解決這個問題，但路線不同：

•

Spec Kit（GitHub官方）——用SDD（規範驅動開發，Spec-Driven Development），讓AI先寫PRD再寫代碼

•

OpenSpec（Fission-AI）——用增量規範（Delta Spec），讓AI在已有項目上對齊需求

•

Superpowers（Jesse Vincent）——用紀律框架（Skill），讓AI按工程標準執行

我花了三週時間，用同一個項目（給Go微服務添加JWT認證）分別跑了一遍三個框架的完整流程。這篇文章是我的完整測評：每個框架怎麼用、適合什麼場景、踩了什麼坑、以及最終我選了哪個。

（注：SDD領域還有GSD（61K+星標）、BMAD-METHOD（46K+星標）等框架，各有側重，本文聚焦於三個代表性框架。）

一、三個框架的核心定位

先搞清楚一個關鍵區別：三個框架解決的不是同一個問題。

維度	Spec Kit	OpenSpec	Superpowers
核心問題	做什麼、為什麼做	做什麼、怎麼對齊	怎麼做、按什麼標準
核心理念	規範先行，階段門控	增量規範，迭代優先	紀律框架，鐵律驅動
控制手段	相位門（Phase Gate）	Delta規範 + verify	鐵律 + 減速帶
核心產物	constitution、spec、plan、tasks	proposal、specs、design、tasks	代碼、測試、審查報告
失敗模式	階段間漂移、文檔過重	規範和實現脱節	方向對但執行過度
類比	建築審批流程	增量設計圖紙	施工操作規程
GitHub星標	~96K+	~28K+	~91K+

一句話區分：Spec Kit是"先審批再施工"，OpenSpec是"邊改圖紙邊施工"，Superpowers是"不管圖紙，按規矩施工"。

二、Spec Kit深度測評

背景

Spec Kit是GitHub官方開源的SDD框架，源自John Lam的研究，由GitHub Principal Product Engineer Den Delimarsky主導開發。2025年9月發佈，數天內突破50K星標，目前約96K+星標、5.5K+ Fork、200+貢獻者。最新版本0.8.9。

核心工作流：7步流程（3步可選）

Spec Kit的流程是最嚴格的，每個階段都有相位門（Phase Gate），前一階段不通過不能進入下一階段：

前置階段：Constitution（憲法）

定義項目不可協商的原則。比如"必須TDD"、"必須CLI-first"、"安全合規標準"。憲法會在後續所有階段中作為約束條件被引用。

# 項目憲法

## 不可協商的原則

1. 所有新功能必須先寫測試
2. 優先使用CLI交互，GUI為輔
3. 所有API必須通過安全審查
4. 數據存儲必須加密

階段一：/specify（規範）

只關注"做什麼"和"為什麼做"，不做技術決策。產出spec.md（相當於PRD），包含用戶故事、功能需求、預期結果、假設。生成後自動對照憲法做自評（self-assessment）。

階段二：/clarify（澄清，可選）

挖掘"未知的未知"——spec寫完後，AI自動發現需求中的模糊點和遺漏。比如spec寫了"支持多語言"，clarify會追問"支持哪些語言？切換方式是什麼？回退策略怎麼處理？"。這是Spec Kit獨有的防盲點機制。

階段三：/checklist（檢查清單，可選）

用"英文單元測試"方式檢查spec的覆蓋度——UX、安全、無障礙、邊界情況是否都被覆蓋。相當於給spec做一次全方位的代碼審查。

階段四：/plan（計劃）

關注"怎麼做"。產出plan.md和配套文檔：module-contracts.md（模塊契約）、data-model.md（數據模型）、research.md（技術調研）、quickstart.md（快速啓動指南）。所有技術決策必須符合憲法。

階段五：/tasks（任務分解）

將spec和plan分解為可執行的小任務，包含分階段實施計劃、任務與用戶故事的映射、檢查點、可並行標識、依賴關係。

階段六：/analyze（分析，可選）

跨產物一致性檢查——spec、plan、tasks之間是否有矛盾或遺漏。比如spec要求"支持離線使用"，但plan選了需要聯網的方案，analyze會抓到這個不一致。

階段七：Implement（實施）

AI按tasks.md逐項執行，每個階段有顯式檢查點供人工審查。

實測表現

優點：

階段門控真的管用——spec階段不允許提技術方案，強制你先想清楚需求。我第一次用Spec Kit時，在spec階段發現需求寫反了（把"30分鐘過期"寫成了"30秒過期"），這時候改成本幾乎為零

憲法機制很實用——團隊裏新人不用猜項目的技術底線，憲法寫得很清楚

擴展生態豐富——91個社區擴展、18個預設，安全合規、架構治理、無障礙等都有現成方案

跨工具支持好——切換AI工具只需一條命令，規範在所有工具間保持一致

缺點：

文檔量太大——Scott Logic的實測數據顯示，CRUD功能產生2,577行Markdown和689行代碼（文檔量3.7倍），GPS集成產生2,262行Markdown和約300行代碼（文檔量7.5倍）。功能越簡單，文檔和代碼的比例越失衡，審查負擔重

對棕地項目不友好——Spec Kit按功能分片（每個功能獨立文件），在已有項目上增量開發時，理解完整系統需要拼裝多個來源。沒有OpenSpec那種Delta規範機制

速度慢——同樣的JWT認證功能，Spec Kit從Constitution到Implement走完要1.5小時，OpenSpec只要40分鐘。多出來的時間主要花在階段門控和文檔審查上

部分文檔價值有限——research.md有時在論證明顯的事實，比如"JWT比session更適合移動端"這種不需要調研的結論

Presets和Extensions

這是Spec Kit區別於另外兩個框架的最大亮點：

Presets（預設）——定製模板、格式、術語，不改變工具本身。18個預設覆蓋安全合規、架構治理、無障礙等場景。甚至有"海盜語"預設來演示能力邊界。

Extensions（擴展）——添加新命令或工作流。91個擴展包括：

擴展	用途
Architecture Guard	檢測架構漂移
CI Guard	CI合規門控
MAQA	多代理質量保證門
Ralph Loop	自主循環——自動實現所有任務
AIDE	7步AI驅動工程生命週期

安裝

# Python版（官方主推）
uvx --from git+https://github.com/github/spec-kit.git specify init 項目名

# Bun/TypeScript版
bunx @spec-kit/cli init 項目名

# 指定AI工具
specify init 項目名 --ai claude

三、OpenSpec深度測評

背景

OpenSpec是Fission-AI開發的開源SDD框架，核心理念是"規範是source of truth，代碼是規範的派生產物"。支持30+種AI工具，專為棕地項目設計。

核心工作流：增量式

OpenSpec的流程是最靈活的，強調迭代而非門控：

/opsx:onboard — 將已有代碼庫反向工程成baseline規範，讓已有項目無痛接入

/opsx:explore — 和AI討論技術方案，不生成任何產物

/opsx:propose — 一次生成proposal.md、delta specs、design.md、tasks.md

/opsx:apply — 按tasks.md逐項執行

/opsx:archive — 把delta specs合併到主規範，歸檔變更

擴展流程（workflows profile）：

多了verify、sync、bulk-archive、continue、ff等命令，適合需要更多控制的場景。

verify的三維驗證模型：

verify從三個維度檢查實現和規範的一致性，報告分CRITICAL（必須修）、WARNING（建議修）、SUGGESTION（可選優化）三級：

維度	檢查什麼
完整性	所有tasks都完成了嗎，每個需求都有對應實現嗎
正確性	實現符合規範意圖嗎，邊界情況處理了嗎
一致性	代碼和design.md的決策一致嗎，命名規範統一嗎

Schema自定義： OpenSpec允許通過YAML定義自定義產物流程，比如添加"調研階段"：

# 自定義"調研先行"流程
name: research-first
artifacts:
  - id: research
    generates: research.md
    requires: []
  - id: proposal
    generates: proposal.md
    requires: [research]
  - id: tasks
    generates: tasks.md
    requires: [proposal]

不是每個項目都需要design.md，Schema讓你按需調整，而不是被工具綁架。

實測表現

優點：

Delta規範是殺手鐧——不需要重寫整個規範，只寫變化的部分。在已有項目上加功能時，這個設計省了大量時間。我的JWT認證功能，Delta規範只寫了3個新增場景和2個修改場景，不用重寫整個認證規範

並行開發天然支持——每個變更獨立文件夾，兩個人同時改同一個spec的不同需求不衝突

verify能抓到代碼審查抓不到的問題——verify在完整性、正確性、一致性三個維度檢查。實測中發現我的實現用了內存map存黑名單，而design.md選的是Redis。代碼審查沒發現，因為代碼本身質量沒問題，只是和規範不一致。verify的CRITICAL/WARNING/SUGGESTION三級報告讓問題一目瞭然

迭代速度快——從propose到apply只要40分鐘（同一個項目，Spec Kit要1.5小時）

缺點：

沒有憲法/治理機制——Spec Kit有Constitution作為不可協商的底線，OpenSpec沒有等價物。團隊協作時，不同人可能寫出風格不一致的規範

apply階段缺少紀律——AI按tasks.md執行，但沒有TDD、沒有代碼審查、沒有驗證機制。實現質量完全取決於AI的"自覺性"

規範和實現容易脱節——沒有Spec Kit那樣的階段門控，AI可能跳過規範直接寫代碼，或者在實現過程中偏離design.md的決策

擴展性弱——有Schema自定義功能，可以自定義產物流程，但社區生態遠不如Spec Kit的91個擴展和18個預設

目錄結構

目錄/文件	用途
`openspec/specs/`	系統行為的真相源（當前狀態）
`openspec/changes/功能名/`	進行中的變更（每個變更獨立文件夾）
`openspec/changes/archive/`	已完成的變更歸檔

安裝

npm install -g @fission-ai/openspec@latest
cd 你的項目目錄
openspec init
openspec update

四、Superpowers深度測評

背景

Superpowers是Jesse Vincent開發的紀律框架，5個月內GitHub星標從零漲到91K+。核心理念：如果你的AI助手聰明但沒有紀律，那就給它紀律。

核心工作流：14條紀律

Superpowers的流程是最注重執行質量的，14個Skill組成一條嚴格的開發流水線：

using-superpowers — 檢查該用哪個Skill。核心是"1%規則"：只要當前任務有1%的可能性匹配到某個Skill，就必須先調用該Skill再響應。設計意圖是防止最常見的失敗模式——AI因為"覺得簡單"而跳過結構化流程

brainstorming — 先問清楚需求再動手

writing-plans — 拆成2-5分鐘小任務

using-git-worktrees — 創建隔離工作空間

subagent-driven-development — 每個任務派新代理

executing-plans — 無子代理時自己執行

test-driven-development — 先寫失敗測試再寫代碼

systematic-debugging — 先找根因再修bug

requesting-code-review — 派獨立代理審查

receiving-code-review — 驗證審查意見再實施

dispatching-parallel-agents — 獨立問題同時派多個代理

verification-before-completion — 聲稱完成前必須跑驗證

finishing-a-development-branch — 驗證、合併、清理

writing-skills — 用TDD方法寫新Skill

實測表現

優點：

TDD鐵律真的有效——"沒有失敗測試不寫代碼"不是建議，是鐵律。AI先寫測試再寫實現，測試覆蓋率從0%直接到80%+

獨立代理審查避免確認偏誤——審查代理只看代碼變更，不瞭解你的思考過程，能抓到你視而不見的問題

調試方法論最成熟——systematic-debugging的"3次規則"（連續3次修復失敗，停下來討論）和"最急的時候最該用系統方法"的理念，實測節省2-3小時

提交粒度最合理——8個任務8次提交，每次提交都是原子性的。對比沒有Superpowers時的1次大提交

缺點：

方向校準依賴brainstorming而非顯式規範——brainstorming能發現需求問題，但不像Spec Kit那樣有憲法和spec門控來系統性約束方向。TDD做得再好，做出來的東西和需求對不上也白搭

流程開銷大——每個任務派新代理、獨立審查、驗證，簡單功能也要走完整流程。一次性腳本用Superpowers是浪費時間

成本高——代理鏈式調用顯著增加token消耗。多位實踐者反饋Superpowers的代理鏈式調用會更快觸及Claude Pro/Max的使用上限

沒有規範累積機制——每次新對話，AI忘光之前的決策。不像OpenSpec有主規範累積，也不像Spec Kit有Constitution

Skill分類（按官方四類劃分）

類別	包含Skill	設計邏輯
Process（流程）	brainstorming、systematic-debugging、verification-before-completion	防止流程性錯誤
Implementation（實現）	test-driven-development、writing-plans、executing-plans	確保實現質量
Review（審查）	requesting-code-review、receiving-code-review、finishing-a-development-branch	多視角驗證
Orchestration（編排）	dispatching-parallel-agents、subagent-driven-development、using-git-worktrees	代理協作管理

每類Skill的嚴格程度不同：TDD是鐵律（跳過的代價是指數級增長的bug），代碼審查接收是建議（人做最終決定）。判斷標準只有一個：AI跳過這一步的代價有多大。

安裝

# Claude Code安裝
claude plugin install superpowers

# 或者手動安裝：將skill文件複製到 ~/.claude/skills/ 目錄

# Gemini CLI：通過GEMINI.md配置

# 驗證：說"幫我規劃一個功能"
# AI應該先問問題而不是直接寫代碼

五、同一個項目的對比實測

我用"給Go微服務添加JWT認證"這個需求，分別用三個框架走了一遍完整流程。以下是關鍵數據：

維度	Spec Kit	OpenSpec	Superpowers
總耗時	1.5小時	40分鐘	55分鐘
文檔量	~3500行MD	~800行MD	不生成文檔，僅有代碼和測試
測試數量	0個（需手動補）	0個（需手動補）	10個（自動生成）
提交次數	1次大提交	1次大提交	8次精確提交
需求對齊	憲法+spec門控	proposal+specs	brainstorming
規範合規	自評檢查	verify	實施前驗證（TDD+審查）
AI超範圍實現	0次	1次（proposal的排除範圍不夠完善，AI自動補充了非預期功能）	2次
返工次數	1次（階段間漂移）	0次	2次（方向偏差）

關鍵發現：

Spec Kit最慢但最安全——階段門控和憲法機制確保方向不會偏，但文檔量太大，審查負擔重

OpenSpec速度和質量最平衡——Delta規範+verify的組合，在速度和規範合規之間找到了最佳平衡點

Superpowers代碼質量最高但方向容易偏——TDD+審查確保代碼質量，但方向校準依賴brainstorming而非顯式規範，AI可能做出不需要的功能

六、三個框架的適用場景

Spec Kit適合什麼

•

綠地項目（從零開始，需要完整規範體系）

•

大型團隊（需要治理、合規、多人對齊）

•

安全合規要求高的項目（有現成的安全合規預設和擴展）

•

需要跨AI工具的團隊（30+種工具集成，切換零成本）

OpenSpec適合什麼

•

棕地項目（在已有代碼上加功能，Delta規範天然適合）

•

中小團隊（流程輕量，上手快）

•

需要快速迭代的場景（從propose到apply只要40分鐘）

•

多變更並行開發（每個變更獨立文件夾，不衝突）

Superpowers適合什麼

•

代碼質量要求高的項目（TDD+審查確保質量）

•

長期維護的項目（測試和審查的投資回報高）

•

AI輔助編程場景（流程彌補AI的偷懶傾向）

•

複雜功能開發（設計階段防止走錯方向）

不適合的場景

框架	不適合
Spec Kit	一次性腳本、小改動、個人小項目（流程開銷遠大於收益）
OpenSpec	需要強治理的團隊、需要強治理的綠地項目（缺少憲法和門控機制時可配合Superpowers使用）
Superpowers	一次性腳本、緊急hotfix、探索性原型（流程會卡住）

七、框架組合：1+1大於2

三個框架不是互斥的，可以組合使用。

最佳組合：OpenSpec + Superpowers

為什麼？ OpenSpec管"做什麼"（方向），Superpowers管"怎麼做"（執行）。兩個框架互補：

OpenSpec的explore和propose確定需求和方案

跳過OpenSpec的apply（Superpowers的TDD做得更好）

把OpenSpec的design.md和specs餵給Superpowers作為上下文

Superpowers逐個task走TDD

每個task完成後：代碼審查 + spec-compliance-check + verify

全量測試通過後archive

實測數據： 兩個框架組合使用時，返工次數降到0-1次，同時保持代碼質量。具體踩坑和銜接方法，我之前寫過一篇《兩個AI編程框架一起用，我踩了7個坑》，這裏不重複。

可選組合：Spec Kit + Superpowers

Spec Kit的憲法和階段門控 + Superpowers的TDD和審查。適合需要強治理的大型團隊。但要注意：Spec Kit的文檔量已經很大了，加上Superpowers的流程開銷，總耗時可能翻倍。

不推薦：Spec Kit + OpenSpec

兩個都是SDD框架，功能重疊太大。Spec Kit的/specify和OpenSpec的/opsx:propose做的是同一件事，同時用只會增加混亂。

八、選擇決策樹

代碼要活多久？活1天 → 三個都不用，直接寫

有多少人碰代碼？1個人 → 看第3步；3人以上 → 看第4步

一個人維護：已有項目加功能選OpenSpec，新項目從零開始選Spec Kit，只關心代碼質量選Superpowers

團隊協作：需要合規治理選Spec Kit，快速迭代為主選OpenSpec + Superpowers，代碼質量底線選Superpowers

核心判斷標準：代碼要活多久 × 有多少人碰 × 合規要求多高。

九、三個框架的侷限性

每個框架都有自己解決不了的問題，誠實地說：

Spec Kit的侷限：

•

文檔量是代碼量的3.7-7.5倍（Scott Logic實測，功能越簡單比例越失衡），部分文檔價值有限

•

被批評為"重返瀑布模型"——階段門控雖然安全，但降低了靈活性

•

棕地項目上不如OpenSpec，需要完整重寫規範而不是增量更新

OpenSpec的侷限：

•

沒有治理機制，團隊協作時規範風格可能不一致

•

apply階段缺少紀律，AI可能跳測試、不做審查

•

社區生態不如Spec Kit，擴展和預設數量差距大

Superpowers的侷限：

•

方向校準依賴brainstorming而非顯式規範，系統性需求容易被遺漏

•

每次新對話AI忘光之前的決策，沒有規範累積

•

token消耗顯著增加，成本是三個框架中最高的

寫在最後

三個框架本質上是三種不同的AI編程哲學：

Spec Kit——"先想清楚再動手"，用階段門控確保方向

OpenSpec——"邊做邊對齊"，用增量規範適應變化

Superpowers——"按規矩做事"，用鐵律確保質量

沒有最好的框架，只有最適合的框架。如果你的項目需要合規和治理，選Spec Kit。如果你在已有項目上快速迭代，選OpenSpec。如果你只關心代碼質量，選Superpowers。如果你既要方向對又要質量好，選OpenSpec + Superpowers。

3條起步建議：

先想清楚你的痛點是"方向偏"還是"質量差"——方向偏用SDD框架，質量差用紀律框架

不要一次用上所有功能——Spec Kit從憲法開始，OpenSpec從propose開始，Superpowers從3條鐵律開始

用同一個需求分別試一遍——不試不知道哪個順手，試過才知道哪個適合你

掃碼關注「AI智聞說」，每天3分鐘掌握AI新知識