Spec Kit vs OpenSpec vs Superpowers:三大AI編程框架深度測評

作者:AI智聞說
日期:2026年5月15日 上午8:42
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Spec KitOpenSpecSuperpowers三大AI編程框架深度測評,結論係冇最好嘅框架,只有最適合嘅框架。

整理版摘要

呢篇文章係作者親身用同一個項目(Go微服務加JWT認證)分別測試三個AI編程框架——Spec KitOpenSpec、Superpowers——之後寫嘅深度測評。作者背景係AI編程工具使用者,想解決「AI寫代碼快但經常唔係你想要」嘅問題。整體結論係三個框架理念唔同,各有優缺點,冇最好嘅框架,只有最適合嘅框架。作者仲畀出組合建議同決策樹幫讀者選擇。

Spec KitGitHub官方出品,主張「規範先行,階段門控」,適合綠地項目同大型團隊,但文檔量大、速度慢。OpenSpec係Fission-AI開發,主打增量規範,專為棕地項目設計,迭代快,但缺少治理機制。Superpowers係Jesse Vincent嘅紀律框架,用14條鐵律確保代碼質量,TDD同審查做得好,但方向校準依賴brainstorming,token消耗高。

作者實測數據顯示,Spec Kit最慢但最安全(1.5小時,0次超範圍實現),OpenSpec速度同質量最平衡(40分鐘,1次超範圍),Superpowers代碼質量最高(55分鐘,10個測試,但2次返工)。最終建議:方向偏用SDD框架,質量差用紀律框架;組合使用OpenSpec + Superpowers效果最佳。文章仲提供適用場景對比、框架侷限性同起步建議。

  • 結論:三大框架理念根本唔同——Spec Kit管「做咩」,OpenSpec管「點樣對齊」,Superpowers管「點樣做」。
  • 方法Spec Kit用7步階段門控(含憲法),OpenSpec用增量規範(Delta Spec),Superpowers用14條鐵律(TDD、審查等)。
  • 差異:文檔量比例懸殊(Spec Kit文檔係代碼3.7-7.5倍),速度Spec Kit最慢(1.5小時),Superpowers代碼質量最高(TDD自動生成10個測試)。
  • 啟發:框架可以組合,最好嘅組合係OpenSpec + Superpowers,方向同質量兼顧。
  • 可行動點:先確定自己痛點係「方向偏」定「質量差」,然後用同一個需求試三個框架,再揀最順手嘅。
結構示例

結構示例

結構示例 text
# Python版(官方主推)uvx --from git+https://github.com/github/spec-kit.git specify init 項目名# Bun/TypeScript版bunx @spec-kit/cli init 項目名# 指定AI工具specify init 項目名 --ai claude
整理重點

三個框架嘅核心定位:做咩、點樣對齊、點樣做

三個框架解決嘅根本唔係同一個問題。Spec Kit專注「做咩、點解做」,OpenSpec專注「做咩、點樣對齊」,Superpowers專注「點樣做、按咩標準」。

  • 核心問題Spec Kit係做咩、點解做;OpenSpec係做咩、點樣對齊;Superpowers係點樣做、按咩標準
  • 核心理念Spec Kit係規範先行,階段門控;OpenSpec係增量規範,迭代優先;Superpowers係紀律框架,鐵律驅動
  • 控制手段Spec Kit用相位門(Phase Gate);OpenSpec用Delta規範 + verify;Superpowers用鐵律 + 減速帶
  • 一句話區分Spec Kit係「先審批再施工」;OpenSpec係「邊改圖紙邊施工」;Superpowers係「按規矩施工」
整理重點

Spec Kit — 先審批再施工,最安全但最慢

Spec KitGitHub官方開源嘅SDD框架,源自John Lam嘅研究,由Principal Product Engineer Den Delimarsky主導開發。目前約96K+星標,流程由7步組成,其中3步可選。

  1. 1 前置階段Constitution(憲法)定義不可協商嘅原則,例如「必須TDD」、「必須CLI-first」。憲法喺後續所有階段被引用。
  2. 2 階段一:/specify — 只關注做咩同點解做,產出spec.md(PRD),自動對照憲法做自評。
  3. 3 階段二:/clarify(可選) — 挖掘未知嘅未知,發現spec嘅模糊點同遺漏。
  4. 4 階段三:/checklist(可選) — 用英文單元測試方式檢查spec覆蓋度。
  5. 5 階段四:/plan — 關注點樣做,產出plan.md同配套文檔。
  6. 6 階段五:/tasks — 將spec同plan分解成可執行小任務。
  7. 7 階段六:/analyze(可選) — 跨產物一致性檢查。
  8. 8 階段七:implement — 按tasks.md逐項執行,每個階段有顯式檢查點。

實測表現:階段門控真係管用,用Spec Kit嗰陣喺spec階段發現需求寫反咗,改成本幾乎為零。憲法機制好實用,團隊新人唔使估項目底線。但文檔量太大,Scott Logic實測CRUD功能產生2,577行Markdown同689行代碼(文檔量3.7倍),GPS集成文檔量更達7.5倍。對棕地項目唔友好,速度慢,同樣JWT認證Spec Kit要1.5小時,OpenSpec只要40分鐘。

整理重點

OpenSpec — 邊改圖紙邊施工,速度同質量最平衡

OpenSpecFission-AI開發嘅SDD框架,核心係「規範係source of truth,代碼係派生產物」。支持30+種AI工具,專為棕地項目設計。

  1. 1 /opsx:onboard — 將已有代碼庫反向工程成baseline規範,無痛接入。
  2. 2 /opsx:explore — 同AI討論技術方案,唔生成產物。
  3. 3 /opsx:propose — 一次過生成proposal.md、delta specs、design.md、tasks.md。
  4. 4 /opsx:apply — 按tasks.md逐項執行。
  5. 5 /opsx:archive — 將delta specs合併到主規範。

Delta規範係殺手鐧:唔使重寫整個規範,只寫變化部分。JWT認證功能嘅Delta規範只寫咗3個新增場景同2個修改場景。verify三維驗證(完整性、正確性、一致性)能抓到代碼審查睇唔到嘅問題,例如我用咗內存map存黑名單,但design.md選嘅係Redis。迭代速度快,從propose到apply只要40分鐘。但冇憲法機制,團隊協作規範風格可能唔一致,apply階段缺少紀律,AI可能跳過規範直接寫代碼。

整理重點

Superpowers — 按規矩施工,代碼質量最高

SuperpowersJesse Vincent開發嘅紀律框架,核心係「AI無紀律,就畀佢紀律」。5個月GitHub星標從零到91K+,流程由14條Skill組成。

  • Process類(4條):brainstorming、systematic-debugging、verification-before-completion等,防止流程性錯誤
  • Implementation類(3條):test-driven-development、writing-plans、executing-plans,確保實現質量
  • Review類(3條):requesting-code-review、receiving-code-review、finishing-a-development-branch,多視角驗證
  • Orchestration類(4條):dispatching-parallel-agents、subagent-driven-development、using-git-worktrees,代理協作管理

實測表現TDD鐵律真係有效 — 「冇失敗測試唔寫代碼」係鐵律,測試覆蓋率從0%到80%+。獨立代理審查避免確認偏誤,systematic-debugging嘅3次規則節省2-3小時。但方向校準依賴brainstorming而非顯式規範,TDD做得再好,需求對唔上都白搭。流程開銷大,簡單功能都要走完整流程。token消耗高,代理鏈式調用更快觸及使用上限。

整理重點

同一個項目實測:各有千秋,睇場景揀框架

用「Go微服務加JWT認證」分別走完完整流程,關鍵數據:Spec Kit耗時1.5小時,文檔量約3500行MD,0個測試,0次超範圍實現;OpenSpec耗時40分鐘,文檔量約800行MD,0個測試,1次超範圍實現;Superpowers耗時55分鐘,唔生成文檔,自動生成10個測試,2次返工。

  1. 1 Spec Kit最慢但最安全 — 階段門控同憲法確保方向唔會偏,但文檔量太大,審查負擔重。
  2. 2 OpenSpec速度同質量最平衡 — Delta規範加verify,喺速度同規範合規之間找到最佳平衡點。
  3. 3 Superpowers代碼質量最高 — TDD加審查確保代碼質素,但方向校準依賴brainstorming,AI可能做出唔需要嘅功能。

適用場景Spec Kit適合綠地項目、大型團隊、安全合規要求高嘅項目;OpenSpec適合棕地項目、中小團隊、快速迭代場景;Superpowers適合代碼質量要求高、長期維護嘅項目。組合建議:OpenSpec + Superpowers效果最佳,OpenSpec管方向,Superpowers管執行。

GitHub官方推出嘅Spec Kit、Fission-AI嘅OpenSpec、Jesse Vincent嘅Superpowers——三個框架都話可以令AI編程更受控,但佢哋嘅思路完全唔同。我用同一個Project行咗一次,話你知佢哋嘅真實表現。

寫喺前面

AI編程工具愈嚟愈勁,但問題都愈嚟愈明顯:AI寫Code好快,但佢寫出嚟嘅嘢成日都唔係你想要嘅。

三個框架都想解決呢個問題,不過路線唔同:

Spec Kit(GitHub官方)——用SDD(規範驅動開發,Spec-Driven Development),等AI先寫PRD再寫Code
OpenSpec(Fission-AI)——用增量規範(Delta Spec),等AI喺現有Project上面對齊需求
Superpowers(Jesse Vincent)——用紀律框架(Skill),等AI跟工程標準執行

我花咗三個禮拜,用同一個Project(幫Go微服務加JWT認證)分別行咗三個框架嘅完整流程。呢篇文係我嘅完整測評:每個框架點用、適合咩場景、踩咗咩坑、同埋最後我揀咗邊個。

(註:SDD領域重有GSD(61K+星標)、BMAD-METHOD(46K+星標)等框架,各有側重,本文集中講三個代表性框架。)

一、三個框架嘅核心定位

先搞清楚一個關鍵分別:三個框架解決嘅唔係同一個問題。

維度
Spec Kit
OpenSpec
Superpowers
核心問題
做咩、點解要做
做咩、點樣對齊
點樣做、跟咩標準
核心理念
規範先行,階段閘控
增量規範,疊代優先
紀律框架,鐵律驅動
控制手段
相位閘(Phase Gate)
Delta規範 + verify
鐵律 + 減速帶
核心產物
constitution、spec、plan、tasks
proposal、specs、design、tasks
代碼、測試、審查報告
失敗模式
階段之間走樣、文件太重
規範同實現脱節
方向啱但執行過龍
類比
建築審批流程
增量設計圖則
施工操作規程
GitHub星標
~96K+
~28K+
~91K+

一句話分清楚:Spec Kit係「先審批再施工」,OpenSpec係「邊改圖則邊施工」,Superpowers係「唔理圖則,跟規矩施工」。

二、Spec Kit深度測評

背景

Spec Kit係GitHub官方開源嘅SDD框架,嚟自John Lam嘅研究,由GitHub Principal Product Engineer Den Delimarsky主導開發。2025年9月發佈,幾日內突破50K星標,目前大約96K+星標、5.5K+ Fork、200+貢獻者。最新版本0.8.9。

核心工作流:7步流程(3步可揀)

Spec Kit嘅流程係最嚴格,每個階段都有相位閘(Phase Gate),前一階段唔過關就唔可以入下一階段:

前置階段:Constitution(憲法)

定義Project唔可以傾嘅原則。例如「一定要TDD」、「一定要CLI-first」、「安全合規標準」。憲法會喺之後所有階段入面作為約束條件俾人引用。

# 項目憲法

## 不可協商的原則

1. 所有新功能必須先寫測試
2. 優先使用CLI交互,GUI為輔
3. 所有API必須通過安全審查
4. 數據存儲必須加密

階段一:/specify(規範)

淨係關注「做咩」同「點解要做」,唔做技術決定。產出spec.md(相當於PRD),包含用戶故事、功能需求、預期結果、假設。生成之後會自動對照憲法做自評(self-assessment)。

階段二:/clarify(釐清,可揀)

發掘「未知嘅未知」——spec寫完之後,AI自動發現需求入面嘅模糊位同遺漏。例如spec寫咗「支援多語言」,clarify會追問「支援邊啲語言?切換方式係點?回退策略點處理?」。呢個係Spec Kit獨有嘅防盲點機制。

階段三:/checklist(檢查清單,可揀)

用「英文單元測試」方式檢查spec嘅覆蓋度——UX、安全、無障礙、邊界情況係咪都覆蓋到。相當於幫spec做一次全方位嘅代碼審查。

階段四:/plan(計劃)

關注「點樣做」。產出plan.md同配套文件:module-contracts.md(模塊契約)、data-model.md(數據模型)、research.md(技術調研)、quickstart.md(快速啓動指南)。所有技術決定一定要符合憲法。

階段五:/tasks(任務分解)

將spec同plan分解成可執行嘅細任務,包含分階段實施計劃、任務同用戶故事嘅對應、檢查點、可並行標記、依賴關係。

階段六:/analyze(分析,可揀)

跨產物一致性檢查——spec、plan、tasks之間有冇矛盾或者遺漏。例如spec要求「支援離線使用」,但plan揀咗要連網嘅方案,analyze會捉到呢個唔一致。

階段七:Implement(實施)

AI跟tasks.md逐項執行,每個階段有顯式檢查點俾人人工審查。

實測表現

優點:

1
階段閘控真係有用——spec階段唔準提技術方案,強迫你先諗清楚需求。我第一次用Spec Kit嗰陣,喺spec階段發現需求寫錯咗(將「30分鐘過期」寫成「30秒過期」),呢個時候改嘅成本幾乎係零
2
憲法機制好實用——團隊入面嘅新人唔使估Project嘅技術底線,憲法寫得好清楚
3
擴展生態豐富——91個社區擴展、18個預設,安全合規、架構治理、無障礙等都有現成方案
4
跨工具支援好——切換AI工具只需一條命令,規範喺所有工具之間保持一致

缺點:

1
文件量太大——Scott Logic嘅實測數據顯示,CRUD功能產生2,577行Markdown同689行代碼(文件量3.7倍),GPS整合產生2,262行Markdown同約300行代碼(文件量7.5倍)。功能越簡單,文件同代碼嘅比例越失平衡,審查負擔重
2
對棕地Project唔友善——Spec Kit按功能分片(每個功能獨立文件),喺現有Project上面增量開發嗰陣,要理解完整系統就要拼裝多個來源。冇OpenSpec嗰種Delta規範機制
3
速度慢——同樣嘅JWT認證功能,Spec Kit由Constitution到Implement行完要1.5小時,OpenSpec只需40分鐘。多出嚟嘅時間主要花喺階段閘控同文件審查上
4
部分文件價值有限——research.md有時喺論證好明顯嘅事實,例如「JWT比session更適合移動端」呢啲唔使調研嘅結論

Presets同Extensions

呢個係Spec Kit同另外兩個框架最大嘅分別:

Presets(預設)——自訂模板、格式、術語,唔改變工具本身。18個預設涵蓋安全合規、架構治理、無障礙等場景。甚至有個「海盜語」預設嚟展示能力邊界。

Extensions(擴展)——加新命令或者工作流。91個擴展包括:

擴展
用途
Architecture Guard
檢測架構漂移
CI Guard
CI合規閘控
MAQA
多代理質量保證閘
Ralph Loop
自主循環——自動實現所有任務
AIDE
7步AI驅動工程生命週期

安裝

# Python版(官方主推)
uvx --from git+https://github.com/github/spec-kit.git specify init 項目名

# Bun/TypeScript版
bunx @spec-kit/cli init 項目名

# 指定AI工具
specify init 項目名 --ai claude

三、OpenSpec深度測評

背景

OpenSpec係Fission-AI開發嘅開源SDD框架,核心概念係「規範係source of truth,代碼係規範嘅派生產物」。支援30+種AI工具,專為棕地Project設計。

核心工作流:增量式

OpenSpec嘅流程係最靈活,強調疊代而唔係閘控:

1
/opsx:onboard — 將現有代碼庫逆向工程成baseline規範,令現有Project無痛接入
2
/opsx:explore — 同AI討論技術方案,唔生成任何產物
3
/opsx:propose — 一次產生proposal.md、delta specs、design.md、tasks.md
4
/opsx:apply — 跟tasks.md逐項執行
5
/opsx:archive — 將delta specs合併到主規範,歸檔變更

擴展流程(workflows profile):

多咗verify、sync、bulk-archive、continue、ff等命令,適合需要更多控制嘅場景。

verify嘅三維驗證模型:

verify從三個維度檢查實現同規範嘅一致性,報告分CRITICAL(一定要修)、WARNING(建議修)、SUGGESTION(可揀優化)三級:

維度
檢查咩
完整性
所有tasks做完未,每個需求有冇對應嘅實現
正確性
實現符合規範意圖嗎,邊界情況處理咗未
一致性
代碼同design.md嘅決定一致嗎,命名規範統一嗎

Schema自定義: OpenSpec允許透過YAML定義自定義產物流程,例如加個「調研階段」:

# 自定義"調研先行"流程
name: research-first
artifacts:
  - id: research
    generates: research.md
    requires: []
  - id: proposal
    generates: proposal.md
    requires: [research]
  - id: tasks
    generates: tasks.md
    requires: [proposal]

唔係每個Project都需要design.md,Schema令你可以按需要調整,而唔係俾工具綁死。

實測表現

優點:

1
Delta規範係殺手鐧——唔使重寫成個規範,淨係寫變咗嘅部分。喺現有Project上面加功能嗰陣,呢個設計慳咗大量時間。我個JWT認證功能,Delta規範淨係寫咗3個新增場景同2個修改場景,唔使重寫成個認證規範
2
並行開發天然支援——每個變更獨立文件夾,兩個人同時改同一個spec嘅唔同需求唔會衝突
3
verify可以捉到代碼審查捉唔到嘅問題——verify喺完整性、正確性、一致性三個維度檢查。實測入面發現我嘅實現用咗內存map存黑名單,但design.md揀咗Redis。代碼審查冇發現,因為代碼本身質量冇問題,只係同規範唔一致。verify嘅CRITICAL/WARNING/SUGGESTION三級報告令問題一目瞭然
4
疊代速度快——由propose到apply只需40分鐘(同一個Project,Spec Kit要1.5小時)

缺點:

1
冇憲法/治理機制——Spec Kit有Constitution作為不可傾嘅底線,OpenSpec冇等價物。團隊協作嗰陣,唔同人可能寫出風格唔一致嘅規範
2
apply階段缺少紀律——AI跟tasks.md執行,但冇TDD、冇代碼審查、冇驗證機制。實現質量完全取決於AI嘅「自覺性」
3
規範同實現容易脱節——冇Spec Kit噉嘅階段閘控,AI可能跳過規範直接寫代碼,或者喺實現過程入面偏離design.md嘅決定
4
擴展性弱——有Schema自定義功能,可以自定義產物流程,但社區生態遠唔及Spec Kit嘅91個擴展同18個預設

目錄結構

目錄/文件
用途
openspec/specs/
系統行為嘅真相源(當前狀態)
openspec/changes/功能名/
進行中嘅變更(每個變更獨立文件夾)
openspec/changes/archive/
已完成嘅變更歸檔

安裝

npm install -g @fission-ai/openspec@latest
cd 你的項目目錄
openspec init
openspec update

四、Superpowers深度測評

背景

Superpowers係Jesse Vincent開發嘅紀律框架,5個月內GitHub星標由零升到91K+。核心概念:如果你嘅AI助手聰明但冇紀律,就俾佢紀律。

核心工作流:14條紀律

Superpowers嘅流程係最注重執行質量,14個Skill組成一條嚴格嘅開發流水線:

1
using-superpowers — 檢查應該用邊個Skill。核心係「1%規則」:只要當前任務有1%嘅可能性對應到某個Skill,就一定要先調用該Skill再回應。設計意圖係防止最常見嘅失敗模式——AI因為「覺得簡單」而跳過結構化流程
2
brainstorming — 先問清楚需求先動手
3
writing-plans — 拆成2-5分鐘嘅細任務
4
using-git-worktrees — 建立隔離工作空間
5
subagent-driven-development — 每個任務派新代理
6
executing-plans — 冇子代理時自己執行
7
test-driven-development — 先寫失敗測試再寫代碼
8
systematic-debugging — 先揾根因再修bug
9
requesting-code-review — 派獨立代理審查
10
receiving-code-review — 確認審查意見再實施
11
dispatching-parallel-agents — 獨立問題同時派多個代理
12
verification-before-completion — 話完成之前一定要行驗證
13
finishing-a-development-branch — 驗證、合併、清理
14
writing-skills — 用TDD方法寫新Skill

實測表現

優點:

1
TDD鐵律真係有效——「冇失敗測試唔寫代碼」唔係建議,係鐵律。AI先寫測試再寫實現,測試覆蓋率由0%直接去到80%+
2
獨立代理審查避免確認偏誤——審查代理淨係睇代碼變更,唔知道你嘅思考過程,可以捉到你睇唔到嘅問題
3
調試方法論最成熟——systematic-debugging嘅「3次規則」(連續3次修復失敗,停落嚟討論)同「最急嘅時候最應該用系統方法」嘅理念,實測慳咗2-3小時
4
提交粒度最合理——8個任務8次提交,每次提交都係原子性嘅。對比冇Superpowers嗰陣嘅1次大提交

缺點:

1
方向校準依賴brainstorming而唔係顯式規範——brainstorming可以發現需求問題,但唔似Spec Kit噉有憲法同spec閘控嚟系統性約束方向。TDD做得幾好,做出嚟嘅嘢同需求對唔上都冇用
2
流程開銷大——每個任務派新代理、獨立審查、驗證,簡單功能都要行完整流程。一次性Script用Superpowers係浪費時間
3
成本高——代理鏈式調用明顯增加token消耗。好多實踐者反映Superpowers嘅代理鏈式調用會更快觸到Claude Pro/Max嘅使用上限
4
冇規範累積機制——每次新對話,AI會唔記得之前嘅決定。唔似OpenSpec有主規範累積,亦唔似Spec Kit有Constitution

Skill分類(跟官方四類劃分)

類別
包含Skill
設計邏輯
Process(流程)
brainstorming、systematic-debugging、verification-before-completion
防止流程性錯誤
Implementation(實現)
test-driven-development、writing-plans、executing-plans
確保實現質量
Review(審查)
requesting-code-review、receiving-code-review、finishing-a-development-branch
多視角驗證
Orchestration(編排)
dispatching-parallel-agents、subagent-driven-development、using-git-worktrees
代理協作管理

每類Skill嘅嚴格程度唔同:TDD係鐵律(Skip嘅代價係指數級增長嘅bug),代碼審查接收係建議(人做最終決定)。判斷標準得一個:AI skip呢步嘅代價有幾大。

安裝

# Claude Code安裝
claude plugin install superpowers

# 或者手動安裝:將skill文件複製到 ~/.claude/skills/ 目錄

# Gemini CLI:通過GEMINI.md配置

# 驗證:說"幫我規劃一個功能"
# AI應該先問問題而不是直接寫代碼

五、同一個Project嘅對比實測

我用「幫Go微服務加JWT認證」呢個需求,分別用三個Framework行咗一次完整流程。以下係關鍵數據:

維度
Spec Kit
OpenSpec
Superpowers
總耗時
1.5小時
40分鐘
55分鐘
文檔量
~3500行MD
~800行MD
唔生成文件,淨係有代碼同測試
測試數量
0個(要手動補)
0個(要手動補)
10個(自動生成)
提交次數
1次大提交
1次大提交
8次精準提交
需求對齊
憲法+spec閘控
proposal+specs
brainstorming
規範合規
自評檢查
verify
實施前驗證(TDD+審查)
AI超出範圍實現
0次
1次(proposal嘅排除範圍唔夠完善,AI自動補充咗非預期功能)
2次
返工次數
1次(階段之間走樣)
0次
2次(方向偏差)

關鍵發現:

1
Spec Kit最慢但最安全——階段閘控同憲法機制確保方向唔會偏,但文件量太大,審查負擔重
2
OpenSpec速度同質量最平衡——Delta規範+verify嘅組合,喺速度同規範合規之間揾到最佳平衡點
3
Superpowers代碼質量最高但方向容易偏——TDD+審查確保代碼質量,但方向校準依賴brainstorming而唔係顯式規範,AI可能做出唔需要嘅功能

六、三個框架嘅適用場景

Spec Kit適合咩

綠地Project(由零開始,需要完整規範體系)
大型團隊(需要治理、合規、多人對齊)
安全合規要求高嘅Project(有現成嘅安全合規預設同擴展)
需要跨AI工具嘅團隊(30+種工具整合,切換零成本)

OpenSpec適合咩

棕地Project(喺現有代碼上加功能,Delta規範天然適合)
中小團隊(流程輕量,上手快)
需要快速疊代嘅場景(由propose到apply只需40分鐘)
多變更並行開發(每個變更獨立文件夾,唔會衝突)

Superpowers適合咩

代碼質量要求高嘅Project(TDD+審查確保質量)
長期維護嘅Project(測試同審查嘅投資回報高)
AI輔助編程場景(流程彌補AI嘅偷懶傾向)
複雜功能開發(設計階段防止走錯方向)

唔適合嘅場景

框架
不適合
Spec Kit
一次性Script、細改動、個人細Project(流程開銷大過收益好多)
OpenSpec
需要強治理嘅團隊、需要強治理嘅綠地Project(缺少憲法同閘控機制嗰陣可以配合Superpowers用)
Superpowers
一次性Script、緊急hotfix、探索性原型(流程會卡住)

七、框架組合:1+1大過2

三個框架唔係互斥嘅,可以組合使用。

最佳組合:OpenSpec + Superpowers

點解? OpenSpec管「做咩」(方向),Superpowers管「點樣做」(執行)。兩個框架互補:

1
OpenSpec嘅explore同propose確定需求同方案
2
Skip OpenSpec嘅apply(Superpowers嘅TDD做得更好)
3
將OpenSpec嘅design.md同specs餵俾Superpowers做背景
4
Superpowers逐個task行TDD
5
每個task完成後:代碼審查 + spec-compliance-check + verify
6
全量測試通過後archive

實測數據: 兩個框架組合使用嗰陣,返工次數降到0-1次,同時保持代碼質量。具體踩坑同銜接方法,我之前寫過一篇《兩個AI編程框架一齊用,我踩咗7個坑》,呢度唔重複。

可揀組合:Spec Kit + Superpowers

Spec Kit嘅憲法同階段閘控 + Superpowers嘅TDD同審查。適合需要強治理嘅大型團隊。但要留意:Spec Kit嘅文件量已經好大,加上Superpowers嘅流程開銷,總時間可能翻倍。

唔推薦:Spec Kit + OpenSpec

兩個都係SDD框架,功能重疊太多。Spec Kit嘅/specify同OpenSpec嘅/opsx:propose做嘅係同一件事,同時用只會增加混亂。

八、選擇決策樹

1
代碼要生存幾耐?生存1日 → 三個都唔用,直接寫
2
有幾多人掂代碼?1個人 → 睇第3步;3人以上 → 睇第4步
3
一個人維護:現有Project加功能揀OpenSpec,新Project由零開始揀Spec Kit,淨係關心代碼質量揀Superpowers
4
團隊協作:需要合規治理揀Spec Kit,快速疊代為主揀OpenSpec + Superpowers,代碼質量底線揀Superpowers

核心判斷標準:代碼要生存幾耐 × 有幾多人掂 × 合規要求有幾高。

九、三個框架嘅限制

每個框架都有自己解決唔到嘅問題,老實講:

Spec Kit嘅限制:

文件量係代碼量嘅3.7-7.5倍(Scott Logic實測,功能越簡單比例越失平衡),部分文件價值有限
俾人批評係「重返瀑布模型」——階段閘控雖然安全,但降低咗靈活性
棕地Project上唔及OpenSpec,要完整重寫規範而唔係增量更新

OpenSpec嘅限制:

冇治理機制,團隊協作嗰陣規範風格可能唔一致
apply階段缺少紀律,AI可能跳測試、唔做審查
社區生態唔及Spec Kit,擴展同預設數量差距大

Superpowers嘅限制:

方向校準依賴brainstorming而唔係顯式規範,系統性需求容易被遺漏
每次新對話AI會唔記得之前嘅決定,冇規範累積
token消耗明顯增加,成本係三個框架中最高的

寫喺最後

三個框架本質上係三種唔同嘅AI編程哲學:

1
Spec Kit——「先諗清楚先動手」,用階段閘控確保方向
2
OpenSpec——「邊做邊對齊」,用增量規範適應變化
3
Superpowers——「跟規矩做事」,用鐵律確保質量

冇最好嘅框架,只有最適合嘅框架。如果你嘅Project需要合規同治理,揀Spec Kit。如果你喺現有Project上面快速疊代,揀OpenSpec。如果你淨係關心代碼質量,揀Superpowers。如果你既要方向啱又要質量好,揀OpenSpec + Superpowers。

3條起步建議:

1
先諗清楚你嘅痛點係「方向偏」定「質量差」——方向偏用SDD框架,質量差用紀律框架
2
唔好一次用曬所有功能——Spec Kit由憲法開始,OpenSpec由propose開始,Superpowers由3條鐵律開始
3
用同一個需求分別試一次——唔試唔知邊個順手,試過先知邊個適合你

掃碼關注「AI智聞說」,每日3分鐘掌握AI新知識

圖片



GitHub官方出品的Spec Kit、Fission-AI的OpenSpec、Jesse Vincent的Superpowers——三個框架都號稱讓AI編程更可控,但它們的思路完全不同。我用同一個項目跑了一遍,告訴你各自的真實表現

寫在前面

AI編程工具越來越強,但問題也越來越明顯:AI寫代碼很快,可它寫出來的東西經常不是你要的。

三個框架都想解決這個問題,但路線不同:

Spec Kit(GitHub官方)——用SDD(規範驅動開發,Spec-Driven Development),讓AI先寫PRD再寫代碼
OpenSpec(Fission-AI)——用增量規範(Delta Spec),讓AI在已有項目上對齊需求
Superpowers(Jesse Vincent)——用紀律框架(Skill),讓AI按工程標準執行

我花了三週時間,用同一個項目(給Go微服務添加JWT認證)分別跑了一遍三個框架的完整流程。這篇文章是我的完整測評:每個框架怎麼用、適合什麼場景、踩了什麼坑、以及最終我選了哪個。

(注:SDD領域還有GSD(61K+星標)、BMAD-METHOD(46K+星標)等框架,各有側重,本文聚焦於三個代表性框架。)

一、三個框架的核心定位

先搞清楚一個關鍵區別:三個框架解決的不是同一個問題。

維度
Spec Kit
OpenSpec
Superpowers
核心問題
做什麼、為什麼做
做什麼、怎麼對齊
怎麼做、按什麼標準
核心理念
規範先行,階段門控
增量規範,迭代優先
紀律框架,鐵律驅動
控制手段
相位門(Phase Gate)
Delta規範 + verify
鐵律 + 減速帶
核心產物
constitution、spec、plan、tasks
proposal、specs、design、tasks
代碼、測試、審查報告
失敗模式
階段間漂移、文檔過重
規範和實現脱節
方向對但執行過度
類比
建築審批流程
增量設計圖紙
施工操作規程
GitHub星標
~96K+
~28K+
~91K+

一句話區分:Spec Kit是"先審批再施工",OpenSpec是"邊改圖紙邊施工",Superpowers是"不管圖紙,按規矩施工"。

二、Spec Kit深度測評

背景

Spec Kit是GitHub官方開源的SDD框架,源自John Lam的研究,由GitHub Principal Product Engineer Den Delimarsky主導開發。2025年9月發佈,數天內突破50K星標,目前約96K+星標、5.5K+ Fork、200+貢獻者。最新版本0.8.9。

核心工作流:7步流程(3步可選)

Spec Kit的流程是最嚴格的,每個階段都有相位門(Phase Gate),前一階段不通過不能進入下一階段:

前置階段:Constitution(憲法)

定義項目不可協商的原則。比如"必須TDD"、"必須CLI-first"、"安全合規標準"。憲法會在後續所有階段中作為約束條件被引用。

# 項目憲法

## 不可協商的原則

1. 所有新功能必須先寫測試
2. 優先使用CLI交互,GUI為輔
3. 所有API必須通過安全審查
4. 數據存儲必須加密

階段一:/specify(規範)

只關注"做什麼"和"為什麼做",不做技術決策。產出spec.md(相當於PRD),包含用戶故事、功能需求、預期結果、假設。生成後自動對照憲法做自評(self-assessment)。

階段二:/clarify(澄清,可選)

挖掘"未知的未知"——spec寫完後,AI自動發現需求中的模糊點和遺漏。比如spec寫了"支持多語言",clarify會追問"支持哪些語言?切換方式是什麼?回退策略怎麼處理?"。這是Spec Kit獨有的防盲點機制。

階段三:/checklist(檢查清單,可選)

用"英文單元測試"方式檢查spec的覆蓋度——UX、安全、無障礙、邊界情況是否都被覆蓋。相當於給spec做一次全方位的代碼審查。

階段四:/plan(計劃)

關注"怎麼做"。產出plan.md和配套文檔:module-contracts.md(模塊契約)、data-model.md(數據模型)、research.md(技術調研)、quickstart.md(快速啓動指南)。所有技術決策必須符合憲法。

階段五:/tasks(任務分解)

將spec和plan分解為可執行的小任務,包含分階段實施計劃、任務與用戶故事的映射、檢查點、可並行標識、依賴關係。

階段六:/analyze(分析,可選)

跨產物一致性檢查——spec、plan、tasks之間是否有矛盾或遺漏。比如spec要求"支持離線使用",但plan選了需要聯網的方案,analyze會抓到這個不一致。

階段七:Implement(實施)

AI按tasks.md逐項執行,每個階段有顯式檢查點供人工審查。

實測表現

優點:

1
階段門控真的管用——spec階段不允許提技術方案,強制你先想清楚需求。我第一次用Spec Kit時,在spec階段發現需求寫反了(把"30分鐘過期"寫成了"30秒過期"),這時候改成本幾乎為零
2
憲法機制很實用——團隊裏新人不用猜項目的技術底線,憲法寫得很清楚
3
擴展生態豐富——91個社區擴展、18個預設,安全合規、架構治理、無障礙等都有現成方案
4
跨工具支持好——切換AI工具只需一條命令,規範在所有工具間保持一致

缺點:

1
文檔量太大——Scott Logic的實測數據顯示,CRUD功能產生2,577行Markdown和689行代碼(文檔量3.7倍),GPS集成產生2,262行Markdown和約300行代碼(文檔量7.5倍)。功能越簡單,文檔和代碼的比例越失衡,審查負擔重
2
對棕地項目不友好——Spec Kit按功能分片(每個功能獨立文件),在已有項目上增量開發時,理解完整系統需要拼裝多個來源。沒有OpenSpec那種Delta規範機制
3
速度慢——同樣的JWT認證功能,Spec Kit從Constitution到Implement走完要1.5小時,OpenSpec只要40分鐘。多出來的時間主要花在階段門控和文檔審查上
4
部分文檔價值有限——research.md有時在論證明顯的事實,比如"JWT比session更適合移動端"這種不需要調研的結論

Presets和Extensions

這是Spec Kit區別於另外兩個框架的最大亮點:

Presets(預設)——定製模板、格式、術語,不改變工具本身。18個預設覆蓋安全合規、架構治理、無障礙等場景。甚至有"海盜語"預設來演示能力邊界。

Extensions(擴展)——添加新命令或工作流。91個擴展包括:

擴展
用途
Architecture Guard
檢測架構漂移
CI Guard
CI合規門控
MAQA
多代理質量保證門
Ralph Loop
自主循環——自動實現所有任務
AIDE
7步AI驅動工程生命週期

安裝

# Python版(官方主推)
uvx --from git+https://github.com/github/spec-kit.git specify init 項目名

# Bun/TypeScript版
bunx @spec-kit/cli init 項目名

# 指定AI工具
specify init 項目名 --ai claude

三、OpenSpec深度測評

背景

OpenSpec是Fission-AI開發的開源SDD框架,核心理念是"規範是source of truth,代碼是規範的派生產物"。支持30+種AI工具,專為棕地項目設計。

核心工作流:增量式

OpenSpec的流程是最靈活的,強調迭代而非門控:

1
/opsx:onboard — 將已有代碼庫反向工程成baseline規範,讓已有項目無痛接入
2
/opsx:explore — 和AI討論技術方案,不生成任何產物
3
/opsx:propose — 一次生成proposal.md、delta specs、design.md、tasks.md
4
/opsx:apply — 按tasks.md逐項執行
5
/opsx:archive — 把delta specs合併到主規範,歸檔變更

擴展流程(workflows profile):

多了verify、sync、bulk-archive、continue、ff等命令,適合需要更多控制的場景。

verify的三維驗證模型:

verify從三個維度檢查實現和規範的一致性,報告分CRITICAL(必須修)、WARNING(建議修)、SUGGESTION(可選優化)三級:

維度
檢查什麼
完整性
所有tasks都完成了嗎,每個需求都有對應實現嗎
正確性
實現符合規範意圖嗎,邊界情況處理了嗎
一致性
代碼和design.md的決策一致嗎,命名規範統一嗎

Schema自定義: OpenSpec允許通過YAML定義自定義產物流程,比如添加"調研階段":

# 自定義"調研先行"流程
name: research-first
artifacts:
  - id: research
    generates: research.md
    requires: []
  - id: proposal
    generates: proposal.md
    requires: [research]
  - id: tasks
    generates: tasks.md
    requires: [proposal]

不是每個項目都需要design.md,Schema讓你按需調整,而不是被工具綁架。

實測表現

優點:

1
Delta規範是殺手鐧——不需要重寫整個規範,只寫變化的部分。在已有項目上加功能時,這個設計省了大量時間。我的JWT認證功能,Delta規範只寫了3個新增場景和2個修改場景,不用重寫整個認證規範
2
並行開發天然支持——每個變更獨立文件夾,兩個人同時改同一個spec的不同需求不衝突
3
verify能抓到代碼審查抓不到的問題——verify在完整性、正確性、一致性三個維度檢查。實測中發現我的實現用了內存map存黑名單,而design.md選的是Redis。代碼審查沒發現,因為代碼本身質量沒問題,只是和規範不一致。verify的CRITICAL/WARNING/SUGGESTION三級報告讓問題一目瞭然
4
迭代速度快——從propose到apply只要40分鐘(同一個項目,Spec Kit要1.5小時)

缺點:

1
沒有憲法/治理機制——Spec Kit有Constitution作為不可協商的底線,OpenSpec沒有等價物。團隊協作時,不同人可能寫出風格不一致的規範
2
apply階段缺少紀律——AI按tasks.md執行,但沒有TDD、沒有代碼審查、沒有驗證機制。實現質量完全取決於AI的"自覺性"
3
規範和實現容易脱節——沒有Spec Kit那樣的階段門控,AI可能跳過規範直接寫代碼,或者在實現過程中偏離design.md的決策
4
擴展性弱——有Schema自定義功能,可以自定義產物流程,但社區生態遠不如Spec Kit的91個擴展和18個預設

目錄結構

目錄/文件
用途
openspec/specs/
系統行為的真相源(當前狀態)
openspec/changes/功能名/
進行中的變更(每個變更獨立文件夾)
openspec/changes/archive/
已完成的變更歸檔

安裝

npm install -g @fission-ai/openspec@latest
cd 你的項目目錄
openspec init
openspec update

四、Superpowers深度測評

背景

Superpowers是Jesse Vincent開發的紀律框架,5個月內GitHub星標從零漲到91K+。核心理念:如果你的AI助手聰明但沒有紀律,那就給它紀律。

核心工作流:14條紀律

Superpowers的流程是最注重執行質量的,14個Skill組成一條嚴格的開發流水線:

1
using-superpowers — 檢查該用哪個Skill。核心是"1%規則":只要當前任務有1%的可能性匹配到某個Skill,就必須先調用該Skill再響應。設計意圖是防止最常見的失敗模式——AI因為"覺得簡單"而跳過結構化流程
2
brainstorming — 先問清楚需求再動手
3
writing-plans — 拆成2-5分鐘小任務
4
using-git-worktrees — 創建隔離工作空間
5
subagent-driven-development — 每個任務派新代理
6
executing-plans — 無子代理時自己執行
7
test-driven-development — 先寫失敗測試再寫代碼
8
systematic-debugging — 先找根因再修bug
9
requesting-code-review — 派獨立代理審查
10
receiving-code-review — 驗證審查意見再實施
11
dispatching-parallel-agents — 獨立問題同時派多個代理
12
verification-before-completion — 聲稱完成前必須跑驗證
13
finishing-a-development-branch — 驗證、合併、清理
14
writing-skills — 用TDD方法寫新Skill

實測表現

優點:

1
TDD鐵律真的有效——"沒有失敗測試不寫代碼"不是建議,是鐵律。AI先寫測試再寫實現,測試覆蓋率從0%直接到80%+
2
獨立代理審查避免確認偏誤——審查代理只看代碼變更,不瞭解你的思考過程,能抓到你視而不見的問題
3
調試方法論最成熟——systematic-debugging的"3次規則"(連續3次修復失敗,停下來討論)和"最急的時候最該用系統方法"的理念,實測節省2-3小時
4
提交粒度最合理——8個任務8次提交,每次提交都是原子性的。對比沒有Superpowers時的1次大提交

缺點:

1
方向校準依賴brainstorming而非顯式規範——brainstorming能發現需求問題,但不像Spec Kit那樣有憲法和spec門控來系統性約束方向。TDD做得再好,做出來的東西和需求對不上也白搭
2
流程開銷大——每個任務派新代理、獨立審查、驗證,簡單功能也要走完整流程。一次性腳本用Superpowers是浪費時間
3
成本高——代理鏈式調用顯著增加token消耗。多位實踐者反饋Superpowers的代理鏈式調用會更快觸及Claude Pro/Max的使用上限
4
沒有規範累積機制——每次新對話,AI忘光之前的決策。不像OpenSpec有主規範累積,也不像Spec Kit有Constitution

Skill分類(按官方四類劃分)

類別
包含Skill
設計邏輯
Process(流程)
brainstorming、systematic-debugging、verification-before-completion
防止流程性錯誤
Implementation(實現)
test-driven-development、writing-plans、executing-plans
確保實現質量
Review(審查)
requesting-code-review、receiving-code-review、finishing-a-development-branch
多視角驗證
Orchestration(編排)
dispatching-parallel-agents、subagent-driven-development、using-git-worktrees
代理協作管理

每類Skill的嚴格程度不同:TDD是鐵律(跳過的代價是指數級增長的bug),代碼審查接收是建議(人做最終決定)。判斷標準只有一個:AI跳過這一步的代價有多大。

安裝

# Claude Code安裝
claude plugin install superpowers

# 或者手動安裝:將skill文件複製到 ~/.claude/skills/ 目錄

# Gemini CLI:通過GEMINI.md配置

# 驗證:說"幫我規劃一個功能"
# AI應該先問問題而不是直接寫代碼

五、同一個項目的對比實測

我用"給Go微服務添加JWT認證"這個需求,分別用三個框架走了一遍完整流程。以下是關鍵數據:

維度
Spec Kit
OpenSpec
Superpowers
總耗時
1.5小時
40分鐘
55分鐘
文檔量
~3500行MD
~800行MD
不生成文檔,僅有代碼和測試
測試數量
0個(需手動補)
0個(需手動補)
10個(自動生成)
提交次數
1次大提交
1次大提交
8次精確提交
需求對齊
憲法+spec門控
proposal+specs
brainstorming
規範合規
自評檢查
verify
實施前驗證(TDD+審查)
AI超範圍實現
0次
1次(proposal的排除範圍不夠完善,AI自動補充了非預期功能)
2次
返工次數
1次(階段間漂移)
0次
2次(方向偏差)

關鍵發現:

1
Spec Kit最慢但最安全——階段門控和憲法機制確保方向不會偏,但文檔量太大,審查負擔重
2
OpenSpec速度和質量最平衡——Delta規範+verify的組合,在速度和規範合規之間找到了最佳平衡點
3
Superpowers代碼質量最高但方向容易偏——TDD+審查確保代碼質量,但方向校準依賴brainstorming而非顯式規範,AI可能做出不需要的功能

六、三個框架的適用場景

Spec Kit適合什麼

綠地項目(從零開始,需要完整規範體系)
大型團隊(需要治理、合規、多人對齊)
安全合規要求高的項目(有現成的安全合規預設和擴展)
需要跨AI工具的團隊(30+種工具集成,切換零成本)

OpenSpec適合什麼

棕地項目(在已有代碼上加功能,Delta規範天然適合)
中小團隊(流程輕量,上手快)
需要快速迭代的場景(從propose到apply只要40分鐘)
多變更並行開發(每個變更獨立文件夾,不衝突)

Superpowers適合什麼

代碼質量要求高的項目(TDD+審查確保質量)
長期維護的項目(測試和審查的投資回報高)
AI輔助編程場景(流程彌補AI的偷懶傾向)
複雜功能開發(設計階段防止走錯方向)

不適合的場景

框架
不適合
Spec Kit
一次性腳本、小改動、個人小項目(流程開銷遠大於收益)
OpenSpec
需要強治理的團隊、需要強治理的綠地項目(缺少憲法和門控機制時可配合Superpowers使用)
Superpowers
一次性腳本、緊急hotfix、探索性原型(流程會卡住)

七、框架組合:1+1大於2

三個框架不是互斥的,可以組合使用。

最佳組合:OpenSpec + Superpowers

為什麼? OpenSpec管"做什麼"(方向),Superpowers管"怎麼做"(執行)。兩個框架互補:

1
OpenSpec的explore和propose確定需求和方案
2
跳過OpenSpec的apply(Superpowers的TDD做得更好)
3
把OpenSpec的design.md和specs餵給Superpowers作為上下文
4
Superpowers逐個task走TDD
5
每個task完成後:代碼審查 + spec-compliance-check + verify
6
全量測試通過後archive

實測數據: 兩個框架組合使用時,返工次數降到0-1次,同時保持代碼質量。具體踩坑和銜接方法,我之前寫過一篇《兩個AI編程框架一起用,我踩了7個坑》,這裏不重複。

可選組合:Spec Kit + Superpowers

Spec Kit的憲法和階段門控 + Superpowers的TDD和審查。適合需要強治理的大型團隊。但要注意:Spec Kit的文檔量已經很大了,加上Superpowers的流程開銷,總耗時可能翻倍。

不推薦:Spec Kit + OpenSpec

兩個都是SDD框架,功能重疊太大。Spec Kit的/specify和OpenSpec的/opsx:propose做的是同一件事,同時用只會增加混亂。

八、選擇決策樹

1
代碼要活多久?活1天 → 三個都不用,直接寫
2
有多少人碰代碼?1個人 → 看第3步;3人以上 → 看第4步
3
一個人維護:已有項目加功能選OpenSpec,新項目從零開始選Spec Kit,只關心代碼質量選Superpowers
4
團隊協作:需要合規治理選Spec Kit,快速迭代為主選OpenSpec + Superpowers,代碼質量底線選Superpowers

核心判斷標準:代碼要活多久 × 有多少人碰 × 合規要求多高。

九、三個框架的侷限性

每個框架都有自己解決不了的問題,誠實地說:

Spec Kit的侷限:

文檔量是代碼量的3.7-7.5倍(Scott Logic實測,功能越簡單比例越失衡),部分文檔價值有限
被批評為"重返瀑布模型"——階段門控雖然安全,但降低了靈活性
棕地項目上不如OpenSpec,需要完整重寫規範而不是增量更新

OpenSpec的侷限:

沒有治理機制,團隊協作時規範風格可能不一致
apply階段缺少紀律,AI可能跳測試、不做審查
社區生態不如Spec Kit,擴展和預設數量差距大

Superpowers的侷限:

方向校準依賴brainstorming而非顯式規範,系統性需求容易被遺漏
每次新對話AI忘光之前的決策,沒有規範累積
token消耗顯著增加,成本是三個框架中最高的

寫在最後

三個框架本質上是三種不同的AI編程哲學:

1
Spec Kit——"先想清楚再動手",用階段門控確保方向
2
OpenSpec——"邊做邊對齊",用增量規範適應變化
3
Superpowers——"按規矩做事",用鐵律確保質量

沒有最好的框架,只有最適合的框架。如果你的項目需要合規和治理,選Spec Kit。如果你在已有項目上快速迭代,選OpenSpec。如果你只關心代碼質量,選Superpowers。如果你既要方向對又要質量好,選OpenSpec + Superpowers。

3條起步建議:

1
先想清楚你的痛點是"方向偏"還是"質量差"——方向偏用SDD框架,質量差用紀律框架
2
不要一次用上所有功能——Spec Kit從憲法開始,OpenSpec從propose開始,Superpowers從3條鐵律開始
3
用同一個需求分別試一遍——不試不知道哪個順手,試過才知道哪個適合你

掃碼關注「AI智聞說」,每天3分鐘掌握AI新知識

圖片