用戶故事 vs 功能說明書,AI更愛哪種?評測標準

作者:產品AI力學
日期:2026年5月10日 下午7:30
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

呢篇文介紹一個評測框架,比較用戶故事同功能說明書邊種輸入方式更適合PM用AI編程。

整理版摘要

呢篇文章係由一位產品經理(PM)寫嘅,佢想搞清楚一個問題:當用AI編程工具(例如Codex CLI)嚟將粗略需求變成可演示嘅產品時,PM用「用戶故事」定係「功能說明書」嘅口吻會更快見效?作者唔係關心代碼質量,而係想加速需求驗證同產品決策。所以佢設計咗一個好嚴謹嘅評測框架,用證據去支持或推翻三個假設。

評測環境設定得好詳細:工具鏈用Claude Code做編排,Codex CLI做主力編碼,仲有個brainstorming skill輔助澄清。技術棧係React+Vite+FastAPI+PG,確保PM可以驗證完整業務閉環,唔係得個前端樣板。輸入材料分A組(用戶故事)同B組(功能說明書),兩組功能邊界嚴格等價,只係口吻唔同。工作流程分六個階段,由PM輸入需求開始,到AI整理、PM核對、編碼實現、本地驗收,最後評分。

評測有五個維度:需求易讀性、意圖識別準確度、Skill反饋深度、編碼效果、端到端效率。仲有一份12項嘅驗收清單,例如一鍵啟動、後端真係存在、倒計時精準呢啲。作者希望透過呢個框架,俾出一個PM實踐建議。如果你對評測方法有意見,可以私信或留言。

  • 評測比較用戶故事(第一人稱、口語化)與功能說明書(第三人稱、規範化)兩種PM輸入方式,從五個維度衡量效率。
  • 假設:功能說明書意圖識別更準,用戶故事更能激發AI主動澄清,但最終可用性差距不大。
  • 控制變量嚴格:同一PM、全新會話、迭代上限3輪、人工修訂只改不補。
  • 技術棧要求全棧(React+Vite+FastAPI+PG),確保PM驗證業務閉環。
  • 驗收清單包含12項具體功能點,如後端真實存在、倒計時精準、不同階段主題色等。
結構示例

內容片段

內容片段 text
[階段 1] PM 輸入粗略需求 (A 或 B)              │              ▼[階段 2] Codex · brainstorming + visual-companion              │  ① 複述意圖   ② 主動澄清(必要時配可視化)   ③ 輸出"整理後的需求文檔"              ▼[階段 3] PM 人工核對修訂 ★評測點★              │  對照原文逐句檢查:意圖識別是否準、覆蓋是否全、有無誤讀、有無幻覺              │  記錄修訂量(增/刪/改的條目數與字符數)              ▼[階段 4] Codex high · 實現計劃 + 編碼              │  生成 monorepo:frontend/ + backend/ + db/schema.sql              ▼[階段 5] 本地啓動 + 驗收              │  按 §3.4 驗收清單逐項驗證 + 盲測試用 → 必要時迭代(≤2 輪追問)              ▼[階段 6] 評分彙總
整理重點

評測背景與核心問題

呢篇文嘅核心問題係:PM用「用戶故事」定係「功能說明書」嘅口吻,可以更快將想法變成可演示嘅產品?作者嘅立場係PM vibe coding嘅目標係加速需求驗證同產品決策,唔係同工程師爭代碼質量。

用戶故事 vs 功能說明書:邊種更快將想法變成可演示嘅產品?

  • H1:功能說明書讓AI嘅意圖識別準確率更高(整理產物與原文偏差更細)。
  • H2:用戶故事更能激發AI主動澄清(提問更深、覆蓋隱藏需求)。
  • H3:喺≤3輪迭代內,兩種輸入嘅最終產品可用性可收斂(差距唔顯著)。
整理重點

評測環境與方法

評測工具鏈:用Claude Code做外層編排,負責將PM嘅話轉交給CodexCodex CLI(high reasoning模式)做主力,負責具體澄清同編碼。仲有強制啟用嘅brainstorming skill同visual-companion,用嚟展示mockup、狀態機、數據模型等。技術棧係React+Vite+FastAPI+PG,因為PM要驗證嘅係業務閉環,唔係得個前端。

Claude Code

Codex CLI

brainstorming skill

visual-companion

React+Vite+FastAPI+PG

業務閉環

  1. 1 階段1:PM輸入粗略需求(A或B口吻)。
  2. 2 階段2Codex用brainstorming + visual-companion複述意圖、主動澄清、輸出整理後需求文檔。
  3. 3 階段3:PM人工核對修訂,記錄修正量(係評測點之一)。
  4. 4 階段4Codex生成實現計劃同編碼,產生monorepo。
  5. 5 階段5:本地啟動並按驗收清單驗證,必要時迭代(≤2輪追問)。
  6. 6 階段6:評分彙總。
整理重點

評測維度與驗收標準

評測有五個維度,對應工作流嘅關鍵節點:人讀→AI懂→人核對→Skill問→演示出。分別係:需求易讀性、意圖識別準確度、Skill反饋深度、編碼效果、端到端效率。

需求易讀性

意圖識別準確度

Skill反饋深度

編碼效果

端到端效率

  • 一鍵啟動,無報錯
  • 後端真存在API可被curl,數據寫進SQLite(非mock)
  • 25分鐘專注結束後自動進入5分鐘短休息
  • 完成4個專注後下一次休息為15分鐘(長休息)
  • 暫停後繼續,剩餘時間精準(誤差<1秒)
  • 跳過專注階段時「今日完成數」唔增加
  • 重置後所有計數歸位且需二次確認
  • 完成數跨天自動清零,關閉瀏覽器再開仍保留當日數據

核心問題:作為 AI 編程工具嘅粗略需求輸入,PM 用「用戶故事」定係「功能說明書」邊種口吻,可以更快將想法變成可以演示、可以被外部用戶試用嘅產品?

立場:PM vibe coding 嘅目標係加快需求驗證同產品決策,唔係同工程師爭代碼質量。所以呢個評測唔會打代碼風格分,睇嘅係「想法到可演示」嘅端到端效率。

圖片


1. 評測假設

編號
假設
H1
功能說明書令 AI 嘅意圖識別準確率更高(整理出嚟嘅嘢同原文偏差更細)
H2
用戶故事更能夠激發 AI 主動澄清(問得更深入、覆蓋隱藏需求)
H3
喺 ≤3 輪迭代之內,兩種輸入嘅最終產品可用性可以收斂(差距唔顯著)

評測目的係用證據去證偽或者支持上面三條假設,俾出 PM 實踐建議。

2. 評測環境

2.1 工具鏈

角色
工具
備註
編排/調度
Claude Code
(Opus 4.7)
淨係做外層編排,負責將 PM 嘅話轉交俾 Codex;唔參與具體嘅澄清或者編碼
需求澄清+編碼Codex CLI
(high reasoning 模式)
全程做主力,掛載 superpowers:brainstorming skill
澄清輔助
brainstorming skill 嘅(可視化助手)
強制啟用
,用嚟展示 mockup / 狀態機 / 數據模型 / ER 圖

2.2 技術棧(兩組完全一致)

  • • 前端:React + Vite
  • • 後端:FastAPI(Python 3.11)
  • • 數據庫:PG

點解要求全棧而唔係單文件 HTML:PM vibe coding 驗證嘅唔淨止係「前端用唔用得」,更加係「業務閉環行唔行得通」。

詳見:產品經理 Vibe Coding(續):唔好攞預覽頁嚟呃人,唔識寫代碼就唔敢上後端?解答2個問題

2.3 輸入材料

  • • A 組(用戶故事口吻):第一人稱、口語化、諗法級
  • • B 組(功能說明書口吻):第三人稱、規範化、諗法級
  • • 兩個版本功能邊界嚴格等價,淨係 PM 口吻同視角唔同
  • • 兩個版本都刻意停留喺諗法級:唔包含狀態機、字段、API、狀態命名等工程細節,工程細節由 AI 喺階段 2 補番

2.5 工作流(兩組完全一致)

[階段 1] PM 輸入粗略需求 (A 或 B)
              │
              ▼
[階段 2] Codex · brainstorming + visual-companion
              │  ① 複述意圖   ② 主動澄清(必要時配可視化)   ③ 輸出"整理後的需求文檔"
              ▼
[階段 3] PM 人工核對修訂 ★評測點★
              │  對照原文逐句檢查:意圖識別是否準、覆蓋是否全、有無誤讀、有無幻覺
              │  記錄修訂量(增/刪/改的條目數與字符數)
              ▼
[階段 4] Codex high · 實現計劃 + 編碼
              │  生成 monorepo:frontend/ + backend/ + db/schema.sql
              ▼
[階段 5] 本地啓動 + 驗收
              │  按 §3.4 驗收清單逐項驗證 + 盲測試用 → 必要時迭代(≤2 輪追問)
              ▼
[階段 6] 評分彙總

2.6 控制變量

  • • 同一個 PM、同一時段、相同嘅提示前綴(見 §4.3)
  • • 每組開全新 Codex 會話,避免上文下理污染
  • • 每組由階段 4 開始嘅迭代上限 3 輪(包括初次生成)
  • • 階段 3 嘅人工修訂淨係改唔補:只能夠修正 AI 誤讀、幻覺、漏讀,唔可以喺修訂稿度補加原文冇嘅功能
  • • 階段 2 PM 淨係回答 AI 提出嘅問題,唔主動追加文件以外嘅資訊

3. 評測維度

五個維度對應工作流嘅關鍵節點:人讀 → AI 明 → 人核對 → Skill 問 → 演示出

3.1 維度 1 · 需求易讀性(Human-side · 階段 1)

PM 自己讀兩份文件嘅體驗,重點關注:閲讀時間、翻睇次數、主觀感覺嘅清晰度同資訊密度。

3.2 維度 2 · 意圖識別準確度(AI-side · 階段 3)

Codex 整理出嚟嘅嘢同 PM 原意嘅吻合度。重點關注:漏咗需求要扣分、提出有效需求補充就加分

3.3 維度 3 · Skill 反饋深度(Process-side · 階段 2)

同一個 brainstorming skill 加 visual-companion 喺兩種輸入底下行為有咩唔同,邊個對需求優化嘅幫助更大。

3.4 維度 4 · 編碼效果(Output-side · 階段 5)

最終交付嘅演示係咪真係用得,編碼來回修改嘅次數同時間。

4. 驗收清單

  • • [ ] 啟動順利:一撳就起,冇報錯
  • • [ ] 後端真係存在:API 接口可以用 curl 存取,而且數據真係寫入 SQLite(唔係 mock)
  • • [ ] 25 分鐘專注完咗之後自動進入 5 分鐘短休息
  • • [ ] 完成 4 個專注之後下一次休息係 15 分鐘(長休息)
  • • [ ] 暫停之後繼續,剩餘時間準確(誤差 < 1 秒)
  • • [ ] 跳過專注階段嘅時候「今日完成數」唔會增加
  • • [ ] 重置之後所有計數歸零同埋需要二次確認
  • • [ ] 完成數跨日自動清零,閂咗瀏覽器再開仍然保留當日數據
  • • [ ] 切去後台標籤頁之後倒計時依然準確
  • • [ ] 提示音喺後台標籤頁識響
  • • [ ] 標籤頁標題實時反映剩餘時間同階段
  • • [ ] 唔同階段用唔同主題色

4. 評測流程

步驟
動作
記錄到
T0
PM 藉助 AI 準備最初嘅需求草稿
維度 1
T1
開新 Codex 會話,觸發 brainstorming
T2
記錄 AI 複述、提問、可視化輸出;PM 淨係回答提問,唔主動補充
維度 3
T3
AI 輸出「整理好嘅需求文件」
T4
★PM 對照原文逐句核對,標註「誤讀 / 幻覺 / 漏咗 / 提升」
維度 2
T5
雙開本地服務,按驗收清單逐項驗證
維度 4
T6
有需要就追問,記錄每輪修復嘅項目
維度 4 
T7
計算端到端所用時間、PM 輸入字數等
維度 5
如果你對評測方法同標準有建議,可以私信或者留言。

核心問題:作為 AI 編程工具的粗略需求輸入,PM 用「用戶故事」還是「功能說明書」哪種口吻,能更快把想法變成可演示、可被外部用戶試用的產品?

立場:PM vibe coding 的目標是加速需求驗證和產品決策,不是跟工程師爭代碼質量。所以本評測不打代碼風格分,看的是"想法到可演示"的端到端效率。

圖片


1. 評測假設

編號
假設
H1
功能說明書讓 AI 的意圖識別準確率更高(整理產物與原文偏差更小)
H2
用戶故事更能激發 AI 主動澄清(提問更深、覆蓋隱藏需求)
H3
在 ≤3 輪迭代內,兩種輸入的最終產品可用性可收斂(差距不顯著)

評測目的是用證據證偽/支持以上三條假設,給出 PM 實踐建議。

2. 評測環境

2.1 工具鏈

角色
工具
備註
編排 / 調度
Claude Code
(Opus 4.7)
僅作外層編排,負責把 PM 的話轉交給 Codex;不參與具體澄清/編碼
需求澄清 + 編碼Codex CLI
(high reasoning 模式)
全程主力,掛 superpowers:brainstorming skill
澄清輔助
brainstorming skill 的 (可視化助手)
強制啓用
,用於展示 mockup / 狀態機 / 數據模型 / ER 圖

2.2 技術棧(兩組完全一致)

  • • 前端:React + Vite
  • • 後端:FastAPI(Python 3.11)
  • • 數據庫:PG

為何要求全棧而不是單文件 HTML:PM vibe coding 驗證的不只是"前端能不能用",更是"業務閉環能不能跑通"。

詳見:產品經理 Vibe Coding(續):別拿預覽頁糊弄,不會代碼就不敢上後端?解答2個問題

2.3 輸入材料

  • • A 組(用戶故事口吻):第一人稱、口語化、想法級
  • • B 組(功能說明書口吻):第三人稱、規範化、想法級
  • • 兩版功能邊界嚴格等價,僅 PM 口吻/視角不同
  • • 兩版都刻意停留在想法級:不含狀態機、字段、API、狀態命名等工程細節,工程細節由 AI 在階段 2 補全

2.5 工作流(兩組完全一致)

[階段 1] PM 輸入粗略需求 (A 或 B)
              │
              ▼
[階段 2] Codex · brainstorming + visual-companion
              │  ① 複述意圖   ② 主動澄清(必要時配可視化)   ③ 輸出"整理後的需求文檔"
              ▼
[階段 3] PM 人工核對修訂 ★評測點★
              │  對照原文逐句檢查:意圖識別是否準、覆蓋是否全、有無誤讀、有無幻覺
              │  記錄修訂量(增/刪/改的條目數與字符數)
              ▼
[階段 4] Codex high · 實現計劃 + 編碼
              │  生成 monorepo:frontend/ + backend/ + db/schema.sql
              ▼
[階段 5] 本地啓動 + 驗收
              │  按 §3.4 驗收清單逐項驗證 + 盲測試用 → 必要時迭代(≤2 輪追問)
              ▼
[階段 6] 評分彙總

2.6 控制變量

  • • 同一 PM、同一時段、相同的提示前綴(見 §4.3)
  • • 每組開全新 Codex 會話,避免上下文污染
  • • 每組從階段 4 起的迭代上限 3 輪(含初次生成)
  • • 階段 3 的人工修訂只改不補:只能修正 AI 誤讀/幻覺/漏讀,不能向修訂稿補加原文沒有的功能
  • • 階段 2 PM 只回答 AI 提的問題,不主動追加文檔外信息

3. 評測維度

五個維度對應工作流的關鍵節點:人讀 → AI 懂 → 人核對 → Skill 問 → 演示出

3.1 維度 1 · 需求易讀性(Human-side · 階段 1)

PM 自己讀兩份文檔的體驗,重點關注:閲讀耗時、回看次數、主觀感受的清晰度和信息密度。

3.2 維度 2 · 意圖識別準確度(AI-side · 階段 3)

Codex 整理產物與 PM 原意的吻合度。重點關注:遺漏需求扣分、提出有效需求補充加分

3.3 維度 3 · Skill 反饋深度(Process-side · 階段 2)

同一個 brainstorming skill + visual-companion 在兩種輸入下行為有何不同,哪個對需求優化的幫助更大。

3.4 維度 4 · 編碼效果(Output-side · 階段 5)

最終交付的演示是否真能用,編碼反覆的次數和時間。

4. 驗收清單

  • • [ ] 啓動順利: 一鍵起,無報錯
  • • [ ] 後端真存在:API 接口可被 curl,且數據真寫進 SQLite(非 mock)
  • • [ ] 25 分鐘專注結束後自動進入 5 分鐘短休息
  • • [ ] 完成 4 個專注後下一次休息為 15 分鐘(長休息)
  • • [ ] 暫停後繼續,剩餘時間精準(誤差 < 1 秒)
  • • [ ] 跳過專注階段時"今日完成數"不增加
  • • [ ] 重置後所有計數歸位且需二次確認
  • • [ ] 完成數跨天自動清零,關閉瀏覽器再開仍保留當日數據
  • • [ ] 切到後台標籤頁後倒計時依然準確
  • • [ ] 提示音在後台標籤頁能響
  • • [ ] 標籤頁標題實時反映剩餘時間與階段
  • • [ ] 不同階段使用不同主題色

4. 評測流程

步驟
動作
記錄到
T0
PM 藉助AI準備最初始的需求草稿
維度 1
T1
啓新 Codex 會話,觸發 brainstorming
T2
記錄 AI 複述、提問、可視化輸出;PM 僅回答提問,不主動補充
維度 3
T3
AI 輸出"整理後的需求文檔"
T4
★PM 對照原文逐句核對,標註"誤讀 / 幻覺 / 漏掉 / 提升“
維度 2
T5
雙開本地服務,按驗收清單逐項驗證
維度 4
T6
必要時追問,記錄每輪修復項
維度 4 
T7
計算端到端耗時、PM 輸入字數等
維度 5
如果你對評測方法和標準有建議,可以私信或留言。