AI 寫得PRD"還行"，那到底是行？還是不行？10 道題讓它現原形

作者：產品AI力學

日期：2026年6月6日下午2:57

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用10道題考卷量化AI輸出，告別「還行」嘅模糊驗收

整理版摘要

呢篇文章講嘅係產品經理成日遇到嘅問題：用AI寫PRD或者報告，睇完只識講「還行」，但講唔出到底係得定唔得。作者指出，呢種憑手感驗收嘅方式好隱蔽，會導致反覆改、無標準、判斷唔穩定。

為咗解決呢個問題，作者引入一個叫「評估集」（evals）嘅概念。評估集唔係新潮玩具，而係一套標準答案嘅考卷：揀10條真實工作入面嘅題目，每條定義清楚「合格答案要滿足乜嘢條件」，然後每次改提示詞或者模型之前後都跑一次，比分數。作者強調，評估集嘅核心唔係技術，而係定義「好答案」嘅標準——呢個正正係產品經理最擅長嘅部分。

整體結論係：AI時代嘅產品判斷，唔係睇AI寫得似唔似人，而係你有冇一把可以反覆用嘅尺。透過建立考卷，你可以將「手感」變成可交接嘅「資產」，避免每次靠感覺浪費時間。文章仲提供一個具體場景（財務報表分析）作為參考，鼓勵讀者從最高頻嘅AI任務開始，先做10題跑起來。

憑手感驗收AI輸出係最隱蔽嘅返工原因，判斷唔穩定、無法標準化。
建立評估集（eval）：10道真實題目加合格標準，反覆跑分取代主觀感覺。
評估集嘅關鍵係定義「好答案」，呢件事產品經理最拿手，唔係工程師。
從「呢次睇住OK」變成「反覆用嘅分數」，判斷可以交接俾人。
揀最高頻AI任務，先起10題考卷，跑出基準後每次改動前後比分數。

整理重點

「還行」嘅陷阱

「你睇下呢個，AI寫嘅，還行吧？」呢句話你一定講過，亦聽過。問題係——「還行」到底係得定唔得？你講唔清。於是改一版又一版，每版都「還行」，但冇人證明到邊版更好。

憑手感驗收，係AI時代最隱蔽嘅返工原因

手感呢樣嘢，換個人就飄，換個模型都飄，改一句提示詞又會飄。同一份嘢，今日睇「還行」，聽日睇「唔多掂」，全憑當下注意力。更弊嘅係，「還行」令你唔敢直接用，又講唔清要改邊度——於是隻能「再改改」。

AI一日產出十幾份，你冇可能每份都親自睇一次

就算睇咗，呢次判斷都帶唔到下一次。要破局，就要將「憑手感檢查」變成「可以反覆跑嘅標準」。

整理重點

評估集係乜？講人話版

成熟團隊一早唔靠「更資深嘅眼光」——一線而家嘅標準動作叫eval，即係評估集。簡單講，就係俾AI出一份有標準答案嘅考卷。

Eval主要得三樣嘢：一組真實輸入 + 你認可嘅合格標準 + 反覆跑

具體操作：揀10條你工作入面真實出現過嘅題目，每條寫清楚「合格答案要滿足咩條件」，然後每次叫AI做呢10條，睇嚇佢啱幾多。

關鍵在於：你唔使每次都重新判斷，你只睇分數

改提示詞、換模型、加新規則之前，先跑一次存低分數；改完再跑一次，跌喺邊條題目上面，即刻見到。

1 一組真實輸入：揀你工作入面最常用、最關鍵嘅輸入場景
2 你認可嘅合格標準：每條題目寫清楚「點先叫過關」，例如分類正確、覆蓋所有風險項
3 反覆跑：每次改動前後跑一次，比分數變化

整理重點

一個直接抄走嘅動作

揀你最高頻嗰類AI活，先建立第一張考卷。舉個例：叫AI將用戶反饋分類。

用10條真實反饋做考題，定義每條嘅正確分類

跑完你會得到一個具體數字——例如「10題啱7題」。呢個數字就係你以後所有「還行」嘅替身。你手上就多咗一把可以反覆用、仲可以交俾人用嘅尺。

先10題，能跑起嚟比全面更重要

評估集唔係越大越好，一嚟就做100題，多半半途而廢。亦唔係所有事都值得做eval：一次性嘅、用完即棄嘅活，憑手感就夠。值得建考卷嘅，係你會反覆做、而且做錯有代價嘅高頻任務。

AI時代嘅產品判斷，係你有冇一把可以反覆用嘅尺

如果你仲係靠感覺，不如而家就開個試算表，揀10題出來跑一次。

"你睇下呢個，AI寫嘅，叫做得啦？"

呢句話你一定講過，都聽過。問題係

——""叫做得啦"，到底係得定係唔得？

你講唔清。於是改咗一版，又一版，每版都話「叫做得啦」，但冇人可以證明邊一版更好。一個禮拜後換咗個更新嘅模型，輸出變咗，你都只能再靠感覺講句「嗯，叫做得啦」。

呢個說明：你驗收佢嘅方式，仲停留喺「靠感覺」。

靠感覺驗收，係AI時代最隱蔽嘅返工

感覺呢樣嘢，換個人就唔同，換個模型都唔同，改一句提示詞仲會唔同。同一份嘢，你今日睇話「叫做得啦」，聽日睇話「唔多得」，全靠當下嘅注意力。

更慘嘅係，「叫做得啦」令你既唔敢直接用，又講唔清要改邊度——於是隻能「再改改」。

AI一日可以產出十幾份，你冇可能每份都親自睇一次；就算睇咗，今次嘅判斷都帶唔到去下一次。

要打破呢個僵局，就要將「靠感覺嘅檢查」，變成「可以重複用嘅標準」。

成熟團隊一早已經唔靠「更加資深嘅眼光」啦

一線而家嘅標準動作，叫做 eval（評估集）。講白啲，就係畀AI出一張有標準答案嘅考卷。

呢個唔係乜嘢新潮玩具，舊年上半年就已經有EDD（評估驅動開發）嘅AI理論同實踐。呢半年不斷被引用之後，基本形成共識：

• Anthropic嘅工程博客講得好直白——先寫評估集，定義你想要嘅能力，再去迭代，而唔係反轉頭先做、做完靠感覺驗收。
• Lenny專登寫咗一篇PM嘅評估指南，標題就叫《Beyond vibe checks》，直譯過嚟就係「唔好再靠感覺檢查啦」。
• 一門叫《AI Evals for Engineers & PMs》嘅課，成為Maven平台銷量第一，兩千幾個PM同工程師喺度學。
• 行業入面而家有句話：識唔識寫eval，正在區分初級同高級嘅AI產品經理。

點解呢件事偏偏要產品經理嚟做？因為評估集嘅核心唔係技術，而係「點先算一個好答案」

——而呢個正正係產品經理最熟悉、工程師最唔熟悉嘅部分。呢張考卷，本來就應該你出。

評估集到底係乜（講人話）

唔好俾術語嚇親，Evals其實主要得三樣嘢：

一組真實輸入 + 你認可嘅合格標準 + 反覆跑。

具體操作就係：揀10題你工作入面真實出現過嘅題目，俾每題寫清楚「合格答案要滿足啲乜」，然後每次叫AI行呢10題，掂咗幾題一目瞭然。

關鍵在於——你唔使每次重新判斷，你只睇分數。 改提示詞、換模型、加新規則之前先行一次留個底，改完再行一次，邊題出錯，即刻見到。

一個可以直接抄走嘅動作

揀你最高頻嘅嗰類AI工作，先整第一張考卷。以「叫AI將用戶反饋分類」為例：

行完你會得到一個具體嘅數字——例如「10題啱7題」。呢個數字，就係你以後所有「叫做得啦」嘅替身。

你手上面有一把可以重複用、仲可以交俾人用嘅尺。

唔好整到佢太複雜

評估集唔係越大越好。一開始就想做100題，多數半途而廢——先10題，可以行得順比起全面更加重要。

亦唔係所有事都值得做eval。一次性、用完即棄嘅工作，靠感覺就夠。值得整考卷嘅，係嗰啲你會重複做、而且做錯有代價嘅高頻任務。

仲有一條底線：合格標準要可以俾另一個人跟住判斷，唔可以只係喺你個腦入面。 判斷一旦可以交接，佢先至從「感覺」變咗做「資產」。

AI時代嘅產品判斷，唔係睇AI寫得似唔似人，而係你有冇一把可以重複用嘅尺。

如果文章仲唔夠直觀嘅話，可以喺評論區舉個手，我發個實例俾你做參考（為咗脱敏做咗微調）。

場景：俾AI一組財務報表數據，寫個SKILL.md，配個reference模板，叫佢輸出分析同預警報告。

你可以按自己嘅產品細節做加工，拎嚟測試唔同模型、唔同提示詞、唔同智能體嘅穩定性。

"你看一下這個，AI 寫的，還行吧？"

這句話你肯定說過，也聽過。問題是

——"還行"，到底是行，還是不行？

你說不清。於是改了一版，又一版，每版都"還行"，但沒人能證明哪一版更好。一週後換了個更新的模型，輸出變了，你也只能再憑感覺說一句"嗯，還行"。

這說明：你驗收它的方式，還停在"憑手感"。

憑手感驗收，是 AI 時代最隱蔽的返工

手感這東西，換個人就飄，換個模型也飄，改一句提示詞還會飄。同一份東西，你今天看"還行"，明天看"不太行"，全憑當下的注意力。

更要命的是，"還行"讓你既不敢直接用，也說不清要改哪——於是只能"再改改"。

AI 一天能產出十幾份，你不可能每份都親自瞪一遍；就算瞪了，這次的判斷也帶不到下一次。

要破這個局，得把"憑手感的檢查"，變成"能反覆跑的標準"。

成熟團隊早就不靠"更資深的眼光"了

一線現在的標準動作，叫 eval（評估集）。說白了，就是給 AI 出一張有標準答案的考卷。

這不是什麼新潮玩具，去年上半年就已經有EDD（評估驅動開發）的AI理論和實踐。這半年被反覆蓋章以後，基本形成共識：

• Anthropic 的工程博客把它講得很直白——先寫評估集，定義你要的能力，再去迭代，而不是反過來先做、做完憑感覺驗收。
• Lenny 專門寫了一篇 PM 的評估指南，標題就叫《Beyond vibe checks》，直譯過來就是"別再憑感覺檢查了"。
• 一門叫《AI Evals for Engineers & PMs》的課，成了 Maven 平台銷量第一，兩千多個 PM 和工程師在學。
• 行業裏現在有句話：會不會寫 eval，正在區分初級和高級的 AI 產品經理。

為什麼這件事偏偏該產品經理來做？因為評估集的核心不是技術，是"什麼才算一個好答案"

——而這恰恰是產品經理最懂、工程師最不懂的部分。這張考卷，本來就該你出。

評估集到底是什麼（說人話）

別被術語嚇到，Evals其實主要就三樣東西：

一組真實輸入 + 你認可的合格標準 + 反覆跑。

具體到操作，就是：挑 10 道你工作裏真實出現過的題，給每道寫清楚"合格答案該滿足什麼"，然後每次讓 AI 跑這 10 道，對了幾道一目瞭然。

關鍵在於——你不用每次重新判斷，你只看分。 改提示詞、換模型、加新規則之前先跑一遍存個底，改完再跑一遍，崩在哪道題上，立刻看見。

一個可以直接抄走的動作

選你最高頻的那類 AI 活兒，先建第一張考卷。以"讓 AI 把用戶反饋分類"為例：

跑完你會得到一個具體的數字——比如"10 題對 7 題"。這個數字，就是你以後所有"還行"的替身。

你手裏有一把能反覆用、還能交給別人用的尺子。

別把它做複雜

評估集不是越大越好。一上來就想做 100 題，多半半途而廢——先 10 題，能跑起來比全面更重要。

也不是所有事都值得做 eval。一次性的、用完即棄的活兒，憑手感就夠了。值得建考卷的，是那些你會反覆做、且做錯有代價的高頻任務。

還有一條底線：合格標準要能讓另一個人照着判，不能只活在你腦子裏。 判斷一旦能交接，它才從"手感"變成了"資產"。

AI 時代的產品判斷，不是看 AI 寫得像不像人，而是你有沒有一把能反覆用的尺子。

如果文章還不夠直觀的話，可以評論區舉個手，我發你個實例做參考（為了脱敏做了微調）。

場景：給 AI 一組財務報表數據，寫個SKILL.md，配個reference模板，讓它輸出分析和預警報告。

你可以按自己的產品細節做加工，拿來測試不同模型、不同提示詞、不同智能體的穩定性。