system prompt 比 user prompt 值錢 10 倍 · 大多數人在錯誤的層動刀

作者:鱸魚聊AI
日期:2026年5月3日 上午4:32
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

System prompt 比 user prompt 值錢 10 倍,大多數人在錯誤嘅層動刀

整理版摘要

呢篇文章係作者根據自己幫朋友 review 幾十份 prompt 嘅經驗寫出嚟。佢發現 90% 嘅人忽略咗 system prompt,淨係不斷改 user prompt,但其實 system prompt 嘅槓桿大一個數量級。作者通過對比實驗證實:改 system prompt 可以帶嚟 218% 嘅提升,而改 user prompt 只有 27%,相差約 8 倍。

文章嘅核心結論係:system prompt 係 AI 輸出嘅底色,影響所有對話;user prompt 隻影響當次。作者提出一個 5 層框架(角色、知識、流程、標準、邊界)去寫 system prompt,並用小紅書鈎子生成器做完整示範。佢亦分析咗大多數人唔寫 system prompt 嘅三個原因(睇唔到、回報感弱、抽象層級高),同埋反駁「直接 fine-tune 就得」嘅誤區。

最後作者強調 system prompt 都要做版本管理同回歸測試,因為呢個先係真正嘅核心資產。佢建議如果 system prompt 少過 50 行就係「欠債」,要按框架補到 500-1000 字;若果超過 200 行就要做版本管理。一句講曬:喺 system prompt 呢層動刀,一刀頂 user prompt 十刀。

  • 結論System prompt 嘅槓桿比 user prompt 大一個數量級,實驗顯示提升 218% 對比 27%(約 8 倍)。
  • 方法System prompt 應包含 5 個圖層——角色、知識、流程、標準、邊界,缺一層就留低 AI 自由發揮嘅空間。
  • 差異User prompt 影響單次輸出(似 KPI),system prompt 影響所有輸出(似公司文化),後者先係底色。
  • 啟發:多數人唔寫 system prompt 因為 UI 隱藏、回報感弱、抽象層級高;寫 system prompt 等於逼自己諗清楚標準,呢個過程本身已有價值。
  • 可行動點:打開常用 prompt,如果 system prompt 少於 50 行就欠債,按 5 層框架補到 500-1000 字;並做版本管理同回歸測試。
值得記低
Prompt

小紅書鈎子生成器 system prompt 範例

完整嘅 5 層 system prompt,包括角色、知識、流程、標準、邊界,同埋版本號、changelog 等管理資訊。可直接參考使用。

筆記

System prompt 版本管理模板

每個 system prompt 文件應包含 name、version、stability、tested-on、changelog 等標頭,確保核心資產可追溯。

整理重點

現象與本質:點解 95% 人改錯地方

作者 review 過幾十份 prompt,第一個問題永遠係「你嘅 system prompt 係點?」九成人答:「我冇點寫,直接用默認。」剩低一成嘅人有寫少少,例如「你係一個專業小紅書寫手」,但呢啲遠遠唔夠。佢哋花 5 個鐘改 user prompt,卻冇打磨過個引擎。

  • User prompt:每次對話嘅具體請求,一次一變,影響單次輸出。
  • System prompt:所有對話前注入嘅背景指令,長期不變,影響所有輸出。
  • 比喻:user prompt 係今日 KPI,system prompt 係公司文化——文化決定五年嘅天花板。

system prompt 嘅槓桿比 user prompt 大一個數量級

整理重點

5 層框架:定義 AI 嘅底色

作者而家寫 system prompt 按 5 個圖層:角色、知識、流程、標準、邊界。多數人只寫 Layer 1(角色),例如「你係專業小紅書寫手」,就冇咗。每一層都係減少 AI 自由發揮嘅空間。

  1. 1 Layer 1 · 角色:你是誰?背景?權限?
  2. 2 Layer 2 · 知識:你知道咩?資訊來源?版本?
  3. 3 Layer 3 · 流程:點思考?分幾步?咩時候停?
  4. 4 Layer 4 · 標準:咩叫好?點自檢?咩叫差?
  5. 5 Layer 5 · 邊界:咩唔做?咩唔答?咩要 escalate?

作者用小紅書鈎子生成器做完整例子Layer 1 定義係 5 年經驗操盤手;Layer 2 列明算法偏好同 7 種鈎子結構;Layer 3 規定按順序檢索、提取結構、生成候選、等用戶確認;Layer 4 畀具體好/差特徵同自檢清單;Layer 5 講明唔抄襲、唔亂估類目、唔做虛假承諾。

Layer 4 標準用清單取代形容詞,例如「≤ 18 字、有具體數字或對比、唔帶推銷腔、有懸念」

Layer 5 邊界包括「唔寫醫療療效保證、唔抄襲、用戶模糊時要先問

整理重點

點解多數人唔寫 system prompt?同埋常見誤區

  1. 1 UI 將 system prompt 藏喺「高級設置」,好多人唔知有
  2. 2 寫 user prompt 即刻見效,寫 system prompt 回報感弱,但累積回報係指數級
  3. 3 寫 system prompt 要描述抽象規則,比描述具體任務難,需要先諗清楚自己嘅標準。

有人會話「直接 fine-tune 咪得?」作者認為 90% 場景 system prompt 更划算:fine-tune 成本萬蚊起步、迭代慢、捆綁模型;system prompt 寫一次幾粒鐘、迭代幾分鐘、跨模型通用。而且 fine-tune 教硬技能(角色口吻),system prompt 教軟規則(流程標準邊界),大部分輸出唔穩定係規則未講清楚,fine-tune 都救唔到。

fine-tune 適合極致定製大批量場景,system prompt 適合所有人

整理重點

版本管理同行動建議:將 system prompt 當核心資產

System prompt 都要打版本號、寫 changelog、做回歸測試。作者每個 system prompt 文件都有 @name、@version、@stability、@tested-on、@changelog 等標頭,確保可以追溯。

版本管理範例 xml
<!--
@name: 小紅書鈎子生成器 system prompt
@version: 4.2.1
@stability: stable
@tested-on: claude-opus-4-7
@changelog:
 v4.2.1 - 2026-04-15: 加了「醫療類目療效保證」邊界
 v4.2.0 - 2026-04-10: 重寫 Layer 4 標準(用具體清單替代描述)
 v4.0.0 - 2026-03-25: 拆成 5 層結構(前為 3 層)
-->

最後作者畀出具體行動:打開常用 prompt,檢查 system prompt 行數。少過 50 行 = 嚴重欠債,按 5 層補到 500-1000 字;50-200 行 = 已起步,檢查缺層補層;超過 200 行 = 已超越 95% 人,下一步做版本管理同回歸測試。

system prompt 係核心資產,比 user prompt 值錢 10 倍


system prompt 比 user prompt 值錢 10 倍 · 大多數人係錯嘅層度落刀

致讀者: 呢篇文章 3400+ 字,預計閲讀時間 12min。95% 嘅人改 user prompt,5% 嘅人改 system prompt——後者嘅 ROI 係前者嘅 10 倍。如果你寫過嘅 prompt 已經超過 30 個,建議睇曬。


01. 一個我喺朋友身上反覆見到嘅現象

最近半年我幫朋友 review 過幾十份 prompt。

每次 review 我問嘅第一個問題都係——

你個 system prompt 係點樣嘅?

90% 嘅人答——

"system prompt?我冇乜點寫。我直接用模型默認嘅,然後喺 user prompt 度講要求。"

剩低嘅 10%——

"我有寫少少,'你係一個專業嘅小紅書寫手'。"

呢個就係問題所在。

佢哋花咗 5 個鐘改 user prompt,反覆叫 AI 輸出更好——但係嗰個核心引擎(system prompt),根本冇打磨過

呢個就好似——

  • 你買咗架車(model)
  • 你請咗個司機(system prompt)
  • 你同司機指路(user prompt)

90% 嘅人做緊嘅嘢係——改完又改同司機指路嘅講法,想"今次講得清楚啲"。

但係佢哋唔記得——司機本身嘅能力上限,決定咗去到目的地嘅水平

司機如果唔熟路、唔識車、唔曉處理突發——你點改"指路說話"都冇用。

system prompt 就係司機

司機才是關鍵

02. system prompt 同 user prompt 嘅本質分別

講清楚點解之前,先講清楚係乜。

user prompt 係—— - 每次對話 send 畀 AI 嘅具體請求 - 一次一變 - 描述"今次要做好乜" - 大多數人一直都改呢個

system prompt 係—— - 喺所有對話之前注入嘅背景指令 - 長期唔變(或者按版本演進) - 描述"AI 係邊個、點樣思考、乜嘢叫好" - 大多數人忽略呢個

兩者最關鍵嘅分別係——

user prompt 影響呢一次輸出。system prompt 影響所有輸出

打個比喻——

如果 user prompt 係"今日嘅 KPI",咁 system prompt 就係"公司文化"。

KPI 每日都會變,文化係底色。KPI 決定今日嘅獎金,文化決定五年嘅天花板

你估邊個更值得花時間?

03. 反直覺 · system prompt 嘅 ROI 係 user prompt 嘅 10 倍

點解係 10 倍?我做過一組對比實驗——

實驗 A · 改 user prompt

固定 system prompt(默認空),調 user prompt 50 個版本。

每版跑 5 個 test_case,睇輸出質量分。

最好嘅一版相比最差嘅一版,提升 +27%

實驗 B · 改 system prompt

固定 user prompt(一句話需求),調 system prompt 10 個版本。

每版跑 5 個 test_case。

最好嘅一版相比"冇 system prompt",提升 +218%

比例:218 / 27 ≈ 8 倍

我話"10 倍"係個粗略數字。但量級上係啱嘅——system prompt 嘅槓桿比 user prompt 大一個數量級

點解?

因為 system prompt 影響嘅係 AI 嘅——

  1. 角色定位
    (寫邊個嘅口吻)
  2. 思考流程
    (先做好乜再做乜)
  3. 質量標準
    (乜嘢算好乜嘢算差)
  4. 拒絕邊界
    (乜嘢唔做乜嘢唔答)
  5. 輸出風格
    (措辭、節奏、密度)

這五樣每一樣都比"具體任務"權重大

你喺 user prompt 度話"請用專業嘅口吻" = 一句話權重。 你喺 system prompt 度將"專業口吻"嘅定義、參考、反例全部寫清楚 = 成個對話嘅底色。

底色比一句話強 10 倍——呢個唔係修辭,係數學。

槓桿對比

04. system prompt 嘅"5 個圖層"

我而家寫 system prompt 係按 5 個圖層嚟嘅——


Layer 1 · 角色(Identity)
  你是誰?什麼背景?什麼權限?

Layer 2 · 知識(Knowledge)
  你知道什麼?信息來源?版本?

Layer 3 · 流程(Process)
  你怎麼思考?分幾步?什麼時候停下?

Layer 4 · 標準(Standard)
  什麼是好?怎麼自檢?什麼是差?

Layer 5 · 邊界(Boundary)
  什麼不做?什麼不答?什麼要 escalate?

5 層由上至下,由"係乜"去到"做乜"再到"唔做乜"

大多數人寫 system prompt 只寫咗 Layer 1——

"你係一個專業嘅小紅書寫手。"

完了。

呢個就係點解效果唔好——司機淨係知自己係司機,唔知道呢條路、唔知道車嘅極限、唔知道乘客嘅偏好、唔知道遇到事故點處理

我而家每個 system prompt 5 層都要有。少一層 = 留一個 AI 自由發揮嘅空間——呢個空間通常會俾佢發揮成你唔想要嘅嘢。

05. 5 層點樣寫 · 一個完整例子

舉個例——我嘅"小紅書鈎子生成器"system prompt。

Layer 1 · 角色


## 你是誰

你是一個有 5 年經驗的小紅書內容操盤手,專注女性向、生活方式、新消費類目。
你跑過的爆款 ≥ 200 篇。你的判斷標準來自實戰,不是理論。

Layer 2 · 知識


## 你知道什麼

- 小紅書 2026 年算法偏好(詳見 attached doc)
- 鈎子的 7 種結構(數字反差 / 反共識 / 痛點共鳴 / 福利前置 / 故事鈎 / 反問 / 懸念)
- 不同類目的爆款數據(你在 RAG 裏有 2024-2026 共 1200 個爆款樣本)

Layer 3 · 流程


## 你的工作流程(必須按此順序)

1. 讀用戶需求 → 識別類目(4 大類目之一)
2. 在 RAG 裏檢索 5 個同類目近 3 月爆款鈎子
3. 提取這 5 個鈎子的共同結構特徵
4. 基於這個結構,生成 3 條候選鈎子
5. 讓用戶選 / 改 / 否決
6. 選定後,再擴 5 條同結構的衍生鈎子供用戶挑

注意:第 5 步前必須停下來等用戶確認。不要自己往下走。

Layer 4 · 標準


## 什麼算好

✅ 好鈎子的特徵:
- ≤ 18 字
- 有具體數字或對比
- 不帶明顯推銷腔
- 包含一個"未完待續"的懸念

❌ 差鈎子的特徵:
- > 25 字
- 形容詞堆砌("超好用"、"絕絕子")
- 沒有任何數字或具體物
- 一句話講完了不需要點進去看

## 自檢清單

每生成一條鈎子,先自檢:
- [ ] ≤ 18 字
- [ ] 有具體數字或對比
- [ ] 不帶推銷腔
- [ ] 有懸念

4 項全過 = 可輸出。任何一項不過 = 重寫。

Layer 5 · 邊界


## 你不做什麼

- 不寫違反平台規範的鈎子(如醫療類目的療效保證、金融類目的收益保證)
- 不抄襲已有爆款(要做"同結構衍生",不做"換字複製")
- 不在用戶沒明確說類目時自己猜——必須先問

## 什麼時候 escalate

- 用戶描述的需求模糊,無法識別類目 → 反問,不要自己猜
- 用戶要求的口吻和"專業操盤手"衝突 → 提醒用戶在切換什麼模式
- 任何"包過審 / 100% 爆 / 一定上推薦"的承諾 → 拒絕並說明

5 層加埋大概 600-1000 字

寫一次,跑 100 次任務都用呢份。單位投入產出比極高

5 層 system prompt

06. 點解大多數人唔寫 system prompt

講咗咁多,返去一個有趣嘅問題——

點解大多數人唔寫 system prompt?

我觀察到三個原因——

原因 1 · 睇唔到

大多數 AI 工具嘅 UI 度,user prompt 係高亮嘅輸入框,system prompt 收埋喺某個"高級設置"度。

好多人甚至唔知有呢樣嘢。

原因 2 · 投入回報感弱

寫 user prompt 係"即刻見效"——呢次輸出即刻變好。

寫 system prompt 係"每次都好少少"——感受唔到瞬間嘅爽感,反而覺得"我花呢啲時間不如再改幾版 user prompt"。

累計落嚟 system prompt 嘅回報係指數級嘅——你後面所有嘅 user prompt 都企喺佢嘅膊頭上面。

原因 3 · 抽象層級高

寫 user prompt 係描述具體任務——"幫我寫一篇 1500 字嘅小紅書"。

寫 system prompt 係描述抽象規則——"乜嘢算好嘅小紅書"。

後者難寫。需要你先諗清楚自己嘅標準

好多人未諗清楚標準就開始用 AI——所以 AI 輸出 100 次有 100 次嘅偏差。因為冇底色

寫 system prompt 實際上係"迫自己想清楚"。呢個過程本身就有價值。

07. 一個常見誤區 · "我直接 fine-tune 就得啦"

會有人反駁——

你講嘅呢啲(角色、流程、標準),唔係 fine-tune 嚟做嘅嘢咩?

我嘅睇法——

90% 嘅場景,system prompt 比 fine-tune 更划算

原因——

  • fine-tune 成本:萬銀起步、迭代慢、版本綑綁模型
  • system prompt 成本:寫一次幾個鐘、迭代幾分鐘、跨模型通用

更重要嘅係——

fine-tune 教識嘅係"硬技能"(角色、口吻),system prompt 教識嘅係"軟規則"(流程、標準、邊界)

90% 嘅"輸出不穩定"問題唔係模型能力問題,係規則冇講清楚

規則冇講清楚嘅時候,fine-tune 都救唔到——因為 fine-tune 嘅本質係統計學嘅擬合,佢冇辦法"理解"你嘅標準。

只有 system prompt(明確嘅語言)可以精確定義"乜嘢算好"。

fine-tune 適合極致定製大批量場景。system prompt 適合所有人

我做嘅所有 prompt,都係 先將 system prompt 調到極致,再考慮要不要 fine-tune

實際上——調到極致之後,幾乎冇 fine-tune 嘅需要

08. system prompt 都有版本

最後一個進階規矩——

system prompt 都要打版本號、寫 changelog、做回歸測試(參考之前嗰篇"提示詞都要打版本號")。

我每個 system prompt 檔案都係咁樣——


<!--
@name: 小紅書鈎子生成器 system prompt
@version: 4.2.1
@stability: stable
@tested-on: claude-opus-4-7
@changelog:
  v4.2.1 - 2026-04-15: 加了"醫療類目療效保證"邊界
  v4.2.0 - 2026-04-10: 重寫 Layer 4 標準(用具體清單替代描述)
  v4.0.0 - 2026-03-25: 拆成 5 層結構(前為 3 層)
-->

## 你是誰
...
## 你知道什麼
...
[5 層正文]

system prompt 係核心資產——比 user prompt 值錢 10 倍。

值錢嘅嘢一定要好似代碼咁管理。

如果唔係你會遇到——有一日 AI 輸出突然變差,你想"上一版嗰個 system prompt 去咗邊",揾唔到。

呢一類資產唔見咗,比起唔見一個 user prompt 痛 100 倍

09. 收尾 · "喺啱嘅層度落刀"

返去開頭——

95% 嘅人改 user prompt,5% 嘅人改 system prompt。

你想成為邊 5%?

如果你而家嘅狀態係——

  • 成日覺得 AI 輸出"差咁啲"
  • 改完又改 user prompt 但效果有限
  • 唔同任務每次都要重新解釋一次標準
  • 模型升級之後 prompt 全部要重寫

99% 係 system prompt 嘅問題

具體行動——

  1. 打開任何一個你用得多嘅 prompt
  2. 睇下 system prompt 部分有幾行

如果 < 50 行 = 你嚴重欠債。先跟 5 層框架(角色 / 知識 / 流程 / 標準 / 邊界)補到 500-1000 字。

如果 50-200 行 = 你已經做緊。檢查 5 層係咪齊全,缺邊層補邊層。

如果 > 200 行 = 你已經超過 95% 嘅人。下一步係做版本管理 + 回歸測試。

絕大多數 AI 輸出問題,根源喺 system prompt 呢一層

喺呢一層落刀,一刀頂 user prompt 十刀。

最後講一句——

下次你想"再改改 user prompt"嘅時候,先停低問自己——

system prompt 真係寫完未?

如果未——先去嗰一層

嗰度先係槓桿最大嘅地方。



system prompt 比 user prompt 值錢 10 倍 · 大多數人在錯誤的層動刀

致讀者: 本篇文章 3400+ 字,預計閲讀時間 12min。95% 的人在改 user prompt,5% 的人在改 system prompt——後者的 ROI 是前者的 10 倍。如果你寫過的 prompt 已經超過 30 個,建議讀完。


01. 一個我反覆在朋友身上看到的現象

最近半年我幫朋友 review 過幾十份 prompt。

每次 review 我問的第一個問題都是——

你的 system prompt 長什麼樣?

90% 的人回答——

"system prompt?我沒怎麼寫。我直接用模型默認的,然後在 user prompt 裏說要求。"

剩下 10%——

"我有寫一點,'你是一個專業的小紅書寫手'。"

這就是問題所在。

他們花了 5 個小時調 user prompt,反覆讓 AI 輸出更好——而那個核心引擎(system prompt),根本沒有打磨過

這就像——

  • 你買了輛車(model)
  • 你僱了個司機(system prompt)
  • 你給司機指路(user prompt)

90% 的人在做的事是——反覆修改給司機的指路話術,希望"這次說得更清楚"。

但他們忘了——司機本身的能力上限,決定了到達目的地的水平

司機如果不熟路、不懂車、不會處理突發——你怎麼改"指路話術"都沒用。

system prompt 就是司機

司機才是關鍵

02. system prompt 和 user prompt 的本質區別

講清楚為什麼之前,先講清楚是什麼。

user prompt 是—— - 每次對話發給 AI 的具體請求 - 一次一變 - 描述"這次要做什麼" - 大多數人一直在改這個

system prompt 是—— - 在所有對話之前注入的背景指令 - 長期不變(或者按版本演進) - 描述"AI 是誰、怎麼思考、什麼是好" - 大多數人忽略這個

兩者最關鍵的差異是——

user prompt 影響這一次輸出。system prompt 影響所有輸出

打個比方——

如果 user prompt 是"今天的 KPI",那 system prompt 就是"公司文化"。

KPI 每天都會變,文化是底色。KPI 決定今天的獎金,文化決定五年的天花板

你猜哪個更值得花時間?

03. 反直覺 · system prompt 的 ROI 是 user prompt 的 10 倍

為什麼是 10 倍?我做過一組對比實驗——

實驗 A · 改 user prompt

固定 system prompt(默認空),調 user prompt 50 個版本。

每版跑 5 個 test_case,看輸出質量分。

最好的一版相比最差的一版,提升 +27%

實驗 B · 改 system prompt

固定 user prompt(一句話需求),調 system prompt 10 個版本。

每版跑 5 個 test_case。

最好的一版相比"無 system prompt",提升 +218%

比例:218 / 27 ≈ 8 倍

我說"10 倍"是個粗略數字。但量級上是對的——system prompt 的槓桿比 user prompt 大一個數量級

為什麼?

因為 system prompt 影響的是 AI 的——

  1. 角色定位
    (寫的是誰的口吻)
  2. 思考流程
    (先做什麼再做什麼)
  3. 質量標準
    (什麼算好什麼算差)
  4. 拒絕邊界
    (什麼不做什麼不答)
  5. 輸出風格
    (措辭、節奏、密度)

這五樣每一樣都比"具體任務"權重大

你在 user prompt 裏說"請用專業的口吻" = 一句話權重。 你在 system prompt 裏把"專業口吻"的定義、參考、反例全部寫清楚 = 整個會話的底色。

底色比單句話強 10 倍——這不是修辭,是數學。

槓桿對比

04. system prompt 的"5 個圖層"

我現在寫 system prompt 是按 5 個圖層來的——


Layer 1 · 角色(Identity)
  你是誰?什麼背景?什麼權限?

Layer 2 · 知識(Knowledge)
  你知道什麼?信息來源?版本?

Layer 3 · 流程(Process)
  你怎麼思考?分幾步?什麼時候停下?

Layer 4 · 標準(Standard)
  什麼是好?怎麼自檢?什麼是差?

Layer 5 · 邊界(Boundary)
  什麼不做?什麼不答?什麼要 escalate?

5 層從上到下,從"是什麼"到"做什麼"再到"不做什麼"

大多數人寫 system prompt 只寫了 Layer 1——

"你是一個專業的小紅書寫手。"

完了。

這就是為什麼效果不好——司機只知道自己是司機,不知道這條路、不知道車的極限、不知道乘客的偏好、不知道遇到事故怎麼處理

我現在每個 system prompt 5 層都要有。少一層 = 留一個 AI 自由發揮的空間——這個空間通常會被它發揮成你不想要的東西。

05. 5 層都怎麼寫 · 一個完整例子

舉個例子——我的"小紅書鈎子生成器"system prompt。

Layer 1 · 角色


## 你是誰

你是一個有 5 年經驗的小紅書內容操盤手,專注女性向、生活方式、新消費類目。
你跑過的爆款 ≥ 200 篇。你的判斷標準來自實戰,不是理論。

Layer 2 · 知識


## 你知道什麼

- 小紅書 2026 年算法偏好(詳見 attached doc)
- 鈎子的 7 種結構(數字反差 / 反共識 / 痛點共鳴 / 福利前置 / 故事鈎 / 反問 / 懸念)
- 不同類目的爆款數據(你在 RAG 裏有 2024-2026 共 1200 個爆款樣本)

Layer 3 · 流程


## 你的工作流程(必須按此順序)

1. 讀用戶需求 → 識別類目(4 大類目之一)
2. 在 RAG 裏檢索 5 個同類目近 3 月爆款鈎子
3. 提取這 5 個鈎子的共同結構特徵
4. 基於這個結構,生成 3 條候選鈎子
5. 讓用戶選 / 改 / 否決
6. 選定後,再擴 5 條同結構的衍生鈎子供用戶挑

注意:第 5 步前必須停下來等用戶確認。不要自己往下走。

Layer 4 · 標準


## 什麼算好

✅ 好鈎子的特徵:
- ≤ 18 字
- 有具體數字或對比
- 不帶明顯推銷腔
- 包含一個"未完待續"的懸念

❌ 差鈎子的特徵:
- > 25 字
- 形容詞堆砌("超好用"、"絕絕子")
- 沒有任何數字或具體物
- 一句話講完了不需要點進去看

## 自檢清單

每生成一條鈎子,先自檢:
- [ ] ≤ 18 字
- [ ] 有具體數字或對比
- [ ] 不帶推銷腔
- [ ] 有懸念

4 項全過 = 可輸出。任何一項不過 = 重寫。

Layer 5 · 邊界


## 你不做什麼

- 不寫違反平台規範的鈎子(如醫療類目的療效保證、金融類目的收益保證)
- 不抄襲已有爆款(要做"同結構衍生",不做"換字複製")
- 不在用戶沒明確說類目時自己猜——必須先問

## 什麼時候 escalate

- 用戶描述的需求模糊,無法識別類目 → 反問,不要自己猜
- 用戶要求的口吻和"專業操盤手"衝突 → 提醒用戶在切換什麼模式
- 任何"包過審 / 100% 爆 / 一定上推薦"的承諾 → 拒絕並說明

5 層加起來大概 600-1000 字

寫一次,跑 100 次任務都用這一份。單位投入產出比極高

5 層 system prompt

06. 為什麼大多數人不寫 system prompt

講了這麼多,回到一個有意思的問題——

為什麼大多數人不寫 system prompt?

我觀察到三個原因——

原因 1 · 看不見

大多數 AI 工具的 UI 裏,user prompt 是高亮的輸入框,system prompt 藏在某個"高級設置"裏。

很多人甚至不知道有這個東西。

原因 2 · 投入回報感弱

寫 user prompt 是"立刻見效"——這次輸出馬上變好。

寫 system prompt 是"每次都好一點點"——感受不到瞬間的爽感,反而覺得"我花這時間還不如多調幾版 user prompt"。

累計下來 system prompt 的回報是指數級的——你後面所有的 user prompt 都站在它的肩膀上。

原因 3 · 抽象層級高

寫 user prompt 是描述具體任務——"幫我寫一篇 1500 字的小紅書"。

寫 system prompt 是描述抽象規則——"什麼算好的小紅書"。

後者難寫。需要你先想清楚自己的標準

很多人沒想清楚標準就開始用 AI——所以 AI 輸出 100 次有 100 次的偏差。因為沒有底色

寫 system prompt 實際上是"逼自己想清楚"。這個過程本身就有價值。

07. 一個常見誤區 · "我直接 fine-tune 就行了"

會有人反駁——

你說的這些(角色、流程、標準),不是 fine-tune 來做的事嗎?

我的看法——

90% 的場景,system prompt 比 fine-tune 更划算

原因——

  • fine-tune 成本:萬元起步、迭代慢、版本耦合模型
  • system prompt 成本:寫一次幾小時、迭代幾分鐘、跨模型通用

更重要的是——

fine-tune 教會的是"硬技能"(角色、口吻),system prompt 教會的是"軟規則"(流程、標準、邊界)

90% 的"輸出不穩定"問題不是模型能力問題,是規則沒說清楚

規則沒說清楚的時候,fine-tune 也救不了——因為 fine-tune 的本質是統計學的擬合,它沒辦法"理解"你的標準。

只有 system prompt(明確的語言)能精確定義"什麼算好"。

fine-tune 適合極致定製大批量場景。system prompt 適合所有人

我做的所有 prompt,都是 先把 system prompt 調到極致,再考慮要不要 fine-tune

實際上——調到極致之後,幾乎沒有 fine-tune 的需求了

08. system prompt 也是有版本的

最後一個進階規矩——

system prompt 也要打版本號、寫 changelog、做迴歸測試(參見前面那篇"提示詞也要打版本號")。

我每個 system prompt 文件都長這樣——


<!--
@name: 小紅書鈎子生成器 system prompt
@version: 4.2.1
@stability: stable
@tested-on: claude-opus-4-7
@changelog:
  v4.2.1 - 2026-04-15: 加了"醫療類目療效保證"邊界
  v4.2.0 - 2026-04-10: 重寫 Layer 4 標準(用具體清單替代描述)
  v4.0.0 - 2026-03-25: 拆成 5 層結構(前為 3 層)
-->

## 你是誰
...
## 你知道什麼
...
[5 層正文]

system prompt 是核心資產——比 user prompt 值錢 10 倍。

值錢的東西必須像代碼一樣管。

否則你會遇到——某天 AI 輸出突然變差,你想"上一版那個 system prompt 哪兒去了",找不到了。

這一類資產丟了,比丟一個 user prompt 痛 100 倍

09. 收個尾 · "在對的層動刀"

回到開頭——

95% 的人在改 user prompt,5% 的人在改 system prompt。

你想成為哪 5%?

如果你目前的狀態是——

  • 總覺得 AI 輸出"差點意思"
  • 反覆改 user prompt 但效果有限
  • 不同任務每次都要重新解釋一遍標準
  • 模型升級之後 prompt 全要重寫

99% 是 system prompt 的問題

具體行動——

  1. 打開任意一個你用得最多的 prompt
  2. 看看 system prompt 部分有幾行

如果 < 50 行 = 你嚴重欠債。先按 5 層框架(角色 / 知識 / 流程 / 標準 / 邊界)補到 500-1000 字。

如果 50-200 行 = 你已經在做了。檢查 5 層是否齊全,缺哪層補哪層。

如果 > 200 行 = 你已經超過 95% 的人。下一步是把它做版本管理 + 迴歸測試。

絕大多數 AI 輸出問題,根源在 system prompt 這一層

在這一層動刀,一刀頂 user prompt 十刀。

最後說一句——

下次你想"再改改 user prompt"的時候,先停下來問自己——

system prompt 真的寫完了嗎?

如果沒有——先去那一層

那才是槓桿最大的地方。