system prompt 比 user prompt 值錢 10 倍 · 大多數人在錯誤的層動刀

作者：鱸魚聊AI

日期：2026年5月3日上午4:32

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

System prompt 比 user prompt 值錢 10 倍，大多數人在錯誤嘅層動刀

整理版摘要

呢篇文章係作者根據自己幫朋友 review 幾十份 prompt 嘅經驗寫出嚟。佢發現 90% 嘅人忽略咗 system prompt，淨係不斷改 user prompt，但其實 system prompt 嘅槓桿大一個數量級。作者通過對比實驗證實：改 system prompt 可以帶嚟 218% 嘅提升，而改 user prompt 只有 27%，相差約 8 倍。

文章嘅核心結論係：system prompt 係 AI 輸出嘅底色，影響所有對話；user prompt 隻影響當次。作者提出一個 5 層框架（角色、知識、流程、標準、邊界）去寫 system prompt，並用小紅書鈎子生成器做完整示範。佢亦分析咗大多數人唔寫 system prompt 嘅三個原因（睇唔到、回報感弱、抽象層級高），同埋反駁「直接 fine-tune 就得」嘅誤區。

最後作者強調 system prompt 都要做版本管理同回歸測試，因為呢個先係真正嘅核心資產。佢建議如果 system prompt 少過 50 行就係「欠債」，要按框架補到 500-1000 字；若果超過 200 行就要做版本管理。一句講曬：喺 system prompt 呢層動刀，一刀頂 user prompt 十刀。

結論：System prompt 嘅槓桿比 user prompt 大一個數量級，實驗顯示提升 218% 對比 27%（約 8 倍）。
方法：System prompt 應包含 5 個圖層——角色、知識、流程、標準、邊界，缺一層就留低 AI 自由發揮嘅空間。
差異：User prompt 影響單次輸出（似 KPI），system prompt 影響所有輸出（似公司文化），後者先係底色。
啟發：多數人唔寫 system prompt 因為 UI 隱藏、回報感弱、抽象層級高；寫 system prompt 等於逼自己諗清楚標準，呢個過程本身已有價值。
可行動點：打開常用 prompt，如果 system prompt 少於 50 行就欠債，按 5 層框架補到 500-1000 字；並做版本管理同回歸測試。

值得記低

Prompt

小紅書鈎子生成器 system prompt 範例

完整嘅 5 層 system prompt，包括角色、知識、流程、標準、邊界，同埋版本號、changelog 等管理資訊。可直接參考使用。

筆記

System prompt 版本管理模板

每個 system prompt 文件應包含 name、version、stability、tested-on、changelog 等標頭，確保核心資產可追溯。

整理重點

現象與本質：點解 95% 人改錯地方

作者 review 過幾十份 prompt，第一個問題永遠係「你嘅 system prompt 係點？」九成人答：「我冇點寫，直接用默認。」剩低一成嘅人有寫少少，例如「你係一個專業小紅書寫手」，但呢啲遠遠唔夠。佢哋花 5 個鐘改 user prompt，卻冇打磨過個引擎。

User prompt：每次對話嘅具體請求，一次一變，影響單次輸出。
System prompt：所有對話前注入嘅背景指令，長期不變，影響所有輸出。
比喻：user prompt 係今日 KPI，system prompt 係公司文化——文化決定五年嘅天花板。

system prompt 嘅槓桿比 user prompt 大一個數量級

整理重點

5 層框架：定義 AI 嘅底色

作者而家寫 system prompt 按 5 個圖層：角色、知識、流程、標準、邊界。多數人只寫 Layer 1（角色），例如「你係專業小紅書寫手」，就冇咗。每一層都係減少 AI 自由發揮嘅空間。

1 Layer 1 · 角色：你是誰？背景？權限？
2 Layer 2 · 知識：你知道咩？資訊來源？版本？
3 Layer 3 · 流程：點思考？分幾步？咩時候停？
4 Layer 4 · 標準：咩叫好？點自檢？咩叫差？
5 Layer 5 · 邊界：咩唔做？咩唔答？咩要 escalate？

作者用小紅書鈎子生成器做完整例子：Layer 1 定義係 5 年經驗操盤手；Layer 2 列明算法偏好同 7 種鈎子結構；Layer 3 規定按順序檢索、提取結構、生成候選、等用戶確認；Layer 4 畀具體好/差特徵同自檢清單；Layer 5 講明唔抄襲、唔亂估類目、唔做虛假承諾。

Layer 4 標準用清單取代形容詞，例如「≤ 18 字、有具體數字或對比、唔帶推銷腔、有懸念」

Layer 5 邊界包括「唔寫醫療療效保證、唔抄襲、用戶模糊時要先問」

整理重點

點解多數人唔寫 system prompt？同埋常見誤區

1 UI 將 system prompt 藏喺「高級設置」，好多人唔知有
2 寫 user prompt 即刻見效，寫 system prompt 回報感弱，但累積回報係指數級
3 寫 system prompt 要描述抽象規則，比描述具體任務難，需要先諗清楚自己嘅標準。

有人會話「直接 fine-tune 咪得？」作者認為 90% 場景 system prompt 更划算：fine-tune 成本萬蚊起步、迭代慢、捆綁模型；system prompt 寫一次幾粒鐘、迭代幾分鐘、跨模型通用。而且 fine-tune 教硬技能（角色口吻），system prompt 教軟規則（流程標準邊界），大部分輸出唔穩定係規則未講清楚，fine-tune 都救唔到。

fine-tune 適合極致定製大批量場景，system prompt 適合所有人

整理重點

版本管理同行動建議：將 system prompt 當核心資產

System prompt 都要打版本號、寫 changelog、做回歸測試。作者每個 system prompt 文件都有 @name、@version、@stability、@tested-on、@changelog 等標頭，確保可以追溯。

版本管理範例 xml

<!--
@name: 小紅書鈎子生成器 system prompt
@version: 4.2.1
@stability: stable
@tested-on: claude-opus-4-7
@changelog:
 v4.2.1 - 2026-04-15: 加了「醫療類目療效保證」邊界
 v4.2.0 - 2026-04-10: 重寫 Layer 4 標準（用具體清單替代描述）
 v4.0.0 - 2026-03-25: 拆成 5 層結構（前為 3 層）
-->

最後作者畀出具體行動：打開常用 prompt，檢查 system prompt 行數。少過 50 行 = 嚴重欠債，按 5 層補到 500-1000 字；50-200 行 = 已起步，檢查缺層補層；超過 200 行 = 已超越 95% 人，下一步做版本管理同回歸測試。

system prompt 係核心資產，比 user prompt 值錢 10 倍

system prompt 比 user prompt 值錢 10 倍 · 大多數人係錯嘅層度落刀

致讀者： 呢篇文章 3400+ 字，預計閲讀時間 12min。95% 嘅人改 user prompt，5% 嘅人改 system prompt——後者嘅 ROI 係前者嘅 10 倍。如果你寫過嘅 prompt 已經超過 30 個，建議睇曬。

01. 一個我喺朋友身上反覆見到嘅現象

最近半年我幫朋友 review 過幾十份 prompt。

每次 review 我問嘅第一個問題都係——

你個 system prompt 係點樣嘅？

90% 嘅人答——

"system prompt？我冇乜點寫。我直接用模型默認嘅，然後喺 user prompt 度講要求。"

剩低嘅 10%——

"我有寫少少，'你係一個專業嘅小紅書寫手'。"

呢個就係問題所在。

佢哋花咗 5 個鐘改 user prompt，反覆叫 AI 輸出更好——但係嗰個核心引擎（system prompt），根本冇打磨過。

呢個就好似——

你買咗架車（model）
你請咗個司機（system prompt）
你同司機指路（user prompt）

90% 嘅人做緊嘅嘢係——改完又改同司機指路嘅講法，想"今次講得清楚啲"。

但係佢哋唔記得——司機本身嘅能力上限，決定咗去到目的地嘅水平。

司機如果唔熟路、唔識車、唔曉處理突發——你點改"指路說話"都冇用。

system prompt 就係司機。

02. system prompt 同 user prompt 嘅本質分別

講清楚點解之前，先講清楚係乜。

user prompt 係—— - 每次對話 send 畀 AI 嘅具體請求 - 一次一變 - 描述"今次要做好乜" - 大多數人一直都改呢個

system prompt 係—— - 喺所有對話之前注入嘅背景指令 - 長期唔變（或者按版本演進） - 描述"AI 係邊個、點樣思考、乜嘢叫好" - 大多數人忽略呢個

兩者最關鍵嘅分別係——

user prompt 影響呢一次輸出。system prompt 影響所有輸出。

打個比喻——

如果 user prompt 係"今日嘅 KPI"，咁 system prompt 就係"公司文化"。

KPI 每日都會變，文化係底色。KPI 決定今日嘅獎金，文化決定五年嘅天花板。

你估邊個更值得花時間？

03. 反直覺 · system prompt 嘅 ROI 係 user prompt 嘅 10 倍

點解係 10 倍？我做過一組對比實驗——

實驗 A · 改 user prompt

固定 system prompt（默認空），調 user prompt 50 個版本。

每版跑 5 個 test_case，睇輸出質量分。

最好嘅一版相比最差嘅一版，提升 +27%。

實驗 B · 改 system prompt

固定 user prompt（一句話需求），調 system prompt 10 個版本。

每版跑 5 個 test_case。

最好嘅一版相比"冇 system prompt"，提升 +218%。

比例：218 / 27 ≈ 8 倍。

我話"10 倍"係個粗略數字。但量級上係啱嘅——system prompt 嘅槓桿比 user prompt 大一個數量級。

點解？

因為 system prompt 影響嘅係 AI 嘅——

角色定位
（寫邊個嘅口吻）
思考流程
（先做好乜再做乜）
質量標準
（乜嘢算好乜嘢算差）
拒絕邊界
（乜嘢唔做乜嘢唔答）
輸出風格
（措辭、節奏、密度）

這五樣每一樣都比"具體任務"權重大。

你喺 user prompt 度話"請用專業嘅口吻" = 一句話權重。你喺 system prompt 度將"專業口吻"嘅定義、參考、反例全部寫清楚 = 成個對話嘅底色。

底色比一句話強 10 倍——呢個唔係修辭，係數學。

04. system prompt 嘅"5 個圖層"

我而家寫 system prompt 係按 5 個圖層嚟嘅——


Layer 1 · 角色（Identity）
  你是誰？什麼背景？什麼權限？

Layer 2 · 知識（Knowledge）
  你知道什麼？信息來源？版本？

Layer 3 · 流程（Process）
  你怎麼思考？分幾步？什麼時候停下？

Layer 4 · 標準（Standard）
  什麼是好？怎麼自檢？什麼是差？

Layer 5 · 邊界（Boundary）
  什麼不做？什麼不答？什麼要 escalate？

5 層由上至下，由"係乜"去到"做乜"再到"唔做乜"。

大多數人寫 system prompt 只寫咗 Layer 1——

"你係一個專業嘅小紅書寫手。"

完了。

呢個就係點解效果唔好——司機淨係知自己係司機，唔知道呢條路、唔知道車嘅極限、唔知道乘客嘅偏好、唔知道遇到事故點處理。

我而家每個 system prompt 5 層都要有。少一層 = 留一個 AI 自由發揮嘅空間——呢個空間通常會俾佢發揮成你唔想要嘅嘢。

05. 5 層點樣寫 · 一個完整例子

舉個例——我嘅"小紅書鈎子生成器"system prompt。

Layer 1 · 角色


## 你是誰

你是一個有 5 年經驗的小紅書內容操盤手，專注女性向、生活方式、新消費類目。
你跑過的爆款 ≥ 200 篇。你的判斷標準來自實戰，不是理論。

Layer 2 · 知識


## 你知道什麼

- 小紅書 2026 年算法偏好（詳見 attached doc）
- 鈎子的 7 種結構（數字反差 / 反共識 / 痛點共鳴 / 福利前置 / 故事鈎 / 反問 / 懸念）
- 不同類目的爆款數據（你在 RAG 裏有 2024-2026 共 1200 個爆款樣本）

Layer 3 · 流程


## 你的工作流程（必須按此順序）

1. 讀用戶需求 → 識別類目（4 大類目之一）
2. 在 RAG 裏檢索 5 個同類目近 3 月爆款鈎子
3. 提取這 5 個鈎子的共同結構特徵
4. 基於這個結構，生成 3 條候選鈎子
5. 讓用戶選 / 改 / 否決
6. 選定後，再擴 5 條同結構的衍生鈎子供用戶挑

注意：第 5 步前必須停下來等用戶確認。不要自己往下走。

Layer 4 · 標準


## 什麼算好

✅ 好鈎子的特徵：
- ≤ 18 字
- 有具體數字或對比
- 不帶明顯推銷腔
- 包含一個"未完待續"的懸念

❌ 差鈎子的特徵：
- > 25 字
- 形容詞堆砌（"超好用"、"絕絕子"）
- 沒有任何數字或具體物
- 一句話講完了不需要點進去看

## 自檢清單

每生成一條鈎子，先自檢：
- [ ] ≤ 18 字
- [ ] 有具體數字或對比
- [ ] 不帶推銷腔
- [ ] 有懸念

4 項全過 = 可輸出。任何一項不過 = 重寫。

Layer 5 · 邊界


## 你不做什麼

- 不寫違反平台規範的鈎子（如醫療類目的療效保證、金融類目的收益保證）
- 不抄襲已有爆款（要做"同結構衍生"，不做"換字複製"）
- 不在用戶沒明確說類目時自己猜——必須先問

## 什麼時候 escalate

- 用戶描述的需求模糊，無法識別類目 → 反問，不要自己猜
- 用戶要求的口吻和"專業操盤手"衝突 → 提醒用戶在切換什麼模式
- 任何"包過審 / 100% 爆 / 一定上推薦"的承諾 → 拒絕並說明

5 層加埋大概 600-1000 字。

寫一次，跑 100 次任務都用呢份。單位投入產出比極高。

06. 點解大多數人唔寫 system prompt

講咗咁多，返去一個有趣嘅問題——

點解大多數人唔寫 system prompt？

我觀察到三個原因——

原因 1 · 睇唔到

大多數 AI 工具嘅 UI 度，user prompt 係高亮嘅輸入框，system prompt 收埋喺某個"高級設置"度。

好多人甚至唔知有呢樣嘢。

原因 2 · 投入回報感弱

寫 user prompt 係"即刻見效"——呢次輸出即刻變好。

寫 system prompt 係"每次都好少少"——感受唔到瞬間嘅爽感，反而覺得"我花呢啲時間不如再改幾版 user prompt"。

但累計落嚟 system prompt 嘅回報係指數級嘅——你後面所有嘅 user prompt 都企喺佢嘅膊頭上面。

原因 3 · 抽象層級高

寫 user prompt 係描述具體任務——"幫我寫一篇 1500 字嘅小紅書"。

寫 system prompt 係描述抽象規則——"乜嘢算好嘅小紅書"。

後者難寫。需要你先諗清楚自己嘅標準。

好多人未諗清楚標準就開始用 AI——所以 AI 輸出 100 次有 100 次嘅偏差。因為冇底色。

寫 system prompt 實際上係"迫自己想清楚"。呢個過程本身就有價值。

07. 一個常見誤區 · "我直接 fine-tune 就得啦"

會有人反駁——

你講嘅呢啲（角色、流程、標準），唔係 fine-tune 嚟做嘅嘢咩？

我嘅睇法——

90% 嘅場景，system prompt 比 fine-tune 更划算。

原因——

fine-tune 成本：萬銀起步、迭代慢、版本綑綁模型
system prompt 成本：寫一次幾個鐘、迭代幾分鐘、跨模型通用

更重要嘅係——

fine-tune 教識嘅係"硬技能"（角色、口吻），system prompt 教識嘅係"軟規則"（流程、標準、邊界）。

90% 嘅"輸出不穩定"問題唔係模型能力問題，係規則冇講清楚。

規則冇講清楚嘅時候，fine-tune 都救唔到——因為 fine-tune 嘅本質係統計學嘅擬合，佢冇辦法"理解"你嘅標準。

只有 system prompt（明確嘅語言）可以精確定義"乜嘢算好"。

fine-tune 適合極致定製大批量場景。system prompt 適合所有人。

我做嘅所有 prompt，都係 先將 system prompt 調到極致，再考慮要不要 fine-tune。

實際上——調到極致之後，幾乎冇 fine-tune 嘅需要。

08. system prompt 都有版本

最後一個進階規矩——

system prompt 都要打版本號、寫 changelog、做回歸測試（參考之前嗰篇"提示詞都要打版本號"）。

我每個 system prompt 檔案都係咁樣——


<!--
@name: 小紅書鈎子生成器 system prompt
@version: 4.2.1
@stability: stable
@tested-on: claude-opus-4-7
@changelog:
  v4.2.1 - 2026-04-15: 加了"醫療類目療效保證"邊界
  v4.2.0 - 2026-04-10: 重寫 Layer 4 標準（用具體清單替代描述）
  v4.0.0 - 2026-03-25: 拆成 5 層結構（前為 3 層）
-->

## 你是誰
...
## 你知道什麼
...
[5 層正文]

system prompt 係核心資產——比 user prompt 值錢 10 倍。

值錢嘅嘢一定要好似代碼咁管理。

如果唔係你會遇到——有一日 AI 輸出突然變差，你想"上一版嗰個 system prompt 去咗邊"，揾唔到。

呢一類資產唔見咗，比起唔見一個 user prompt 痛 100 倍。

09. 收尾 · "喺啱嘅層度落刀"

返去開頭——

95% 嘅人改 user prompt，5% 嘅人改 system prompt。

你想成為邊 5%？

如果你而家嘅狀態係——

成日覺得 AI 輸出"差咁啲"
改完又改 user prompt 但效果有限
唔同任務每次都要重新解釋一次標準
模型升級之後 prompt 全部要重寫

99% 係 system prompt 嘅問題。

具體行動——

打開任何一個你用得多嘅 prompt
睇下 system prompt 部分有幾行

如果 < 50 行 = 你嚴重欠債。先跟 5 層框架（角色 / 知識 / 流程 / 標準 / 邊界）補到 500-1000 字。

如果 50-200 行 = 你已經做緊。檢查 5 層係咪齊全，缺邊層補邊層。

如果 > 200 行 = 你已經超過 95% 嘅人。下一步係做版本管理 + 回歸測試。

絕大多數 AI 輸出問題，根源喺 system prompt 呢一層。

喺呢一層落刀，一刀頂 user prompt 十刀。

最後講一句——

下次你想"再改改 user prompt"嘅時候，先停低問自己——

system prompt 真係寫完未？

如果未——先去嗰一層。

嗰度先係槓桿最大嘅地方。

system prompt 比 user prompt 值錢 10 倍 · 大多數人在錯誤的層動刀

致讀者： 本篇文章 3400+ 字，預計閲讀時間 12min。95% 的人在改 user prompt，5% 的人在改 system prompt——後者的 ROI 是前者的 10 倍。如果你寫過的 prompt 已經超過 30 個，建議讀完。

01. 一個我反覆在朋友身上看到的現象

最近半年我幫朋友 review 過幾十份 prompt。

每次 review 我問的第一個問題都是——

你的 system prompt 長什麼樣？

90% 的人回答——

"system prompt？我沒怎麼寫。我直接用模型默認的，然後在 user prompt 裏說要求。"

剩下 10%——

"我有寫一點，'你是一個專業的小紅書寫手'。"

這就是問題所在。

他們花了 5 個小時調 user prompt，反覆讓 AI 輸出更好——而那個核心引擎（system prompt），根本沒有打磨過。

這就像——

你買了輛車（model）
你僱了個司機（system prompt）
你給司機指路（user prompt）

90% 的人在做的事是——反覆修改給司機的指路話術，希望"這次說得更清楚"。

但他們忘了——司機本身的能力上限，決定了到達目的地的水平。

司機如果不熟路、不懂車、不會處理突發——你怎麼改"指路話術"都沒用。

system prompt 就是司機。

02. system prompt 和 user prompt 的本質區別

講清楚為什麼之前，先講清楚是什麼。

user prompt 是—— - 每次對話發給 AI 的具體請求 - 一次一變 - 描述"這次要做什麼" - 大多數人一直在改這個

system prompt 是—— - 在所有對話之前注入的背景指令 - 長期不變（或者按版本演進） - 描述"AI 是誰、怎麼思考、什麼是好" - 大多數人忽略這個

兩者最關鍵的差異是——

user prompt 影響這一次輸出。system prompt 影響所有輸出。

打個比方——

如果 user prompt 是"今天的 KPI"，那 system prompt 就是"公司文化"。

KPI 每天都會變，文化是底色。KPI 決定今天的獎金，文化決定五年的天花板。

你猜哪個更值得花時間？

03. 反直覺 · system prompt 的 ROI 是 user prompt 的 10 倍

為什麼是 10 倍？我做過一組對比實驗——

實驗 A · 改 user prompt

固定 system prompt（默認空），調 user prompt 50 個版本。

每版跑 5 個 test_case，看輸出質量分。

最好的一版相比最差的一版，提升 +27%。

實驗 B · 改 system prompt

固定 user prompt（一句話需求），調 system prompt 10 個版本。

每版跑 5 個 test_case。

最好的一版相比"無 system prompt"，提升 +218%。

比例：218 / 27 ≈ 8 倍。

我說"10 倍"是個粗略數字。但量級上是對的——system prompt 的槓桿比 user prompt 大一個數量級。

為什麼？

因為 system prompt 影響的是 AI 的——

角色定位
（寫的是誰的口吻）
思考流程
（先做什麼再做什麼）
質量標準
（什麼算好什麼算差）
拒絕邊界
（什麼不做什麼不答）
輸出風格
（措辭、節奏、密度）

這五樣每一樣都比"具體任務"權重大。

你在 user prompt 裏說"請用專業的口吻" = 一句話權重。你在 system prompt 裏把"專業口吻"的定義、參考、反例全部寫清楚 = 整個會話的底色。

底色比單句話強 10 倍——這不是修辭，是數學。

04. system prompt 的"5 個圖層"

我現在寫 system prompt 是按 5 個圖層來的——


Layer 1 · 角色（Identity）
  你是誰？什麼背景？什麼權限？

Layer 2 · 知識（Knowledge）
  你知道什麼？信息來源？版本？

Layer 3 · 流程（Process）
  你怎麼思考？分幾步？什麼時候停下？

Layer 4 · 標準（Standard）
  什麼是好？怎麼自檢？什麼是差？

Layer 5 · 邊界（Boundary）
  什麼不做？什麼不答？什麼要 escalate？

5 層從上到下，從"是什麼"到"做什麼"再到"不做什麼"。

大多數人寫 system prompt 只寫了 Layer 1——

"你是一個專業的小紅書寫手。"

完了。

這就是為什麼效果不好——司機只知道自己是司機，不知道這條路、不知道車的極限、不知道乘客的偏好、不知道遇到事故怎麼處理。

我現在每個 system prompt 5 層都要有。少一層 = 留一個 AI 自由發揮的空間——這個空間通常會被它發揮成你不想要的東西。

05. 5 層都怎麼寫 · 一個完整例子

舉個例子——我的"小紅書鈎子生成器"system prompt。

Layer 1 · 角色


## 你是誰

你是一個有 5 年經驗的小紅書內容操盤手，專注女性向、生活方式、新消費類目。
你跑過的爆款 ≥ 200 篇。你的判斷標準來自實戰，不是理論。

Layer 2 · 知識


## 你知道什麼

- 小紅書 2026 年算法偏好（詳見 attached doc）
- 鈎子的 7 種結構（數字反差 / 反共識 / 痛點共鳴 / 福利前置 / 故事鈎 / 反問 / 懸念）
- 不同類目的爆款數據（你在 RAG 裏有 2024-2026 共 1200 個爆款樣本）

Layer 3 · 流程


## 你的工作流程（必須按此順序）

1. 讀用戶需求 → 識別類目（4 大類目之一）
2. 在 RAG 裏檢索 5 個同類目近 3 月爆款鈎子
3. 提取這 5 個鈎子的共同結構特徵
4. 基於這個結構，生成 3 條候選鈎子
5. 讓用戶選 / 改 / 否決
6. 選定後，再擴 5 條同結構的衍生鈎子供用戶挑

注意：第 5 步前必須停下來等用戶確認。不要自己往下走。

Layer 4 · 標準


## 什麼算好

✅ 好鈎子的特徵：
- ≤ 18 字
- 有具體數字或對比
- 不帶明顯推銷腔
- 包含一個"未完待續"的懸念

❌ 差鈎子的特徵：
- > 25 字
- 形容詞堆砌（"超好用"、"絕絕子"）
- 沒有任何數字或具體物
- 一句話講完了不需要點進去看

## 自檢清單

每生成一條鈎子，先自檢：
- [ ] ≤ 18 字
- [ ] 有具體數字或對比
- [ ] 不帶推銷腔
- [ ] 有懸念

4 項全過 = 可輸出。任何一項不過 = 重寫。

Layer 5 · 邊界


## 你不做什麼

- 不寫違反平台規範的鈎子（如醫療類目的療效保證、金融類目的收益保證）
- 不抄襲已有爆款（要做"同結構衍生"，不做"換字複製"）
- 不在用戶沒明確說類目時自己猜——必須先問

## 什麼時候 escalate

- 用戶描述的需求模糊，無法識別類目 → 反問，不要自己猜
- 用戶要求的口吻和"專業操盤手"衝突 → 提醒用戶在切換什麼模式
- 任何"包過審 / 100% 爆 / 一定上推薦"的承諾 → 拒絕並說明

5 層加起來大概 600-1000 字。

寫一次，跑 100 次任務都用這一份。單位投入產出比極高。

06. 為什麼大多數人不寫 system prompt

講了這麼多，回到一個有意思的問題——

為什麼大多數人不寫 system prompt？

我觀察到三個原因——

原因 1 · 看不見

大多數 AI 工具的 UI 裏，user prompt 是高亮的輸入框，system prompt 藏在某個"高級設置"裏。

很多人甚至不知道有這個東西。

原因 2 · 投入回報感弱

寫 user prompt 是"立刻見效"——這次輸出馬上變好。

寫 system prompt 是"每次都好一點點"——感受不到瞬間的爽感，反而覺得"我花這時間還不如多調幾版 user prompt"。

但累計下來 system prompt 的回報是指數級的——你後面所有的 user prompt 都站在它的肩膀上。

原因 3 · 抽象層級高

寫 user prompt 是描述具體任務——"幫我寫一篇 1500 字的小紅書"。

寫 system prompt 是描述抽象規則——"什麼算好的小紅書"。

後者難寫。需要你先想清楚自己的標準。

很多人沒想清楚標準就開始用 AI——所以 AI 輸出 100 次有 100 次的偏差。因為沒有底色。

寫 system prompt 實際上是"逼自己想清楚"。這個過程本身就有價值。

07. 一個常見誤區 · "我直接 fine-tune 就行了"

會有人反駁——

你說的這些（角色、流程、標準），不是 fine-tune 來做的事嗎？

我的看法——

90% 的場景，system prompt 比 fine-tune 更划算。

原因——

fine-tune 成本：萬元起步、迭代慢、版本耦合模型
system prompt 成本：寫一次幾小時、迭代幾分鐘、跨模型通用

更重要的是——

fine-tune 教會的是"硬技能"（角色、口吻），system prompt 教會的是"軟規則"（流程、標準、邊界）。

90% 的"輸出不穩定"問題不是模型能力問題，是規則沒說清楚。

規則沒說清楚的時候，fine-tune 也救不了——因為 fine-tune 的本質是統計學的擬合，它沒辦法"理解"你的標準。

只有 system prompt（明確的語言）能精確定義"什麼算好"。

fine-tune 適合極致定製大批量場景。system prompt 適合所有人。

我做的所有 prompt，都是 先把 system prompt 調到極致，再考慮要不要 fine-tune。

實際上——調到極致之後，幾乎沒有 fine-tune 的需求了。

08. system prompt 也是有版本的

最後一個進階規矩——

system prompt 也要打版本號、寫 changelog、做迴歸測試（參見前面那篇"提示詞也要打版本號"）。

我每個 system prompt 文件都長這樣——


<!--
@name: 小紅書鈎子生成器 system prompt
@version: 4.2.1
@stability: stable
@tested-on: claude-opus-4-7
@changelog:
  v4.2.1 - 2026-04-15: 加了"醫療類目療效保證"邊界
  v4.2.0 - 2026-04-10: 重寫 Layer 4 標準（用具體清單替代描述）
  v4.0.0 - 2026-03-25: 拆成 5 層結構（前為 3 層）
-->

## 你是誰
...
## 你知道什麼
...
[5 層正文]

system prompt 是核心資產——比 user prompt 值錢 10 倍。

值錢的東西必須像代碼一樣管。

否則你會遇到——某天 AI 輸出突然變差，你想"上一版那個 system prompt 哪兒去了"，找不到了。

這一類資產丟了，比丟一個 user prompt 痛 100 倍。

09. 收個尾 · "在對的層動刀"

回到開頭——

95% 的人在改 user prompt，5% 的人在改 system prompt。

你想成為哪 5%？

如果你目前的狀態是——

總覺得 AI 輸出"差點意思"
反覆改 user prompt 但效果有限
不同任務每次都要重新解釋一遍標準
模型升級之後 prompt 全要重寫

99% 是 system prompt 的問題。

具體行動——

打開任意一個你用得最多的 prompt
看看 system prompt 部分有幾行

如果 < 50 行 = 你嚴重欠債。先按 5 層框架（角色 / 知識 / 流程 / 標準 / 邊界）補到 500-1000 字。

如果 50-200 行 = 你已經在做了。檢查 5 層是否齊全，缺哪層補哪層。

如果 > 200 行 = 你已經超過 95% 的人。下一步是把它做版本管理 + 迴歸測試。

絕大多數 AI 輸出問題，根源在 system prompt 這一層。

在這一層動刀，一刀頂 user prompt 十刀。

最後說一句——

下次你想"再改改 user prompt"的時候，先停下來問自己——

system prompt 真的寫完了嗎？

如果沒有——先去那一層。

那才是槓桿最大的地方。