"你是 XX 領域 20 年專家" 這句咒語已經廢了 · 提示詞工程正式進入下半場 · 4 件事讓你不掉隊

作者:鱸魚聊AI
日期:2026年5月16日 下午11:30
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

提示詞工程下半場:角色設定已死,上下文工程與反饋循環才是王道

整理版摘要

文章作者係一個有3年實戰經驗嘅提示詞工程師,佢透過自身觀察同業界權威(沃頓商學院教授Ethan MollickAnthropic CFO Sarah Friar、Kimi總裁張予彤)嘅數據,指出「你是XX領域20年專家」呢句咒語喺2026年已經完全無效,反而會浪費上下文預算。佢認為提示詞工程已經進入「監督時代」,核心唔再係搖咒語,而係搭建一套AI可以進入並完成任務嘅世界。整體結論係:下半場要專注喺上下文工程、反饋循環、任務編排同反向提問呢4個方向。

作者詳細拆解咗提示詞工程嘅三個時代:補救時代(2022-2023)、咒語時代(2023-2024)同監督時代(2025-2026),並用一張表整理咗各種技巧嘅有效期。佢親自實測刪除「專家咒語」後,輸出質量提升,token消耗減少5%。最後佢提供咗3個即刻見效嘅動作,幫讀者快速適應新時代。

呢篇文章嘅價值唔係純理論,而係基於實測同業界數據,畀出咗具體可執行嘅方向,適合所有仲喺度用舊方法寫prompt嘅人。

  • Ethan Mollick實測證實角色設定已無助提升輸出,反而可能因佔用上下文空間而令質量下降。
  • Anthropic內部90%代碼由AI編寫,員工轉向系統監督,反映AI已默認專家級。
  • 提示詞工程歷經補救、咒語、監督三個時代,目前身處監督時代,關鍵係「工程」而非「咒語」。
  • 下半場4件核心事:上下文工程、反饋循環、任務編排、反向提問;每個方向都有具體做法。
  • 作者實測刪除專家咒語後,輸出質量顯著提升,token消耗減少5%,並推薦3個即日見效嘅動作。
整理重點

業界信號:角色設定咒語已失效

沃頓商學院教授Ethan Mollick喺5月6日發咗一條推文,話「告訴AI佢係某個領域專家,已經冇幫助」。佢實測GPT-4o、Claude Opus 4同Llama 3.3-80B,發覺加「專家」標籤喺9類任務中有7類輸出質量冇顯著差異,2類仲要略微下降。呢個結論等於判咗「你是XX領域20年專家」呢句咒語死刑。

同一周,Anthropic CFO Sarah Friar爆咗個炸裂數據:公司內部90%代碼已經由AI自己編寫,員工嘅工作重心從「手動執行」轉向「系統監督」。呢個數字意味住AI已經默認按專家級推理,人唔再需要教佢做專家。

Kimi總裁張予彤喺北大光華論壇補充:全球84%人口未用過AI,得0.3%付費。呢三個信號同時出現,顯示提示詞工程正式進入下半場。

整理重點

提示詞工程三個時代與技巧有效期

過去3年提示詞工程經歷咗三個時代:補救時代(2022-2023)要餵得好細先得;咒語時代(2023-2024)靠角色設定、思維鏈等咒語觸發好狀態;監督時代(2025-2026)模型默認專家級,重點係搭系統而非搖咒語。

  1. 1 仲有用:具體任務約束(字數、格式、排除項)直接框死交付物,減少模型自由發揮。
  2. 2 仲有用:完整上下文(文件、歷史、約束、反例)令模型喺你嘅具體情境推理。
  3. 3 仲有用:反饋循環(自評分、跑測試)將AI變成可觀測系統。
  4. 4 半過期:few-shot示例而家1個高質示例好過5個普通;長few-shot浪費上下文。
  5. 5 完全過期:「你是XX領域20年專家」——模型默認專家級,加咗純冗餘。

作者計咗條數:一條典型老派prompt有60%字符係冗餘——專家身份、公司背景、「認真思考」全部可以刪。換成具體場景加真實約束,輸出質量反而更高。

整理重點

下半場嘅4件核心事

如果咒語時代過去,下半場要拼嘅係以下4件事,每個都係具體工程動作:

  • 上下文工程:搭建一個AI能進入並完成任務嘅世界。將所有相關文件、歷史決策、真實約束塞入上下文,Claude Code直接讀整個倉庫就係最好例子。
  • 反饋循環:唔好當AI係開盲盒,要當佢係可觀測系統。跑 /insights 睇使用模式、叫AI自評分、同ground truth對照。Boris Cherny嘅cron Loop模式就係AI做完自動check。
  • 任務編排:「AI負責發現,腳本負責重複」。第一次叫AI探路,之後用skill/SOP重複執行,唔使每次重新識別。伊娜嘅ClaudeCode內容創作8層閉環就係行呢套。
  • 反向提問:最反共識嘅一招——叫AI反問你5個澄清問題,挖你腦裏嘅隱性需求。作者嘅「反推PRD提示詞」已經寫咗至少80份方案,效果好過「你是XX專家」嗰套。
整理重點

今日就做嘅3個動作同結語

作者親自實測刪除專家咒語:將28條prompt改寫,刪「你是XX專家」,換成具體情境同反問自評。結果輸出質量提升,token消耗反而減少5%。以下係3個即刻見效嘅動作:

  1. 1 打開你最近嘅長prompt,刪走「你是XX專家」,補上「我而家嘅具體情境係 [一句話場景描述]」,然後對比輸出。
  2. 2 喺prompt尾加「反問+自評」:先叫AI問3-5個澄清問題,然後畀答案;答案出咗之後叫佢自評分(你關心嘅3-5個維度)。
  3. 3 跑一次 /insights(Claude Code)或叫ChatGPT分析你過去30日對話,統計prompt最常出現嘅關鍵詞,瞭解你真實使用模式。

下次你寫prompt時,問自己:「我而家敲嘅呢啲字——係話畀AI佢係邊個(過期)?定係話畀AI我而家嘅具體情境係咩(有效)?」想得通呢個問題,你就跨過咗提示詞工程下半場嘅門檻。


"你是 XX 領域 20 年專家" 呢句咒語已經廢咗 · 提示詞工程正式進入下半場 · 4 件事令你唔好落後

致讀者: 呢篇文有4800+字,預計閲讀時間13min。我過去3年寫過嘅幾千條 prompt,幾乎每一條第一句都係"你是 XX 領域 20 年專家"——呢句係AI圈過去3年傳得最廣嘅「咒語」。但5月6日Ethan Mollick(沃頓商學院教授、提示詞工程領域奠基人之一)發咗一條令所有prompt engineer心都沉一沉嘅實測推文:"同AI講佢係某個領域嘅專家,已經冇幫助。" 同一星期,Anthropic CFO Sarah Friar 喺公開訪談入面拋出一個爆炸性數據:Claude 內部90%嘅代碼,已經由AI自己編寫Kimi 總裁張予彤喺北大光華論壇指出:全球84%人口未使用AI,僅0.3%付費三件事喺5月呢一星期同時出現,指向同一個事實——提示詞工程正式進入下半場3年前救命嗰套「角色設定 / 思維鏈 / few-shot」,一半已經過期。呢篇會將「邊啲技巧仲有用 / 邊啲已經過期 / 下半場拼啲乜 / 你今日應該做啲乜」呢4件事一次過講清楚。

圖片

01. Mollick 5月6日嗰條推文 · 令所有prompt engineer心都沉一沉

Ethan Mollick 係 AI 提示詞工程領域過去3年最權威嘅研究者之一——沃頓商學院教授、oneusefulthing.org 博主、「co-intelligence」理論提出者。

佢唔係「AI自媒體」,係真係做緊模型行為實證研究嘅人。

5/6 佢喺X上發咗咁樣一段:

Telling the AI that it is an expert in a field is no longer help. The models default to expert-level reasoning. Adding "you are a 20-year expert" is redundant information that may subtract from your context budget without adding value.

翻譯:

同AI講佢係某個領域嘅專家,已經冇幫助。模型而家默認按專家級嚟做推理。加上「你係20年專家」係資訊冗餘,可能會喺你嘅上下文預算入面扣分,但完全冇增加價值。

佢仲喺多個任務上做咗對比實測——GPT-4o / Claude Opus 4 / Llama 3.3-80B——加「專家」標籤嘅輸出 vs 唔加「專家」標籤嘅輸出,喺9類任務入面 7類輸出質量冇顯著差異,2類輸出質量略微下降(因為壓縮咗真正有用嘅上下文空間)。

呢個結論令全行業嘅prompt engineer心沉一沉——

因為大家過去3年傳得最廣嘅「提示詞聖經第一條」,就係「先同AI講佢係邊個」

3年間,呢條建議俾人改寫成各種版本傳播:

  • 「你係一位資深嘅財務顧問」
  • 「你係一個有20年經驗嘅產品經理」
  • "You are an expert in software engineering"
  • "Assume you are Jeff Bezos and you are giving advice"

LinkedIn上面仲有人靠「500條最有效prompt角色設定」嚟賣課。

Mollick一句話就將呢條聖經判咗死刑

圖片

02. 同一星期嘅另一個爆炸性數據 · 90%代碼已經係AI寫嘅

5月15日,Anthropic CFO Sarah Friar 喺投資人電話會議上透露咗一個內部數據,俾 TechCrunch 捉咗出嚟做頭條:

Anthropic 內部 90%嘅代碼,目前由AI編寫。Anthropic員工嘅工作重心,由「手動執行」轉向「系統監督」(from manual execution to system oversight)。

注意——Anthropic 係世界上最識提示詞工程、最識AI編程能力嘅公司。呢間公司自己 90%代碼由AI寫,意味住啲乜?

意味住——

AI已經唔需要你同佢講「你係20年資深工程師」先寫到代碼

佢默認就係。

而且Anthropic內部員工嘅核心工作,已經唔係寫代碼 / 唔係寫prompt / 唔係校角色,而係:

  • 設計任務邊界(令AI知道喺邊啲事上要 escalate)
  • 設計反饋環(令AI自檢 / 跑測試 / 報告異常)
  • 設計審核機制(喺邊啲PR上需要人工review)

佢哋做嘅嘢,本質上係「管理AI團隊」——而唔係「操縱AI輸出」。

呢個就係點解Mollick嗰條推文,同Sarah Friar呢個數據,講嘅係同一件事:

提示詞工程嘅上半場係「點樣令蠢嘅AI扮聰明」——下半場係「點樣管理已經默認聰明嘅AI」


03. 提示詞工程嘅3個時代 · 你正卡喺邊一段

將過去3年放喺一條時間軸上睇,提示詞工程其實經歷咗3個截然不同嘅時代:

🌑 時代1:補救時代(2022末 - 2023 GPT-3.5)

模型能力:很差需要被「喂得好細」先做得嘢。

代表技巧:

  • 寫得非常具體
    :「寫一段200字嘅描述,關於一間咖啡館,要包括環境、產品、同老闆嘅故事」
  • 限制輸出格式
    :「用markdown表格輸出,3列分別係X / Y / Z」
  • 明確禁止
    :「唔好寫詩,唔好用第一人稱」

呢個時代,prompt就係說明書 —— 越細越好。

🌗 時代2:咒語時代(2023 - 2024 GPT-4 / Claude 3)

模型能力:好很多。但觸發「好狀態」需要咒語

代表技巧:

  • ⭐ 「你係20年專家」(令模型進入專家模式)
  • ⭐ 「一步一步思考」(觸發鏈式推理 chain-of-thought)
  • ⭐ few-shot examples(畀2-3個示例令模型模仿)
  • ⭐ 「如果你唔知就話唔知」(防幻覺)
  • ⭐ 「喺回答前先列大綱」(強制結構)

呢個時代,prompt係鑰匙串 —— 你要知道邊條鎖匙開邊道門。提示詞工程嘅「門派」同「教程」都係呢個時代起家。

🌕 時代3:監督時代(2025 - 2026 Claude Opus 4 / GPT-5.x / Gemini 2.5 Pro)

模型能力:默認就係專家級咒語已經內化喺訓練入面。

代表技巧:

  • ✅ 具體任務約束(唔係「寫一篇文章」,係「4500字 / 8段 / 反共識hook / 0自誇」)
  • ✅ 完整上下文(畀文件 / 畀歷史 / 畀約束 / 畀反例)
  • ✅ 反饋循環(令AI自評分 / 同ground truth對照 / 跑insights)
  • ✅ 任務編排(AI探路 → 腳本執行嘅兩段式)
  • ✅ 審核機制(喺邊啲動作前必須stop等用戶確認)

呢個時代,prompt係工程——你喺度搭建一套「AI可以進入並完成任務嘅世界」,唔係喺度「搖一個咒語令AI聽話」。

絕大多數人嘅提示詞水平,仲卡喺時代2——一邊將「你係XX專家」掛喺嘴邊,一邊怨「AI輸出點解咁平庸」。

圖片

04. 邊啲技巧仲有用 · 邊啲過期咗 · 一張表講清楚

將過去3年傳得最廣嘅提示詞技巧,按2026年5月Claude Opus 4 / GPT-5.5嘅實際表現,分成「仲有用 / 半過期 / 徹底過期」3檔:

✅ 仲有用(2026年仍然提升輸出質量)

技巧
原因
具體任務約束
(字數/格式/排除項)
減少模型嘅「自由發揮」,直接框死交付物
完整上下文
(文件/歷史/約束/反例)
令模型喺「你嘅具體情境」入面推理,而唔係訓練數據均值
反饋循環
(/insights、self-eval)
將模型從「開盲盒」變成「可觀測系統」
思維鏈
(對複雜推理任務)
喺數學/邏輯/多步規劃上仍然顯著+準確率
反向提問
(令AI反問你)
提取你腦入面嘅隱性需求,避免AI估錯

🟡 半過期(只對特定任務仲有效)

技巧
怎麼變
few-shot 示例
1個高質量示例 ≥ 5個普通示例;長few-shot佔上下文唔值得
「一步一步思考」
GPT-5.x / Claude 4.7 已默認thinking,只喺小模型上有效
角色風格扮演
(「假設你係禪師」)
用嚟定風格有效,用嚟「專家級」無效

❌ 已經過期(2026年加咗等於浪費)

技巧
點解過期
「你係XX領域20年專家」
模型默認按專家級嚟跑,加咗純冗餘
「請仔細思考」/「認真回答」
模型已經「認真」,呢句話信息量為0
「你係一個有幫助嘅AI助手」
廢話,system prompt入面已經包含
大段角色背景設定
佔上下文預算,模型generalize能力夠強,唔需要細節
過度禮貌
(「請你幫我睇睇...謝謝」)
唔增加質量,只增加token消耗

等我打個直觀嘅算賬:

一條典型嘅「老派」提示詞:

你係一位有20年經驗嘅資深產品經理,曾經喺Google、Facebook、字節跳動做過,擅長0到1嘅產品設計,特別精通B端SaaS產品。請你認真思考,一步一步分析,然後畀我寫一份產品需求文檔,主題係【AI筆記產品】。

呢條prompt入面至少60%嘅字符係冗餘——專家身份 + 公司背景 + 擅長領域 + 「認真思考」——全部可以刪走。

改成2026年版本:

寫一份AI筆記產品嘅需求文檔。目標用戶:1人公司創業者。核心場景:AI自動從佢呢星期嘅工作日誌入面提取3個未決議題。約束:唔做向量檢索 / 唔做多設備同步 / MVP 1星期內可以上線。輸出:1500字 / 包含用戶故事 + 功能清單 + 非功能要求 + 反例(明確唔做啲乜)。

第二條短咗40%,但輸出質量會明顯高——因為佢將「專家身份」嗰60%嘅字符讓咗畀具體場景 + 真實約束 + 輸出反例

提示詞工程下半場,每個token都要為「具體性」服務,唔為「姿態」服務

圖片

05. 咁下半場拼啲乜 · 4件事令你唔好落後

如果「咒語時代」已經過去,下半場到底喺度拼啲乜?

我自己過去6個月喺實戰中沉澱落嚟,有4件事一定要做:

🎯 件事1:上下文工程(Context Engineering)

唔係「畀AI幾句話」,係搭建一個AI可以進入並完成任務嘅世界

具體動作:

  • 將AI要用到嘅所有相關文件塞入上下文(Claude Code直接讀曬成個倉庫就係呢個邏輯)
  • 歷史對話/決策記錄塞入system prompt
  • 真實嘅約束(deadline / budget / 唔可以改嘅事實)塞入任務說明
  • 反例(明確唔做啲乜)

Claude Code之所以最近半年突然流行——核心唔係模型變強,係佢將「上下文工程」呢件事變得幾乎零成本(直接讀你嘅文件系統)。

🎯 件事2:反饋循環(Feedback Loops)

唔好將AI當成「開盲盒」,要當成「可觀測系統」。

具體動作:

  • 跑 /insights
     睇你過去一星期點樣用AI(雪踏烏雲嘅命令,實測可以扒出你真實使用模式)
  • 令AI 自評分(寫完一篇文章令佢按6維度打分:反共識 / 真嘢 / 暗線 / 字數 / 自誇 / 黑名單)
  • 同ground truth對照
    (寫代碼嘅話,跑測試就係反饋)
  • Boris Cherny幾十個cron Loop
     模式——AI做完,自動跑一個check,失敗就再令AI改

🎯 件事3:任務編排(Task Orchestration)

「AI負責發現,腳本負責重複」——呢個係2026年頂級用戶嘅共識。

具體動作:

  • 令AI第一次跑通一個流程(佢「探路」)
  • 將跑通嘅流程固化成 skill / 腳本 / SOP
  • 之後只喺未知場景先叫AI,已知場景用腳本/skill重放
  • 用cron / launchd起最簡單嘅「每日掃一次」Loop

伊娜分享Claude Code內容創作嘅8層閉環(信息蒐集→拆解→素材庫→選題→創作→剪輯→分發→覆盤)——核心就係「AI探路 + 腳本執行」嘅二分法。

唔係每一步都令AI重新識別,而係一次令AI諗清楚,之後令腳本重複

🎯 件事4:反向提問(Reverse PRD / 令AI反問你)

下半場最反共識嘅一招——

唔係你畀AI寫prompt,係令AI反過嚟問你

具體動作:

  • 起手第一句:「喺你回答之前,先問我5個澄清問題。」"
  • AI會反過嚟挖你腦入面嘅隱性需求
  • 你回答完,AI再幫你寫PRD / 方案 / 內容
  • 呢一招喺「你自己都未諗清楚要啲乜」嘅場景入面,質量提升200%

我自己嘅「反推PRD提示詞」就係呢套——已經幫我寫咗至少80份方案,遠比「你係XX專家」嗰套有效

圖片

06. 我自已嘅實戰數據 · 刪完「你係XX專家」之後發生咗啲乜

為咗唔好令呢篇變成紙上談兵,呢個係我5月8日做嘅一次實測:

我打開咗過去半年保存嘅40+條prompt模板(喺vault 🐟內容工廠開發/文字/公眾號提示詞庫/ 裏),其中28條第一句仲係「你係XX領域20年專家」

我將呢28條全部改寫——

  • ❌ 刪走「你係XX專家」
  • ✅ 換成「以下係我而家嘅具體情境:[場景描述]」
  • ✅ 加上「喺你開始之前先問我3-5個澄清問題」(對複雜任務)
  • ✅ 加上「輸出後畀我一段自評分:反共識 / 真嘢 / 暗線 / 字數 / 自誇 / 黑名單各1-10分」

改完之後跑咗一星期,實測對比:

維度
舊版本prompt
新版本prompt
輸出字符長度
≈ 等長
≈ 等長
輸出貼合度
(貼我具體場景)
⭐⭐⭐
⭐⭐⭐⭐⭐
輸出獨特性
(避開均值)
⭐⭐
⭐⭐⭐⭐
首版可用率
(唔使大改嘅)
30%
70%
Token消耗
-5%

結論非常清楚:刪走「專家咒語」之後,質量反而提升,token仲慳咗5%

省下來嗰5% token,我塞咗入: - 具體場景描述(我嘅項目 / 我嘅讀者畫像 / 我嘅暗線串聯) - 反共識座標(唔好順住主流寫,從反面切入) - 反例(具體寫明唔做啲乜)

呢啲先係2026年提示詞工程應該用嘅方式


07. 今日就做嘅3個動作 · 5分鐘之內見效

如果你睇完呢篇打算試一試,3個動作可以即刻見效:

🚀 動作1:打開你最近嘅長prompt,刪走「你係XX專家」

  • 揾到你保存嘅1-2條prompt(平時幫你幹活嗰種)
  • 刪走「你係20年/資深/專家」嗰一句
  • 喺原位補返「我而家嘅具體情境係 [一句話場景描述]」"
  • 跑一次同樣嘅任務對比

🚀 動作2:喺prompt尾度加「反問 + 自評」兩件事

  • 尾度加:「喺你開始之前,先問我3-5個澄清問題,然後再畀最終答案。」"
  • 答案出咗之後再加:「畀我一段自評分,1-10打:[你關心嘅3-5個維度]。」"
  • 呢兩件事令AI從「開盲盒」變「可觀測系統」

🚀 動作3:跑一次 /insights 睇你真實使用模式

  • Claude Code用戶:喺CLI跑 /insights(雪踏烏雲嘅命令,有第三方版本)
  • ChatGPT用戶:叫ChatGPT拉你嘅「過去30日對話」,統計你prompt入面出現最多嘅10個關鍵詞
  • 見到結果會好有用——你以為自己點樣用AI,跟你真實點樣用AI,通常差異巨大

08. 收尾 · 全球84%冇用AI / 0.3%付費 · 呢件事嘅真正含義

最後想引一段Kimi總裁張予彤5月15日喺北大光華論壇講嘅話——

全球 84%嘅人口 仲未用過任何AI工具。用過嘅人入面,只有0.3%喺度付費智能規模化仲處於早期

好多人見到呢個數字會諗:啊,AI未起飛,我要快啲追

我見到呢個數字諗到嘅係另一件事:

呢個係一個超級早期嘅市場——但早期唔等於亂玩

3年前你唔學「角色設定 / 思維鏈 / few-shot」,可能錯過一波紅利。

2026年你仲喺度寫「你係XX領域20年專家」,已經喺度浪費你嘅token預算 + 你自己嘅時間預算

下半場拼嘅係4件事——上下文工程 / 反饋循環 / 任務編排 / 反向提問

呢4件事唔係新名詞,係將上半場你以為重要嘅事(咒語)取代咗下半場真正重要嘅事(工程)

下次你打開AI寫prompt時,多問自己一句:

我而家敲緊呢啲字——係喺度同AI講佢係邊個(過期咗)?定係喺度同AI講我而家嘅具體情境係啲乜(2026年真正有效嘅)?

呢個問題諗清楚咗——你就跨過咗提示詞工程嘅下半場門檻。



"你是 XX 領域 20 年專家" 這句咒語已經廢了 · 提示詞工程正式進入下半場 · 4 件事讓你不掉隊

致讀者: 本篇 4800+ 字,預計閲讀時間 13min。我過去 3 年裏寫過的幾千條 prompt,幾乎每一條第一句都是"你是 XX 領域 20 年專家"——這是 AI 圈過去 3 年傳得最廣的"咒語"。但 5 月 6 日 Ethan Mollick(沃頓商學院教授、提示詞工程領域奠基人之一)發了一條讓所有 prompt engineer 心一沉的實測推文:"告訴 AI 它是某個領域的專家,已經不再有幫助。" 同一周,Anthropic CFO Sarah Friar 在公開訪談裏拋出一個炸裂數據:Claude 內部 90% 的代碼,已經由 AI 自己編寫;Kimi 總裁張予彤在北大光華論壇指出:全球 84% 人口未使用 AI,僅 0.3% 付費。三件事在 5 月這一週同時出現,指向同一個事實——提示詞工程正式進入下半場。3 年前救命的"角色設定 / 思維鏈 / few-shot"那一套,一半已經過期。這篇把"哪些技巧還有用 / 哪些已經過期 / 下半場拼什麼 / 你今天該做什麼"4 件事一次扒清。

圖片

01. Mollick 5 月 6 日那條推文 · 把所有 prompt engineer 心都打了一下

Ethan Mollick 是 AI 提示詞工程領域過去 3 年最權威的研究者之一——沃頓商學院教授、oneusefulthing.org 博主、"co-intelligence"理論提出者。

他不是"AI 自媒體",是真正在做模型行為實證研究的人。

5/6 他在 X 上發了這樣一段:

Telling the AI that it is an expert in a field is no longer help. The models default to expert-level reasoning. Adding "you are a 20-year expert" is redundant information that may subtract from your context budget without adding value.

翻譯:

告訴 AI 它是某個領域的專家,已經不再有幫助。模型現在默認按專家級在做推理。加上"你是 20 年專家"是信息冗餘,可能在你的上下文預算裏減分,但完全沒增加價值。

他還在多個任務上做了對比實測——GPT-4o / Claude Opus 4 / Llama 3.3-80B——加"專家"標籤的輸出 vs 不加"專家"標籤的輸出,在 9 類任務裏 7 類輸出質量無顯著差異,2 類輸出質量略微下降(因為壓縮了真正有用的上下文空間)。

這個結論讓全行業的 prompt engineer 心一沉——

因為大家過去 3 年傳得最廣的"提示詞聖經第一條",就是"先告訴 AI 它是誰"

3 年間,這條建議被改寫成各種版本傳播:

  • "你是一位資深的財務顧問"
  • "你是一名 20 年經驗的產品經理"
  • "You are an expert in software engineering"
  • "Assume you are Jeff Bezos and you are giving advice"

LinkedIn 上還有人靠"500 條最有效 prompt 角色設定"賣課。

Mollick 一句話把這條聖經判了死刑

圖片

02. 同一周的另一個炸裂數據 · 90% 代碼已經是 AI 寫的

5 月 15 日,Anthropic CFO Sarah Friar 在投資人電話會上透露了一個內部數據,被 TechCrunch 抓出來發頭條:

Anthropic 內部 90% 的代碼,目前由 AI 編寫。Anthropic 員工的工作重心,從"手動執行" 轉向"系統監督"(from manual execution to system oversight)。

注意——Anthropic 是世界上最懂提示詞工程、最懂 AI 編程能力的公司。這家公司自己 90% 代碼由 AI 寫,意味着什麼?

意味着——

AI 已經不需要你告訴它"你是 20 年資深工程師"才能寫代碼了

它默認就是。

而且 Anthropic 內部員工的核心工作,已經不是寫代碼 / 不是寫 prompt / 不是調角色,而是:

  • 設計任務邊界(讓 AI 知道在哪些事上要 escalate)
  • 設計反饋環(讓 AI 自檢 / 跑測試 / 報告異常)
  • 設計審核機制(在哪些 PR 上需要人工 review)

他們做的事,本質上是"管理 AI 團隊"——而不是"操縱 AI 輸出"。

這就是為什麼 Mollick 那條推文,跟 Sarah Friar 這個數據,講的是同一件事:

提示詞工程的上半場是"如何讓蠢的 AI 裝作聰明"——下半場是"如何管理已經默認聰明的 AI"


03. 提示詞工程的 3 個時代 · 你正卡在哪一段

把過去 3 年放到一根時間軸上看,提示詞工程其實經歷了 3 個截然不同的時代:

🌑 時代 1:補救時代(2022 末 - 2023 GPT-3.5)

模型能力:很差。需要被"喂得很細"才能幹活。

代表技巧:

  • 寫得非常具體
    :"寫一段 200 字的描述,關於一家咖啡館,要包括環境、產品、和老闆的故事"
  • 限制輸出格式
    :"用 markdown 表格輸出,3 列分別是 X / Y / Z"
  • 明確禁止
    :"不要寫詩,不要用第一人稱"

這一時代,prompt 就是說明書 —— 越細越好。

🌗 時代 2:咒語時代(2023 - 2024 GPT-4 / Claude 3)

模型能力:好很多。但觸發"好狀態"需要咒語

代表技巧:

  • ⭐ "你是 20 年專家"(讓模型進入專家模式)
  • ⭐ "一步一步思考"(觸發鏈式推理 chain-of-thought)
  • ⭐ few-shot examples(給 2-3 個示例讓模型模仿)
  • ⭐ "如果你不知道就說不知道"(防幻覺)
  • ⭐ "在回答前先列大綱"(強制結構)

這一時代,prompt 是鑰匙串 —— 你得知道哪把鑰匙開哪扇門。提示詞工程的"門派"和"教程"都是這個時代起家的。

🌕 時代 3:監督時代(2025 - 2026 Claude Opus 4 / GPT-5.x / Gemini 2.5 Pro)

模型能力:默認就是專家級。咒語已經內化在訓練裏。

代表技巧:

  • ✅ 具體任務約束(不是"寫一篇文章",是"4500 字 / 8 段 / 反共識 hook / 0 自誇")
  • ✅ 完整上下文(給文件 / 給歷史 / 給約束 / 給反例)
  • ✅ 反饋循環(讓 AI 自評分 / 跟 ground truth 對照 / 跑 /insights)
  • ✅ 任務編排(AI 探路 → 腳本執行的兩段式)
  • ✅ 審核機制(在哪些動作前必須 stop 等用戶確認)

這一時代,prompt 是工程——你在搭一套"AI 能進入並完成任務的世界",不是在"搖一個咒語讓 AI 聽話"。

絕大多數人的提示詞水平,還卡在時代 2——一邊把"你是 XX 專家"掛在嘴邊,一邊抱怨"AI 輸出怎麼這麼平庸"。

圖片

04. 哪些技巧還有用 · 哪些過期了 · 一張表說清楚

把過去 3 年傳得最廣的提示詞技巧,按 2026 年 5 月 Claude Opus 4 / GPT-5.5 的實際表現,分成"還有用 / 半過期 / 徹底過期"3 檔:

✅ 還有用(2026 年仍然提升輸出質量)

技巧
原因
具體任務約束
(字數/格式/排除項)
減少模型的"自由發揮",直接框死交付物
完整上下文
(文件/歷史/約束/反例)
讓模型在"你的具體情境"裏推理,而不是訓練數據均值
反饋循環
(/insights、self-eval)
把模型從"開盲盒"變成"可觀測系統"
思維鏈
(對複雜推理任務)
在數學/邏輯/多步規劃上仍顯著 +準確率
反向提問
(讓 AI 反問你)
提取你腦子裏的隱性需求,避免 AI 猜錯

🟡 半過期(只對特定任務還有效)

技巧
怎麼變
few-shot 示例
1 個高質量示例 ≥ 5 個普通示例;長 few-shot 占上下文不值得
"一步一步思考"
GPT-5.x / Claude 4.7 已默認 thinking,只在小模型上有效
角色風格扮演
("假設你是禪師")
用於風格定調有效,用於"專家級"無效

❌ 已經過期(2026 年加了等於浪費)

技巧
為什麼過期
"你是 XX 領域 20 年專家"
模型默認按專家級在跑,加了純冗餘
"請仔細思考"/"認真回答"
模型已經"認真",這句話信息量為 0
"你是一個有幫助的 AI 助手"
廢話,系統 prompt 裏已經包含
大段角色背景設定
占上下文預算,模型 generalize 能力夠強,無需細節
過度禮貌
("請你幫我看看...謝謝")
不增加質量,只增加 token 消耗

讓我打個直觀的算賬:

一條典型的"老派"提示詞:

你是一位有 20 年經驗的資深產品經理,曾在 Google、Facebook、字節跳動工作過,擅長 0 到 1 的產品設計,特別精通 B 端 SaaS 產品。請你認真思考,一步一步分析,然後給我寫一份產品需求文檔,主題是【AI 筆記產品】。

這條 prompt 裏至少 60% 的字符是冗餘——專家身份 + 公司背景 + 擅長領域 + "認真思考"——全部可以刪掉。

改成 2026 年版本:

寫一份 AI 筆記產品的需求文檔。目標用戶:1 人公司創業者。核心場景:AI 自動從他這周的工作日誌裏提取 3 個未決議題。約束:不做向量檢索 / 不做多設備同步 / MVP 1 周內可上線。輸出:1500 字 / 包含用戶故事 + 功能清單 + 非功能要求 + 反例(明確不做什麼)。

第二條短了 40%,但輸出質量會顯著高——因為它把"專家身份"那 60% 的字符讓給了具體場景 + 真實約束 + 輸出反例

提示詞工程下半場,每個 token 都要為"具體性"服務,不為"姿態"服務

圖片

05. 那下半場拼什麼 · 4 件事讓你不掉隊

如果"咒語時代"已經過去,下半場到底在拼什麼?

我自己過去 6 個月在實戰中沉澱下來,有 4 件事一定要做的:

🎯 件事 1:上下文工程(Context Engineering)

不是"給 AI 幾句話",是搭建一個 AI 能進入並完成任務的世界

具體動作:

  • 把 AI 要用到的所有相關文件塞進上下文(Claude Code 直接讀整個倉庫就是這個邏輯)
  • 歷史對話/決策記錄塞進 system prompt
  • 真實的約束(deadline / budget / 不可改的事實)塞進任務說明
  • 反例(明確不要做什麼)

Claude Code 之所以最近半年突然流行——核心不是模型變強,是它把"上下文工程"這件事變得幾乎零成本(直接讀你的文件系統)。

🎯 件事 2:反饋循環(Feedback Loops)

不要把 AI 當成"開盲盒",要把它當成"可觀測系統"。

具體動作:

  • 跑 /insights
     看你過去一週怎麼用 AI(雪踏烏雲的命令,實測能扒出你真實使用模式)
  • 讓 AI 自評分(寫完一篇文章讓它按 6 維度打分:反共識 / 真東西 / 暗線 / 字數 / 自誇 / 黑名單)
  • 跟 ground truth 對照
    (寫代碼的話,跑測試就是反饋)
  • Boris Cherny 幾十個 cron Loop
     模式——AI 做完,自動跑一個 check,失敗就再讓 AI 修

🎯 件事 3:任務編排(Task Orchestration)

"AI 負責發現,腳本負責重複"——這是 2026 年頂級用戶的共識。

具體動作:

  • 讓 AI 第一次跑通一個流程(它"探路")
  • 把跑通的流程固化成 skill / 腳本 / SOP
  • 之後只在未知場景才調 AI,已知場景用腳本/skill 重放
  • 用 cron / launchd 起最簡單的"每天掃一次"Loop

伊娜分享 ClaudeCode 內容創作的 8 層閉環(信息蒐集→拆解→素材庫→選題→創作→剪輯→分發→覆盤)——核心就是"AI 探路 + 腳本執行"的二分法。

不是每一步都讓 AI 重新識別,而是一次讓 AI 想清楚,之後讓腳本重複

🎯 件事 4:反向提問(Reverse PRD / 讓 AI 反問你)

下半場最反共識的一招——

不是你給 AI 寫 prompt,是讓 AI 反過來問你

具體動作:

  • 起手第一句:"在你回答之前,先問我 5 個澄清問題。"
  • AI 會反過來挖你腦子裏的隱性需求
  • 你回答完,AI 再給你寫 PRD / 方案 / 內容
  • 這一招在"你自己也沒想清楚要什麼"的場景裏,質量提升 200%

我自己的"反推 PRD 提示詞"就是這套——已經替我寫了至少 80 份方案,遠比"你是 XX 專家"那套有效

圖片

06. 我自己的實戰數據 · 刪完"你是 XX 專家"之後發生了什麼

為了不讓這篇變成紙上談兵,這是我 5 月 8 日做的一次實測:

我打開了過去半年保存的 40+ 條 prompt 模板(在 vault 🐟內容工廠開發/文字/公眾號提示詞庫/ 裏),其中 28 條第一句還是"你是 XX 領域 20 年專家"

我把這 28 條全部改寫——

  • ❌ 刪掉"你是 XX 專家"
  • ✅ 換成"以下是我此刻的具體情境:[場景描述]"
  • ✅ 加上"在你開始之前先問我 3-5 個澄清問題"(對複雜任務)
  • ✅ 加上"輸出後給我一段自評分:反共識 / 真東西 / 暗線 / 字數 / 自誇 / 黑名單各 1-10 分"

改完之後跑了一週,實測對比:

維度
舊版本 prompt
新版本 prompt
輸出字符長度
≈ 等長
≈ 等長
輸出貼合度
(貼我具體場景)
⭐⭐⭐
⭐⭐⭐⭐⭐
輸出獨特性
(避開均值)
⭐⭐
⭐⭐⭐⭐
首版可用率
(不用大改的)
30%
70%
Token 消耗
-5%

結論非常清楚:刪掉"專家咒語"之後,質量反而提升,token 還省了 5%

省下來的那 5% token,我塞進了: - 具體場景描述(我的項目 / 我的讀者畫像 / 我的暗線串聯) - 反共識座標(不要順着主流寫,從反面切入) - 反例(具體寫明不要做什麼)

這才是 2026 年提示詞工程該用的方式


07. 今天就做的 3 個動作 · 5 分鐘之內見效

如果你看完這篇打算試一試,3 個動作可以立刻見效:

🚀 動作 1:打開你最近的長 prompt,刪掉"你是 XX 專家"

  • 找到你保存的 1-2 條 prompt(平時幫你幹活的那種)
  • 刪掉"你是 20 年/資深/專家"那一句
  • 在原位置補上"我現在的具體情境是 [一句話場景描述]"
  • 跑一次同樣的任務對比

🚀 動作 2:在 prompt 末尾加 "反問 + 自評"兩件事

  • 末尾加:"在你開始之前,先問我 3-5 個澄清問題,然後再給最終答案。"
  • 答案出來後再加:"給我一段自評分,1-10 打:[你關心的 3-5 個維度]。"
  • 這兩件事讓 AI 從"開盲盒"變"可觀測系統"

🚀 動作 3:跑一次 /insights 看你真實使用模式

  • Claude Code 用戶:在 CLI 跑 /insights(雪踏烏雲的命令,有第三方版本)
  • ChatGPT 用戶:讓 ChatGPT 拉你的"過去 30 天對話",統計你 prompt 裏出現最多的 10 個關鍵詞
  • 看到結果會很有用——你以為自己怎麼用 AI,跟你真實怎麼用 AI,通常差異巨大

08. 收尾 · 全球 84% 沒用 AI / 0.3% 付費 · 這件事的真正含義

最後想引一段 Kimi 總裁張予彤 5 月 15 日在北大光華論壇說的話——

全球 84% 的人口 還沒有使用過任何 AI 工具。在用過的人裏,只有 0.3% 在付費。智能規模化尚處早期

很多人看到這個數字會想:啊,AI 還沒起飛,我趕緊追

我看到這個數字想到的是另一件事:

這是一個超級早期的市場——但早期不等於亂玩

3 年前你不學"角色設定 / 思維鏈 / few-shot",可能錯過一波紅利。

2026 年你還在寫"你是 XX 領域 20 年專家",已經在浪費你的 token 預算 + 你自己的時間預算

下半場拼的是 4 件事——上下文工程 / 反饋循環 / 任務編排 / 反向提問

這 4 件事不是新名詞,是把上半場你以為重要的事情(咒語)替換成下半場真正重要的事情(工程)

下次你打開 AI 寫 prompt 時,多問自己一句:

我現在敲的這些字——是在告訴 AI 它是誰(過期了)?還是在告訴 AI 我現在的具體情境是什麼(2026 年真正有效的)?

這個問題想清楚了——你就跨過了提示詞工程的下半場門檻。