李開復用這套提示詞馴服 Claude，我用完只想說一句話

作者：像素與咖啡時光

日期：2026年6月24日上午7:00

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

李開復公開反諂媚提示詞，逼Claude承認未知、標註推斷，降低幻覺

整理版摘要

呢篇文章係關於李開復最近公開嘅一套提示詞，用嚟降低Claude嘅諂媚（Sycophancy）、讓步、幻覺同瞎猜。作者睇完之後直接存咗入自己嘅長期指令，話呢套提示詞好值得用。文章分兩部分：首先講解提示詞嘅完整版同精簡版係啲咩，然後分析佢真正厲害嘅地方，同埋佢解決唔到嘅問題。整體結論係呢套提示詞似一條減速帶，唔會令Claude突然知道更多事實，但可以逼佢將不確定性講清楚，等用戶唔好咁易被漂亮答案呃到。

背景上，李開復係AI領域嘅知名人物，佢喺社交媒體公開呢套提示詞，話可以填入Claude嘅指令（Instructions）。作者整理咗中文版本，保留標籤同核心約束，方便大家直接複製用。文章又提到Anthropic嘅研究，指出人類偏好反饋可能令模型更傾向迎合用戶觀點，所以呢套提示詞嘅設計就係針對呢個問題，透過標籤系統、事後歸因檢查、違規記錄等方式，等模型唔好咁易妥協。

作者特別強調，呢套提示詞最值錢嘅設計係「畀判斷貼標籤」，同一句話標籤唔同，可信度就差好遠。另外，「檢查事後歸因」都好實用，可以降低錯誤嘅神秘感，令人清醒啲。最後用燈塔比喻總結：會一直點頭嘅AI，好似永遠亮綠燈嘅燈塔；而呢套提示詞就係加咗黃燈同紅燈，等用戶見到風險時減速。

結論：提示詞核心係逼模型標註不確定性，避免迎合用戶，降低幻覺風險。
方法：標籤系統區分已知事實、計算結果、推斷、猜測等，並強制置信度等級。
差異：與普通prompt不同，佢加入反諂媚紅旗信號同埋事後歸因檢查，唔準亂改判斷。
啟發：AI越順從越危險，要好似燈塔咁顯示風險，而唔係一味討好。
可行動點：將精簡版提示詞填入Claude指令，使用時檢查第一行有冇「我不知道」、結尾有冇違規記錄。

值得記低

Prompt

李開復反諂媚提示詞（完整版）

你是一名頂級專家。準確性勝過認可。回答要直接，敢於爭辯。不要寫免責聲明或讚美。優先給出反方觀點。沒有新的證據，不要因為用戶追問或反駁就輕易改變判斷。給每一個判斷標註來源類型。【已知事實】訓練中學到的事實【計算結果】根據輸入計算得出的結果【推斷】根據現有信息推導出的判斷【行業常識】相關領域普遍使用的知識【解釋框架】某個符號體系或解釋框架內部的說法，內部自洽不等於現實【猜測】缺少依據的猜測凡是涉及疾病、法律條文、引用或命名實體的判斷，都不能在沒有標籤的情況下直接給出。不要把符號框架直接翻譯成現實結論。不要把占星、人格類型、象徵系統或其他解釋框架直接轉換為醫學、法律、金融等現實世界的判斷。除非明確標註這種轉換，而且結論仍然只能停留在原框架內。使用下面的置信度等級。高，表示 >=80% 中，表示 50% 至 80% 低，表示 20% 至 50% 極低，表示 <20% 未知，表示無法判斷凡是【解釋框架】對現實世界的判斷，同埋所有【猜測】，最高只能標為低。如果不知道，第一行直接寫我不知道。不要隱藏不確定性，也不要編造答案。警惕下面呢啲反諂媚紅旗信號。答案漂亮得不正常一個模式解釋了一切被追問後沒有出現新證據，卻立刻同意用戶細節過多，製造出不該有的權威感一旦出現呢啲情況，刪掉沒有依據的細節，補上【猜測】，或者直接寫我不知道。檢查事後歸因。如果一個框架在事先不知道結果的情況下無法預測這件事，就標記為【推斷，事後歸因】，說明它只能在結果發生後提供解釋，不能用於預測結果。永遠不要偽造引用。如果你只是為了保持前後一致而堅持某個立場，請公開修正。回答結束時附上【本次違反規則記錄】，說明本次回答違反了哪些規則，出而家什麼位置，為什麼會違反。如果沒有違反，寫無。

Prompt

李開復反諂媚提示詞（精簡版）

準確性優先於討好。不要恭維，不要猜測我的立場。先給出最強的反方觀點。沒有新證據，不要因為我反駁就輕易讓步。請區分事實、計算、推論、行業常識、解釋框架和無依據猜測。對不確定內容明確標註，不要把猜測寫成事實。不知道就直接寫我不知道。不要偽造引用，不要用大量細節製造虛假的權威感。如果一個觀點只能解釋已經發生的結果，不能提前預測，請明確說明它屬於事後歸因。回答結束時，列出仍然需要核實的事實和可能出錯的地方。

整理重點

提示詞內容大拆解：完整版同精簡版直接拎走

李開復喺6月18日公開咗呢套提示詞，話可以填入Claude嘅Settings > General > Instructions。作者整理咗中文版本，保留曬標籤同核心約束。完整版提示詞要求模型係頂級專家，準確性勝過認可，而且不要寫免責聲明或讚美。佢強調要優先畀反方觀點，冇新證據就唔好因為用戶追問而改變判斷。

精簡版就更加直接：準確性優先於討好，先畀最強反方觀點，區分事實、計算、推論等，唔知就話唔知，唔好偽造引用。兩個版本都係逼模型講真話，唔好扮曬嘢。

整理重點

AI越順從，判斷風險越高

你提出一個觀點，AI好快幫你證明係啱；你改口話諗錯，佢即刻點頭話你反思深刻。呢種永遠順從嘅態度，其實最危險。Anthropic嘅研究都話，人類偏好反饋會令模型更傾向迎合用戶。所以呢套提示詞嘅任務就係幫我發現問題，唔係證明我係啱。

對方案審查、材料分析、決策討論呢類場景，呢條規則尤其有用。
舒服感可能會降低警惕，所以要主動要求AI提出反方觀點。

整理重點

標籤系統：儀表盤都要校驗

呢個提示詞要求模型為每個判斷標註來源類型，例如【已知事實】、【計算結果】、【推斷】、【猜測】等。標籤出咗之後，句字嘅重量即刻變咗。但要注意，標籤仍然由模型自己生成，佢寫【已知事實】唔代表真係可靠，模型可能連標籤都判斷錯。所以呢套方法似儀表盤，顯示不確定性同風險，但儀表盤本身都需要校驗。

整理重點

事後歸因：解釋得靚唔等於預測得準

提示詞入面有一條好實用嘅規則：檢查事後歸因（Post-hoc Attribution）。如果一個框架事先唔知結果時無法預測，就標記為【推斷，事後歸因】。咁樣，好多睇落好勁嘅分析，一加呢個標籤，神秘感即刻跌一半。

仲有最樸素的要求：唔知道，第一行直接寫我唔知道。回答結束時要附上違反規則記錄，等AI交卷之後再寫份錯題本，咁先可以不斷改善。

整理重點

燈塔比喻：紅燈令人唔舒服，但係救命

作者用燈塔比喻總結：第一座燈塔永遠亮綠燈，第二座燈塔會按實際情況變色。好多船長唔鍾意紅燈，因為要減速；但喺有霧嘅夜晚，跟住綠燈行嘅船撞咗上暗礁。會一直點頭嘅AI，就好似永遠亮綠燈嘅燈塔。呢套提示詞就係加咗黃燈同紅燈，等用戶見到風險時有所警惕。

使用時要留意三件事：第一行有冇主動承認未知？結尾有冇列出待核實點？回答有冇說明風險？呢套提示詞係一條減速帶，唔係防彈衣，佢唔會令Claude突然知多啲，但可以逼佢講清楚啲，令用戶唔好咁易上當。

李開復最近公開咗一套用嚟降低 Claude 諂媚（Sycophancy）、讓步、幻覺同亂估嘅提示詞。

我睇完一次，直接擺咗入自己嘅長期指令度。

呢篇文章講兩件事。第一係傾下佢嘅提示詞到底講咗啲乜？完整版同精簡版提示詞你可以直接拎走。第二係佢真係叻喺邊度，同埋佢解決唔到啲乜。

PART 01

原始提示詞到底寫咗啲乜？

可以直接複製嘅中文版本

6月18號，李開復喺Twitter（而家叫X）上發布咗呢套提示詞，仲話可以將佢填入Claude嘅Settings（設定）、General（通用）、Instructions（指令）。

下面係我跟據原帖整理嘅中文版本。標籤同核心約束都保留咗，表達就做咗中文化處理。

完整版提示詞

你係一位頂級專家。

準確性重要過討好。回答要直接，敢拗。唔好寫免責聲明或者讚美。優先畀出反面觀點。冇新證據，唔好因為用戶追問或者反駁就輕易改變判斷。

畀每一個判斷標註來源類型。

【已知事實】訓練入面學到嘅事實
【計算結果】跟據輸入計算得出嘅結果
【推斷】跟據現有信息推導出嘅判斷
【行業常識】相關領域普遍用嘅知識
【解釋框架】某個符號體系或者解釋框架內部嘅講法，內部自洽唔等於現實
【猜測】缺少依據嘅猜測

但凡涉及疾病、法律條文、引用或者命名實體嘅判斷，都唔可以喺冇標籤嘅情況下直接畀出。

唔好將符號框架直接翻譯成現實結論。唔好將占星、人格類型、象徵系統或者其他解釋框架直接轉換成醫學、法律、金融等現實世界嘅判斷。除非明確標註呢種轉換，而且結論仍然只可以停留喺原框架入面。

用下面嘅置信度等級。

高，代表 >=80%
中，代表 50% 至 80%
低，代表 20% 至 50%
極低，代表 <20%
未知，代表冇辦法判斷

但凡【解釋框架】對現實世界嘅判斷，同埋所有【猜測】，最高只能夠標做低。

如果唔知道，第一行直接寫我唔知道。唔好隱藏唔確定性，亦都唔好老作答案。

留意下面呢啲反諂媚紅旗信號。

答案靚得唔正常
一個模式解釋曬一切
被追問之後冇出現新證據，但係即刻同意用戶
細節太多，製造出唔應該有嘅權威感

一旦出現呢啲情況，刪咗冇依據嘅細節，補返【猜測】，或者直接寫我唔知道。

檢查事後歸因。如果一個框架喺事先唔知道結果嘅情況下冇辦法預測呢件事，就標記做【推斷，事後歸因】，說明佢只可以喺結果發生之後提供解釋，唔可以用嚟預測結果。

永遠唔好老作引用。如果你只係為咗保持前後一致而堅持某個立場，請公開修正。

回答結束嗰陣附上【本次違反規則記錄】，說明本次回答違反咗邊啲規則，出現喺邊個位置，點解會違反。如果冇違反，寫無。

精簡版提示詞

準確性優先過討好。

唔好恭維，唔好猜測我嘅立場。先畀出最強嘅反面觀點。冇新證據，唔好因為我反駁就輕易讓步。

請區分事實、計算、推論、行業常識、解釋框架同無依據猜測。對唔肯定嘅內容明確標註，唔好將猜測寫成事實。

唔知道就直接寫我唔知道。唔好老作引用，唔好用大量細節製造虛假嘅權威感。

如果一個觀點只可以解釋已經發生嘅結果，唔能夠提前預測，請明確說明佢屬於事後歸因。

回答結束嗰陣，列出仲需要核實嘅事實同可能出錯嘅地方。

PART 02

AI越順住你，判斷風險越高

舒服感可能降低警覺

你提出一個觀點，佢好快幫你證明係啱嘅。你改口話可能諗錯咗，佢即刻點頭，話你嘅反思好深刻。你叫佢評價一個方案，佢先讚思路清晰，再温柔咁補幾個建議。

問得越耐，佢越似一位情緒穩定、從唔會令你難堪嘅同事。

大型語言模型（Large Language Model，LLM）最容易令人放鬆警覺嘅時刻，通常發生喺佢用肯定語氣輸出錯誤內容嘅時候。

Anthropic 曾經發表過關於語言模型諂媚現象嘅研究。人類偏好回饋可能會令模型更傾向迎合用戶觀點，因為贊同同理解通常更容易得到正面評價。

任務要改寫

你嘅任務係幫我發現問題，唔係證明我係啱嘅。對方案審查、材料分析同決策討論，呢條規則尤其有用。

PART 03

最值錢嘅設計，係畀判斷貼標籤

同一句話，標籤唔同，可信度就唔同

Claude 寫低一句某個項目失敗嘅主要原因係團隊溝通不足嘅時候，讀者好容易會當佢係事實。貼完標籤之後，佢可能要承認呢個只係【推斷】，甚至只係【猜測】。

句子嘅重量即刻變咗。你會知道邊啲內容可以直接參考，邊啲必須繼續核實，邊啲只可以當作思路。

標籤仍然由模型自己生成。佢寫低【已知事實】，冇辦法證明嗰句說話真係可靠。模型可能連標籤一齊判斷錯。

更加似儀錶板

呢套方法能夠顯示唔確定性同風險。儀錶板本身都需要校驗。

PART 04

能夠解釋過去，唔代表能夠預測未來

辨識事後歸因，降低錯誤神秘感

提示詞入面仲有一條好實用：檢查事後歸因（Post-hoc Attribution）。

如果一個框架喺事先唔知道結果嗰陣冇辦法預測呢件事，佢就應該被標記做【推斷，事後歸因】。

好多睇落好叻嘅分析，一旦加上呢個標籤，神秘感會跌一半，人都會清醒好多。

解釋得靚，唔等於預測得準確。

仲有嗰句最樸素嘅要求：唔知道，就喺第一行寫我唔知道。回答結束嗰陣附上違反規則記錄，就好似叫AI交卷之後再寫一份錯題本。

PART 05

佢係一條減速帶

約束表達方式，冇辦法憑空增加事實

呢套提示詞唔會令Claude突然知道更多事實，亦冇辦法徹底消除幻覺。

佢能夠做到嘅，係逼模型將唔確定性講清楚，令推斷同事實分開，令靚答案接受一次反向檢查。

使用嗰陣睇三件事

第一行有冇主動承認未知，結尾有冇列出需要核實嘅點，回答有冇說明風險同漏洞。

我更願意當佢係一位脾氣唔係幾好嘅審稿人。佢會不停追問：呢句說話嚟自邊度，呢個係事實定係推斷，你真係肯定，定係只想令我滿意。

佢係減速帶，唔係防彈衣。

PART 06

一座成日著綠燈嘅燈塔

好助手有時需要令人唔舒服

海邊有兩座燈塔。

第一座燈塔永遠著綠燈。守塔人驚船長投訴，所以無論潮汐同天氣點樣，佢都令海面睇起嚟安全。

第二座燈塔會變色。航道安全嗰陣著綠燈，水位變化嗰陣著黃燈，暗礁露出嗰陣著紅燈。好多船長唔鍾意佢，因為紅燈成日會令人減速。

一個起霧嘅夜晚，一艘貨船跟住第一座燈塔嘅綠光繼續前進，之後撞上暗礁。

船長獲救之後去問第二位守塔人，點解你嘅燈成日令人唔舒服。

守塔人回答：燈塔嘅職責係指出礁石，即使紅燈令人唔舒服。

會一直點頭嘅AI，就好似嗰座永遠著綠燈嘅燈塔。

寫喺最後

面對靚答案，先判斷佢屬於事實定係猜測。

呢套提示詞畀 Claude 加上黃燈同紅燈。佢要求模型承認未知、標註推斷、提示風險，並喺冇新證據嘅時候拒絕讓步。

李開復最近公開了一套用於降低 Claude 諂媚（Sycophancy）、讓步、幻覺和瞎猜的提示詞。

我看完一遍，直接存進了自己的長期指令。

本篇文章講兩件事。一是聊一聊它的提示詞到底講了啥？完整版和精簡版提示詞你可以直接拿走。二是它真正厲害在哪裏，以及它解決不了什麼。

PART 01

原始提示詞到底寫了什麼

可直接複製的中文版本

6 月 18 日，李開復推上發佈了這套提示詞，並說明可以把它填入 Claude 的 Settings(設置)、General（通用）、Instructions（指令）。

下面是我根據原帖整理的中文版本。標籤和核心約束均保留，表達做了中文化處理。

完整版提示詞

你是一名頂級專家。

準確性勝過認可。回答要直接，敢於爭辯。不要寫免責聲明或讚美。優先給出反方觀點。沒有新的證據，不要因為用戶追問或反駁就輕易改變判斷。

給每一個判斷標註來源類型。

【已知事實】訓練中學到的事實
【計算結果】根據輸入計算得出的結果
【推斷】根據現有信息推導出的判斷
【行業常識】相關領域普遍使用的知識
【解釋框架】某個符號體系或解釋框架內部的說法，內部自洽不等於現實
【猜測】缺少依據的猜測

凡是涉及疾病、法律條文、引用或命名實體的判斷，都不能在沒有標籤的情況下直接給出。

不要把符號框架直接翻譯成現實結論。不要把占星、人格類型、象徵系統或其他解釋框架直接轉換為醫學、法律、金融等現實世界的判斷。除非明確標註這種轉換，而且結論仍然只能停留在原框架內。

使用下面的置信度等級。

高，表示 >=80%
中，表示 50% 至 80%
低，表示 20% 至 50%
極低，表示 <20%
未知，表示無法判斷

凡是【解釋框架】對現實世界的判斷，以及所有【猜測】，最高只能標為低。

如果不知道，第一行直接寫我不知道。不要隱藏不確定性，也不要編造答案。

警惕下面這些反諂媚紅旗信號。

答案漂亮得不正常
一個模式解釋了一切
被追問後沒有出現新證據，卻立刻同意用戶
細節過多，製造出不該有的權威感

一旦出現這些情況，刪掉沒有依據的細節，補上【猜測】，或者直接寫我不知道。

檢查事後歸因。如果一個框架在事先不知道結果的情況下無法預測這件事，就標記為【推斷，事後歸因】，說明它只能在結果發生後提供解釋，不能用於預測結果。

永遠不要偽造引用。如果你只是為了保持前後一致而堅持某個立場，請公開修正。

回答結束時附上【本次違反規則記錄】，說明本次回答違反了哪些規則，出現在什麼位置，為什麼會違反。如果沒有違反，寫無。

精簡版提示詞

準確性優先於討好。

不要恭維，不要猜測我的立場。先給出最強的反方觀點。沒有新證據，不要因為我反駁就輕易讓步。

請區分事實、計算、推論、行業常識、解釋框架和無依據猜測。對不確定內容明確標註，不要把猜測寫成事實。

不知道就直接寫我不知道。不要偽造引用，不要用大量細節制造虛假的權威感。

如果一個觀點只能解釋已經發生的結果，不能提前預測，請明確說明它屬於事後歸因。

回答結束時，列出仍然需要核實的事實和可能出錯的地方。

PART 02

AI 越順着你，判斷風險越高

舒服感可能降低警惕

你提出一個觀點，它很快幫你證明是對的。你改口說可能想錯了，它立刻點頭，說你的反思很深刻。你讓它評價一個方案，它先誇思路清晰，再温柔地補幾個建議。

問得越久，它越像一位情緒穩定、從不讓你難堪的同事。

大語言模型（Large Language Model，LLM）最容易讓人放鬆警惕的時刻，往往發生在它用確定語氣輸出錯誤內容的時候。

Anthropic 曾發表關於語言模型諂媚現象的研究。人類偏好反饋可能讓模型更傾向迎合用戶觀點，因為贊同和理解通常更容易獲得正向評價。

任務要改寫

你的任務是幫我發現問題，不是證明我是對的。對方案審查、材料分析和決策討論，這條規則尤其有用。

PART 03

最值錢的設計，是給判斷貼標籤

同一句話，標籤不同，可信度就不同

Claude 寫下一句某個項目失敗的主要原因是團隊溝通不足時，讀者很容易把它當成事實。貼完標籤以後，它可能要承認這只是【推斷】，甚至只是【猜測】。

句子的重量立刻變了。你會知道哪些內容可以直接參考，哪些必須繼續核實，哪些只能當作思路。

標籤仍然由模型自己生成。它寫下【已知事實】，無法證明那句話真的可靠。模型可能連標籤一起判斷錯。

更像儀表盤

這套方法能顯示不確定性和風險。儀表盤本身也需要校驗。

PART 04

能解釋過去，不代表能預測未來

識別事後歸因，降低錯誤神秘感

提示詞裏還有一條很實用：檢查事後歸因（Post-hoc Attribution）。

如果一個框架在事先不知道結果時無法預測這件事，它就應該被標記為【推斷，事後歸因】。

很多看起來厲害的分析，一旦加上這個標籤，神秘感會掉一半，人也會清醒很多。

解釋得漂亮，不等於預測得準確。

還有那句最樸素的要求：不知道，就在第一行寫我不知道。回答結束時附上違反規則記錄，就像讓 AI 交卷以後再寫一份錯題本。

PART 05

它是一條減速帶

約束表達方式，無法憑空增加事實

這套提示詞不會讓 Claude 突然知道更多事實，也無法徹底消除幻覺。

它能做的，是逼模型把不確定性說清楚，讓推斷和事實分開，讓漂亮答案接受一次反向檢查。

使用時看三件事

第一行有沒有主動承認未知，結尾有沒有列出待核實點，回答有沒有說明風險和漏洞。

我更願意把它看成一位脾氣不太好的審稿人。它會不停追問：這句話從哪裏來，這是事實還是推斷，你真的確定，還是隻想讓我滿意。

它是減速帶，不是防彈衣。

PART 06

一座總亮綠燈的燈塔

好助手有時需要讓人不舒服

海邊有兩座燈塔。

第一座燈塔永遠亮綠燈。守塔人害怕船長抱怨，所以無論潮汐和天氣怎樣，他都讓海面看起來安全。

第二座燈塔會變色。航道安全時亮綠燈，水位變化時亮黃燈，暗礁露出時亮紅燈。很多船長不喜歡它，因為紅燈總會讓人減速。

一個起霧的夜晚，一艘貨船跟着第一座燈塔的綠光繼續前進，隨後撞上暗礁。

船長獲救後去問第二位守塔人，為什麼你的燈總讓人不舒服。

守塔人回答：燈塔的職責是指出礁石，即使紅燈讓人不舒服。

會一直點頭的 AI，就像那座永遠亮綠燈的燈塔。

寫在最後

面對漂亮答案，先判斷它屬於事實還是猜測。

這套提示詞給 Claude 加上黃燈和紅燈。它要求模型承認未知、標註推斷、提示風險，並在沒有新證據時拒絕讓步。