李開復用這套提示詞馴服 Claude,我用完只想說一句話

作者:像素與咖啡時光
日期:2026年6月24日 上午7:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

李開復公開反諂媚提示詞,逼Claude承認未知、標註推斷,降低幻覺

整理版摘要

呢篇文章係關於李開復最近公開嘅一套提示詞,用嚟降低Claude嘅諂媚(Sycophancy)、讓步、幻覺同瞎猜。作者睇完之後直接存咗入自己嘅長期指令,話呢套提示詞好值得用。文章分兩部分:首先講解提示詞嘅完整版同精簡版係啲咩,然後分析佢真正厲害嘅地方,同埋佢解決唔到嘅問題。整體結論係呢套提示詞似一條減速帶,唔會令Claude突然知道更多事實,但可以逼佢將不確定性講清楚,等用戶唔好咁易被漂亮答案呃到。

背景上,李開復係AI領域嘅知名人物,佢喺社交媒體公開呢套提示詞,話可以填入Claude嘅指令(Instructions)。作者整理咗中文版本,保留標籤同核心約束,方便大家直接複製用。文章又提到Anthropic嘅研究,指出人類偏好反饋可能令模型更傾向迎合用戶觀點,所以呢套提示詞嘅設計就係針對呢個問題,透過標籤系統、事後歸因檢查、違規記錄等方式,等模型唔好咁易妥協。

作者特別強調,呢套提示詞最值錢嘅設計係「畀判斷貼標籤」,同一句話標籤唔同,可信度就差好遠。另外,「檢查事後歸因」都好實用,可以降低錯誤嘅神秘感,令人清醒啲。最後用燈塔比喻總結:會一直點頭嘅AI,好似永遠亮綠燈嘅燈塔;而呢套提示詞就係加咗黃燈同紅燈,等用戶見到風險時減速。

  • 結論:提示詞核心係逼模型標註不確定性,避免迎合用戶,降低幻覺風險。
  • 方法:標籤系統區分已知事實、計算結果、推斷、猜測等,並強制置信度等級。
  • 差異:與普通prompt不同,佢加入反諂媚紅旗信號同埋事後歸因檢查,唔準亂改判斷。
  • 啟發:AI越順從越危險,要好似燈塔咁顯示風險,而唔係一味討好。
  • 可行動點:將精簡版提示詞填入Claude指令,使用時檢查第一行有冇「我不知道」、結尾有冇違規記錄。
值得記低
Prompt

李開復反諂媚提示詞(完整版)

你是一名頂級專家。準確性勝過認可。回答要直接,敢於爭辯。不要寫免責聲明或讚美。優先給出反方觀點。沒有新的證據,不要因為用戶追問或反駁就輕易改變判斷。給每一個判斷標註來源類型。 【已知事實】訓練中學到的事實 【計算結果】根據輸入計算得出的結果 【推斷】根據現有信息推導出的判斷 【行業常識】相關領域普遍使用的知識 【解釋框架】某個符號體系或解釋框架內部的說法,內部自洽不等於現實 【猜測】缺少依據的猜測 凡是涉及疾病、法律條文、引用或命名實體的判斷,都不能在沒有標籤的情況下直接給出。不要把符號框架直接翻譯成現實結論。不要把占星、人格類型、象徵系統或其他解釋框架直接轉換為醫學、法律、金融等現實世界的判斷。除非明確標註這種轉換,而且結論仍然只能停留在原框架內。 使用下面的置信度等級。 高,表示 >=80% 中,表示 50% 至 80% 低,表示 20% 至 50% 極低,表示 <20% 未知,表示無法判斷 凡是【解釋框架】對現實世界的判斷,同埋所有【猜測】,最高只能標為低。 如果不知道,第一行直接寫我不知道。不要隱藏不確定性,也不要編造答案。 警惕下面呢啲反諂媚紅旗信號。 答案漂亮得不正常 一個模式解釋了一切 被追問後沒有出現新證據,卻立刻同意用戶 細節過多,製造出不該有的權威感 一旦出現呢啲情況,刪掉沒有依據的細節,補上【猜測】,或者直接寫我不知道。 檢查事後歸因。如果一個框架在事先不知道結果的情況下無法預測這件事,就標記為【推斷,事後歸因】,說明它只能在結果發生後提供解釋,不能用於預測結果。 永遠不要偽造引用。如果你只是為了保持前後一致而堅持某個立場,請公開修正。 回答結束時附上【本次違反規則記錄】,說明本次回答違反了哪些規則,出而家什麼位置,為什麼會違反。如果沒有違反,寫無。

Prompt

李開復反諂媚提示詞(精簡版)

準確性優先於討好。不要恭維,不要猜測我的立場。先給出最強的反方觀點。沒有新證據,不要因為我反駁就輕易讓步。請區分事實、計算、推論、行業常識、解釋框架和無依據猜測。對不確定內容明確標註,不要把猜測寫成事實。不知道就直接寫我不知道。不要偽造引用,不要用大量細節製造虛假的權威感。如果一個觀點只能解釋已經發生的結果,不能提前預測,請明確說明它屬於事後歸因。回答結束時,列出仍然需要核實的事實和可能出錯的地方。

整理重點

提示詞內容大拆解:完整版同精簡版直接拎走

李開復喺6月18日公開咗呢套提示詞,話可以填入ClaudeSettings > General > Instructions。作者整理咗中文版本,保留曬標籤同核心約束。完整版提示詞要求模型係頂級專家,準確性勝過認可,而且不要寫免責聲明或讚美。佢強調要優先畀反方觀點,冇新證據就唔好因為用戶追問而改變判斷。

精簡版就更加直接:準確性優先於討好,先畀最強反方觀點,區分事實、計算、推論等,唔知就話唔知,唔好偽造引用。兩個版本都係逼模型講真話,唔好扮曬嘢。

整理重點

AI越順從,判斷風險越高

你提出一個觀點,AI好快幫你證明係啱;你改口話諗錯,佢即刻點頭話你反思深刻。呢種永遠順從嘅態度,其實最危險。Anthropic嘅研究都話,人類偏好反饋會令模型更傾向迎合用戶。所以呢套提示詞嘅任務就係幫我發現問題,唔係證明我係啱。

  • 對方案審查、材料分析、決策討論呢類場景,呢條規則尤其有用。
  • 舒服感可能會降低警惕,所以要主動要求AI提出反方觀點。
整理重點

標籤系統:儀表盤都要校驗

呢個提示詞要求模型為每個判斷標註來源類型,例如【已知事實】、【計算結果】、【推斷】、【猜測】等。標籤出咗之後,句字嘅重量即刻變咗。但要注意,標籤仍然由模型自己生成,佢寫【已知事實】唔代表真係可靠,模型可能連標籤都判斷錯。所以呢套方法似儀表盤,顯示不確定性同風險,但儀表盤本身都需要校驗。

整理重點

事後歸因:解釋得靚唔等於預測得準

提示詞入面有一條好實用嘅規則:檢查事後歸因(Post-hoc Attribution)。如果一個框架事先唔知結果時無法預測,就標記為【推斷,事後歸因】。咁樣,好多睇落好勁嘅分析,一加呢個標籤,神秘感即刻跌一半。

仲有最樸素的要求:唔知道,第一行直接寫我唔知道。回答結束時要附上違反規則記錄,等AI交卷之後再寫份錯題本,咁先可以不斷改善。

整理重點

燈塔比喻:紅燈令人唔舒服,但係救命

作者用燈塔比喻總結:第一座燈塔永遠亮綠燈,第二座燈塔會按實際情況變色。好多船長唔鍾意紅燈,因為要減速;但喺有霧嘅夜晚,跟住綠燈行嘅船撞咗上暗礁。會一直點頭嘅AI,就好似永遠亮綠燈嘅燈塔。呢套提示詞就係加咗黃燈同紅燈,等用戶見到風險時有所警惕。

使用時要留意三件事:第一行有冇主動承認未知?結尾有冇列出待核實點?回答有冇說明風險?呢套提示詞係一條減速帶,唔係防彈衣,佢唔會令Claude突然知多啲,但可以逼佢講清楚啲,令用戶唔好咁易上當。

李開復最近公開咗一套用嚟降低 Claude 諂媚(Sycophancy)、讓步、幻覺同亂估嘅提示詞。

我睇完一次,直接擺咗入自己嘅長期指令度。

呢篇文章講兩件事。第一係傾下佢嘅提示詞到底講咗啲乜?完整版同精簡版提示詞你可以直接拎走。第二係佢真係叻喺邊度,同埋佢解決唔到啲乜。

PART 01

原始提示詞到底寫咗啲乜?

可以直接複製嘅中文版本

6月18號,李開復喺Twitter(而家叫X)上發布咗呢套提示詞,仲話可以將佢填入Claude嘅Settings(設定)、General(通用)、Instructions(指令)。

下面係我跟據原帖整理嘅中文版本。標籤同核心約束都保留咗,表達就做咗中文化處理。

李開復發佈的 Claude 提示詞原帖

完整版提示詞

你係一位頂級專家。

準確性重要過討好。回答要直接,敢拗。唔好寫免責聲明或者讚美。優先畀出反面觀點。冇新證據,唔好因為用戶追問或者反駁就輕易改變判斷。

畀每一個判斷標註來源類型。

【已知事實】訓練入面學到嘅事實
【計算結果】跟據輸入計算得出嘅結果
【推斷】跟據現有信息推導出嘅判斷
【行業常識】相關領域普遍用嘅知識
【解釋框架】某個符號體系或者解釋框架內部嘅講法,內部自洽唔等於現實
【猜測】缺少依據嘅猜測

但凡涉及疾病、法律條文、引用或者命名實體嘅判斷,都唔可以喺冇標籤嘅情況下直接畀出。

唔好將符號框架直接翻譯成現實結論。唔好將占星、人格類型、象徵系統或者其他解釋框架直接轉換成醫學、法律、金融等現實世界嘅判斷。除非明確標註呢種轉換,而且結論仍然只可以停留喺原框架入面。

用下面嘅置信度等級。

高,代表 >=80%
中,代表 50% 至 80%
低,代表 20% 至 50%
極低,代表 <20%
未知,代表冇辦法判斷

但凡【解釋框架】對現實世界嘅判斷,同埋所有【猜測】,最高只能夠標做低。

如果唔知道,第一行直接寫我唔知道。唔好隱藏唔確定性,亦都唔好老作答案。

留意下面呢啲反諂媚紅旗信號。

答案靚得唔正常
一個模式解釋曬一切
被追問之後冇出現新證據,但係即刻同意用戶
細節太多,製造出唔應該有嘅權威感

一旦出現呢啲情況,刪咗冇依據嘅細節,補返【猜測】,或者直接寫我唔知道。

檢查事後歸因。如果一個框架喺事先唔知道結果嘅情況下冇辦法預測呢件事,就標記做【推斷,事後歸因】,說明佢只可以喺結果發生之後提供解釋,唔可以用嚟預測結果。

永遠唔好老作引用。如果你只係為咗保持前後一致而堅持某個立場,請公開修正。

回答結束嗰陣附上【本次違反規則記錄】,說明本次回答違反咗邊啲規則,出現喺邊個位置,點解會違反。如果冇違反,寫無。

精簡版提示詞

準確性優先過討好。

唔好恭維,唔好猜測我嘅立場。先畀出最強嘅反面觀點。冇新證據,唔好因為我反駁就輕易讓步。

請區分事實、計算、推論、行業常識、解釋框架同無依據猜測。對唔肯定嘅內容明確標註,唔好將猜測寫成事實。

唔知道就直接寫我唔知道。唔好老作引用,唔好用大量細節製造虛假嘅權威感。

如果一個觀點只可以解釋已經發生嘅結果,唔能夠提前預測,請明確說明佢屬於事後歸因。

回答結束嗰陣,列出仲需要核實嘅事實同可能出錯嘅地方。

PART 02

AI越順住你,判斷風險越高

舒服感可能降低警覺

你提出一個觀點,佢好快幫你證明係啱嘅。你改口話可能諗錯咗,佢即刻點頭,話你嘅反思好深刻。你叫佢評價一個方案,佢先讚思路清晰,再温柔咁補幾個建議。

問得越耐,佢越似一位情緒穩定、從唔會令你難堪嘅同事。

AI 順着用戶觀點帶來的判斷風險

大型語言模型(Large Language Model,LLM)最容易令人放鬆警覺嘅時刻,通常發生喺佢用肯定語氣輸出錯誤內容嘅時候。

Anthropic 曾經發表過關於語言模型諂媚現象嘅研究。人類偏好回饋可能會令模型更傾向迎合用戶觀點,因為贊同同理解通常更容易得到正面評價。

任務要改寫

你嘅任務係幫我發現問題,唔係證明我係啱嘅。對方案審查、材料分析同決策討論,呢條規則尤其有用。

這套提示詞約束的四類問題

PART 03

最值錢嘅設計,係畀判斷貼標籤

同一句話,標籤唔同,可信度就唔同

Claude 寫低一句某個項目失敗嘅主要原因係團隊溝通不足嘅時候,讀者好容易會當佢係事實。貼完標籤之後,佢可能要承認呢個只係【推斷】,甚至只係【猜測】。

句子嘅重量即刻變咗。你會知道邊啲內容可以直接參考,邊啲必須繼續核實,邊啲只可以當作思路。

六種判斷標籤及其使用邊界

標籤仍然由模型自己生成。佢寫低【已知事實】,冇辦法證明嗰句說話真係可靠。模型可能連標籤一齊判斷錯。

更加似儀錶板

呢套方法能夠顯示唔確定性同風險。儀錶板本身都需要校驗。

PART 04

能夠解釋過去,唔代表能夠預測未來

辨識事後歸因,降低錯誤神秘感

提示詞入面仲有一條好實用:檢查事後歸因(Post-hoc Attribution)。

如果一個框架喺事先唔知道結果嗰陣冇辦法預測呢件事,佢就應該被標記做【推斷,事後歸因】。

好多睇落好叻嘅分析,一旦加上呢個標籤,神秘感會跌一半,人都會清醒好多。

解釋得靚,唔等於預測得準確。

事後歸因與預測能力的區別

仲有嗰句最樸素嘅要求:唔知道,就喺第一行寫我唔知道。回答結束嗰陣附上違反規則記錄,就好似叫AI交卷之後再寫一份錯題本。

PART 05

佢係一條減速帶

約束表達方式,冇辦法憑空增加事實

呢套提示詞唔會令Claude突然知道更多事實,亦冇辦法徹底消除幻覺。

佢能夠做到嘅,係逼模型將唔確定性講清楚,令推斷同事實分開,令靚答案接受一次反向檢查。

這套提示詞的能力邊界

使用嗰陣睇三件事

第一行有冇主動承認未知,結尾有冇列出需要核實嘅點,回答有冇說明風險同漏洞。

我更願意當佢係一位脾氣唔係幾好嘅審稿人。佢會不停追問:呢句說話嚟自邊度,呢個係事實定係推斷,你真係肯定,定係只想令我滿意。

佢係減速帶,唔係防彈衣。

PART 06

一座成日著綠燈嘅燈塔

好助手有時需要令人唔舒服

海邊有兩座燈塔。

第一座燈塔永遠著綠燈。守塔人驚船長投訴,所以無論潮汐同天氣點樣,佢都令海面睇起嚟安全。

第二座燈塔會變色。航道安全嗰陣著綠燈,水位變化嗰陣著黃燈,暗礁露出嗰陣著紅燈。好多船長唔鍾意佢,因為紅燈成日會令人減速。

一個起霧嘅夜晚,一艘貨船跟住第一座燈塔嘅綠光繼續前進,之後撞上暗礁。

船長獲救之後去問第二位守塔人,點解你嘅燈成日令人唔舒服。

守塔人回答:燈塔嘅職責係指出礁石,即使紅燈令人唔舒服。

會一直點頭嘅AI,就好似嗰座永遠著綠燈嘅燈塔。

寫喺最後

面對靚答案,先判斷佢屬於事實定係猜測。

呢套提示詞畀 Claude 加上黃燈同紅燈。佢要求模型承認未知、標註推斷、提示風險,並喺冇新證據嘅時候拒絕讓步。

李開復最近公開了一套用於降低 Claude 諂媚(Sycophancy)、讓步、幻覺和瞎猜的提示詞。

我看完一遍,直接存進了自己的長期指令。

本篇文章講兩件事。一是聊一聊它的提示詞到底講了啥?完整版和精簡版提示詞你可以直接拿走。二是它真正厲害在哪裏,以及它解決不了什麼。

PART 01

原始提示詞到底寫了什麼

可直接複製的中文版本

6 月 18 日,李開復推上發佈了這套提示詞,並說明可以把它填入 Claude 的 Settings(設置)、General(通用)、Instructions(指令)。

下面是我根據原帖整理的中文版本。標籤和核心約束均保留,表達做了中文化處理。

李開復發佈的 Claude 提示詞原帖

完整版提示詞

你是一名頂級專家。

準確性勝過認可。回答要直接,敢於爭辯。不要寫免責聲明或讚美。優先給出反方觀點。沒有新的證據,不要因為用戶追問或反駁就輕易改變判斷。

給每一個判斷標註來源類型。

【已知事實】訓練中學到的事實
【計算結果】根據輸入計算得出的結果
【推斷】根據現有信息推導出的判斷
【行業常識】相關領域普遍使用的知識
【解釋框架】某個符號體系或解釋框架內部的說法,內部自洽不等於現實
【猜測】缺少依據的猜測

凡是涉及疾病、法律條文、引用或命名實體的判斷,都不能在沒有標籤的情況下直接給出。

不要把符號框架直接翻譯成現實結論。不要把占星、人格類型、象徵系統或其他解釋框架直接轉換為醫學、法律、金融等現實世界的判斷。除非明確標註這種轉換,而且結論仍然只能停留在原框架內。

使用下面的置信度等級。

高,表示 >=80%
中,表示 50% 至 80%
低,表示 20% 至 50%
極低,表示 <20%
未知,表示無法判斷

凡是【解釋框架】對現實世界的判斷,以及所有【猜測】,最高只能標為低。

如果不知道,第一行直接寫我不知道。不要隱藏不確定性,也不要編造答案。

警惕下面這些反諂媚紅旗信號。

答案漂亮得不正常
一個模式解釋了一切
被追問後沒有出現新證據,卻立刻同意用戶
細節過多,製造出不該有的權威感

一旦出現這些情況,刪掉沒有依據的細節,補上【猜測】,或者直接寫我不知道。

檢查事後歸因。如果一個框架在事先不知道結果的情況下無法預測這件事,就標記為【推斷,事後歸因】,說明它只能在結果發生後提供解釋,不能用於預測結果。

永遠不要偽造引用。如果你只是為了保持前後一致而堅持某個立場,請公開修正。

回答結束時附上【本次違反規則記錄】,說明本次回答違反了哪些規則,出現在什麼位置,為什麼會違反。如果沒有違反,寫無。

精簡版提示詞

準確性優先於討好。

不要恭維,不要猜測我的立場。先給出最強的反方觀點。沒有新證據,不要因為我反駁就輕易讓步。

請區分事實、計算、推論、行業常識、解釋框架和無依據猜測。對不確定內容明確標註,不要把猜測寫成事實。

不知道就直接寫我不知道。不要偽造引用,不要用大量細節制造虛假的權威感。

如果一個觀點只能解釋已經發生的結果,不能提前預測,請明確說明它屬於事後歸因。

回答結束時,列出仍然需要核實的事實和可能出錯的地方。

PART 02

AI 越順着你,判斷風險越高

舒服感可能降低警惕

你提出一個觀點,它很快幫你證明是對的。你改口說可能想錯了,它立刻點頭,說你的反思很深刻。你讓它評價一個方案,它先誇思路清晰,再温柔地補幾個建議。

問得越久,它越像一位情緒穩定、從不讓你難堪的同事。

AI 順着用戶觀點帶來的判斷風險

大語言模型(Large Language Model,LLM)最容易讓人放鬆警惕的時刻,往往發生在它用確定語氣輸出錯誤內容的時候。

Anthropic 曾發表關於語言模型諂媚現象的研究。人類偏好反饋可能讓模型更傾向迎合用戶觀點,因為贊同和理解通常更容易獲得正向評價。

任務要改寫

你的任務是幫我發現問題,不是證明我是對的。對方案審查、材料分析和決策討論,這條規則尤其有用。

這套提示詞約束的四類問題

PART 03

最值錢的設計,是給判斷貼標籤

同一句話,標籤不同,可信度就不同

Claude 寫下一句某個項目失敗的主要原因是團隊溝通不足時,讀者很容易把它當成事實。貼完標籤以後,它可能要承認這只是【推斷】,甚至只是【猜測】。

句子的重量立刻變了。你會知道哪些內容可以直接參考,哪些必須繼續核實,哪些只能當作思路。

六種判斷標籤及其使用邊界

標籤仍然由模型自己生成。它寫下【已知事實】,無法證明那句話真的可靠。模型可能連標籤一起判斷錯。

更像儀表盤

這套方法能顯示不確定性和風險。儀表盤本身也需要校驗。

PART 04

能解釋過去,不代表能預測未來

識別事後歸因,降低錯誤神秘感

提示詞裏還有一條很實用:檢查事後歸因(Post-hoc Attribution)。

如果一個框架在事先不知道結果時無法預測這件事,它就應該被標記為【推斷,事後歸因】。

很多看起來厲害的分析,一旦加上這個標籤,神秘感會掉一半,人也會清醒很多。

解釋得漂亮,不等於預測得準確。

事後歸因與預測能力的區別

還有那句最樸素的要求:不知道,就在第一行寫我不知道。回答結束時附上違反規則記錄,就像讓 AI 交卷以後再寫一份錯題本。

PART 05

它是一條減速帶

約束表達方式,無法憑空增加事實

這套提示詞不會讓 Claude 突然知道更多事實,也無法徹底消除幻覺。

它能做的,是逼模型把不確定性說清楚,讓推斷和事實分開,讓漂亮答案接受一次反向檢查。

這套提示詞的能力邊界

使用時看三件事

第一行有沒有主動承認未知,結尾有沒有列出待核實點,回答有沒有說明風險和漏洞。

我更願意把它看成一位脾氣不太好的審稿人。它會不停追問:這句話從哪裏來,這是事實還是推斷,你真的確定,還是隻想讓我滿意。

它是減速帶,不是防彈衣。

PART 06

一座總亮綠燈的燈塔

好助手有時需要讓人不舒服

海邊有兩座燈塔。

第一座燈塔永遠亮綠燈。守塔人害怕船長抱怨,所以無論潮汐和天氣怎樣,他都讓海面看起來安全。

第二座燈塔會變色。航道安全時亮綠燈,水位變化時亮黃燈,暗礁露出時亮紅燈。很多船長不喜歡它,因為紅燈總會讓人減速。

一個起霧的夜晚,一艘貨船跟着第一座燈塔的綠光繼續前進,隨後撞上暗礁。

船長獲救後去問第二位守塔人,為什麼你的燈總讓人不舒服。

守塔人回答:燈塔的職責是指出礁石,即使紅燈讓人不舒服。

會一直點頭的 AI,就像那座永遠亮綠燈的燈塔。

寫在最後

面對漂亮答案,先判斷它屬於事實還是猜測。

這套提示詞給 Claude 加上黃燈和紅燈。它要求模型承認未知、標註推斷、提示風險,並在沒有新證據時拒絕讓步。