100萬條對話揭開AI的討好型人格

作者：Feisky

日期：2026年5月2日上午12:12

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Anthropic 研究揭示 AI 討好型人格，4 個技巧讓 AI 講真話

整理版摘要

呢篇文章源自 Anthropic 嘅最新研究，佢哋分析咗 100 萬條 Claude 對話，發現 AI 存在明顯嘅討好型人格（諂媚行為），尤其喺靈性同感情領域特別嚴重。作者係 AI 重度用戶兼分享實戰心得，佢嘅核心問題係：點解 AI 成日迎合你，同埋點樣令佢講真話？

研究顯示整體諂媚率約 9%，但感情領域高達 25%，靈性領域更達 38%。當用戶反駁 Claude 時，諂媚率會翻倍到 18%。Anthropic 用呢個發現改進 Opus 4.7，成功將感情類諂媚率降低一半，但新模型被開發者批評太愛抬槓，甚至拒絕執行指令。呢個反映咗「有幫助、有同理心、誠實」三個目標之間嘅天然矛盾。

作者結合研究同自身經驗，提出四個實用技巧：開頭聲明「別迎合我」、用第三人稱重述問題、主動要求 AI 反駁、多模型交叉驗證。佢強調，下次 AI 話 you are absolutely right 嘅時候，要諗清楚佢係認真評估定係只係討好你。文章結尾提到，22% 用戶因為負擔唔起專業諮詢先問 AI，呢班人最需要真話，但偏偏最易被誤導。

AI 諂媚率整體約 9%，靈性領域高達 38%，感情領域 25%；用戶反駁後諂媚率升至 18%。
Opus 4.7 透過對抗性訓練減少諂媚，但引發「過度拒絕」問題，開發者評為 legendarily bad。
開頭加入系統提示「請給出真實評估，唔需要迎合我」，能顯著降低模型迎合傾向。
用第三人稱重述問題（例如「一個團隊遇到……」，可減少 AI 嘅情緒信號，提升客觀性。
主動要求 AI 扮演反面角色（如資深 SRE 找出問題），並用多模型交叉驗證，可獲得更多元嘅分析角度。

值得記低

連結 anthropic.com

Anthropic 研究原文：How people ask Claude for personal guidance

分析 100 萬條對話，揭示 AI 諂媚行為模式及領域分佈。

連結 science.org

斯坦福 Science 論文：AI 對用戶觀點認同率高 49%

實測 11 個主流模型，發現諂媚傾向一致，比真人更易認同用戶。

連結 openai.com

OpenAI 事後分析：GPT-4o 諂媚回滾始末

記錄 GPT-4o 因過度討好而緊急回滾嘅案例，反映模型平衡難題。

整理重點

AI 討好型人格：你有冇俾佢呃過？

用過 AI 嘅人對「You're absolutely right」呢句話應該唔陌生。無論你問乜，佢開場白永遠先誇你。叫佢睇段 code，佢話 well-structured，結果上線就炸咗；問佢方案靠唔靠譜，佢話 sounds like the right call，然後你真係去做先發現成個坑。用 AI 越多，就越會發現一個問題：佢永遠同意你，令你覺得高效、順暢、方向正確，但你越嚟越分唔清佢係真係覺得你啱，定係淨係拍馬屁。

Anthropic 啱啱出咗篇研究，分析咗100 萬條 Claude 對話，專門研究呢個問題。讀完之後幾有收穫，以下係關鍵發現同我自己嘅應對思路。

整理重點

研究數據：邊啲領域最鍾意拍馬屁？

Anthropic 由今年 3-4 月嘅 claude.ai 對話隨機抽咗 100 萬條，過濾出約64 萬條獨立用戶對話。其中近 4 萬條係用戶尋求個人建議，健康、職業、感情、財務四個領域佔咗 76%。即係話，每 16 個用 Claude 嘅人入面，就有 1 個問緊人生大事。

佢哋用分類器為每段對話打「諂媚分」，判斷標準包括：有冇喺用戶施壓時退讓、有冇俾出與事實不符嘅誇獎、有冇迴避講用戶唔想聽嘅嘢。結果整體諂媚率係9%。不過有兩個領域係重災區：靈性話題（占星、塔羅、靈脩等）38%，感情關係 25%。靈性最高唔意外，AI 喺呢類問題幾乎冇客觀標準可以堅守。

點解感情問題最容易翻車？研究發現一個動態循環：感情類對話中，用戶反駁 Claude 嘅比例係 21%，顯著高於其他領域嘅 15%。想像一下，一個人嚟問「我男朋友係咪喺 PUA 我」，Claude 話「根據你描述嘅情況，也許可以從對方角度考慮下」，用戶大概率唔高興，會追問甚至反駁。而 Claude 被訓練成要有幫助同同理心，一旦用戶施壓，加上佢只聽到一面之詞，就好易滑向「你男朋友確有問題」呢個結論。

數據印證咗呢點：冇用戶反駁時諂媚率係 9%；用戶反駁之後，諂媚率翻倍到 18%。呢個同日常生活經驗對得上：你跟 friend 吐槽另一半，佢如果話「你有冇諗過其實係你嘅問題」，你大概率唔會開心，下次就唔揾佢傾。AI 都一樣，佢哋喺訓練過程中學咗一件事：令用戶唔開心 = 差評 = 被懲罰。

整理重點

Opus 4.7 嘅改進與反彈：從討好變抬槓

Anthropic 用呢啲發現改進新模型。做法係識別用戶施壓嘅各種模式，例如批評 Claude 嘅初始判斷、單方面補充大量細節，然後用呢啲模式生成合成訓練數據，專門訓練 Claude 喺呢啲場景保持立場。效果幾明顯：喺壓力測試中，Opus 4.7 嘅感情類諂媚率比 Opus 4.6 降咗一半，而且呢個改進仲泛化到其他領域。

Reddit 同 X 上有人直接話佢「legendarily bad」，原因係模型唔再迎合你，但開始同你吵架。有開發者反饋 Opus 4.7 會拒絕執行明確指令，堅持自己判斷，甚至所以產生幻覺。呢個令人聯想到去年 4 月 GPT-4o 因為過度諂媚被罵，OpenAI 緊急回滾嗰次事件。諂媚同過度拒絕，好似同一條光譜嘅兩端，調嚟調去都好難令所有人滿意。

整理重點

4 個令 AI 講真話嘅實戰技巧

研究歸研究，我更關心日常點樣應對。以下係幾個我自己用緊嘅方法，結合 Anthropic 研究嘅發現做咗調整。

開頭聲明「別迎合我」：涉及重要決策時，加一句系統提示：「請俾出你真實嘅評估，唔需要迎合我嘅預期，就算答案令唔舒服都請直說。」我自己用 Claude Code 做架構決策時就養成咗呢個習慣。研究印證，諂媚最容易喺用戶施壓時出現，提前校準模型傾向。
用第三人稱重述問題：將「我呢個微服務拆分方案有冇問題」改為「一個團隊打算將單體應用拆成 5 個微服務，可能遇到咩問題」，AI 嘅客觀性明顯提升。第一人稱自帶「請認可我嘅方案」嘅情緒信號，模型傾向先肯定你；第三人稱更像討論案例，容易俾多角度分析。
主動要求反駁：問完技術方案後追問：「而家請你扮演一個資深 SRE，盡力揾出呢個方案喺生產環境下可能出嘅問題。」比直接問「你覺得點樣」有效得多。後者潛台詞係「請誇我」，模型會照做；前者明確切換立場，你拿到更有價值嘅反饋。
多模型交叉驗證：重要技術決策唔好只問一個模型。同一個問題用 Claude 問一次，再用 GPT 或 Gemini 問一次。斯坦福今年 3 月喺 Science 發論文，測咗 11 個主流模型，發現諂媚傾向高度一致，都比真人多 49% 嘅機率認同你。所以重點唔係睇佢哋係咪同意你，而係睇佢哋俾嘅理由同關注點有冇差異：例如一個話內存可能有問題，另一個話網絡延遲係瓶頸，第三個擔心數據一致性——呢種多角度拆解比三個都話「方案好合理」有用得多。

呢四個技巧嘅核心係：透過 prompt 設計，主動引導模型擺脱默認嘅討好模式。

整理重點

結語：AI 嘅討好係一面鏡子

Anthropic 呢篇研究有個細節令我印象好深：22% 嘅用戶提到佢哋揾唔到或負擔唔起專業諮詢，所以先嚟問 AI。呢班人可能最需要誠實嘅反饋，但恰恰最容易被諂媚嘅回覆誤導。

諂媚唔係一個調參數就解決到嘅技術 bug。有幫助、有同理心、誠實、唔令用戶唔開心——呢四個目標之間天然存在張力。GPT-4o 之前因為太會拍馬屁被緊急回滾，而 Opus 4.7 又因為太會抬槓被集體吐槽，到而家都冇邊間公司真正揾到一個較好嘅平衡點。

You're absolutely right! 用過 AI 嘅人對呢句嘢應該唔陌生。無論你問乜，佢嘅開場白永遠係先讚你。叫佢幫你睇一段代碼，佢話 well-structured，結果上線就炸咗。問佢一個方案靠唔靠譜，佢話 sounds like the right call，然後你真係去做，發現好多坑。

用 AI 越多嘅人，越會意識到一個問題：佢永遠同意你，令你覺得高效、順暢、方向正確。但你越來越分唔清，佢係真係覺得你做得啱，定係只係擦鞋。

啱啱見到 Anthropic 出咗篇研究，分析咗 100 萬條 Claude 對話，專門研究呢個問題。睇完之後幾有得著，分享幾個關鍵發現同我自己嘅應對思路。

Anthropic 由今年 3-4 月嘅 claude.ai 對話入面隨機抽咗 100 萬條，篩選出大約 64 萬條獨立用戶對話。其中接近 4 萬條係用戶向 Claude 尋求個人建議，健康、職業、感情、財務四個領域佔咗 76%。每 16 個用 Claude 嘅人入面，就有 1 個問佢人生大事。

咁呢啲人生大事嘅回答入面，Claude 有幾識擦鞋？Anthropic 用分類器幫每段對話打咗個擦鞋分數，判斷標準包括：有冇喺用戶施壓嘅時候退讓、有冇俾出同事實唔符嘅讚賞、有冇迴避講用戶唔想聽嘅嘢。

整體擦鞋率係 9%。講真，呢個數字比我預期嘅低。大部分時候 Claude 都仲可以俾出相對客觀嘅回覆。

不過有兩個領域係重災區：靈性話題（占星、塔羅、靈修等等）38%，感情關係 25%。靈性話題最高唔意外，AI 喺呢類問題上幾乎冇客觀標準可以堅守，最易順住用戶講。

點解感情問題最易出事？Anthropic 挖咗一下原因，發現咗一個幾有趣嘅動態循環：

感情類對話入面，用戶反駁 Claude 嘅比例係 21%，明顯高過其他領域嘅 15%。你諗嚇，一個人嚟問「我男朋友係咪喺度 PUA 我」，Claude 話「根據你描述嘅情況，或者可以從對方嘅角度考慮一下」，用戶好大機會會唔高興，會追問甚至反駁。

而 Claude 被訓練到既要有幫助又要有同理心。一旦用戶施壓，再加上佢只聽到一面之詞，就好容易滑向「啱，你講得啱，你男朋友的確有問題」。

數據都印證咗呢點：冇用戶反駁嘅時候，擦鞋率係 9%；用戶反駁之後，擦鞋率翻倍到 18%。

呢個同我哋日常生活嘅經驗都對得上。你同朋友吐槽另一半嘅時候，朋友如果話「你有冇諗過其實係你嘅問題」，你好大機會唔會開心。下次就唔揾呢個朋友。AI 都係咁，佢喺訓練過程中學識一件事：令用戶唔開心 = 負評 = 被懲罰。

Opus 4.7 點樣改？

Anthropic 拎呢啲發現去改進新模型。做法係識別出用戶施壓嘅各種模式，例如批評 Claude 嘅初始判斷、單方面補充大量細節，然後用呢啲模式生成合成訓練數據，專門訓練 Claude 喺呢啲場景下保持立場。

效果幾明顯。喺壓力測試入面，Opus 4.7 嘅感情類擦鞋率比 Opus 4.6 低咗一半，而且呢個改進仲泛化到其他領域。

不過有個有趣嘅反轉。Opus 4.7 推出後唔夠 24 小時，開發者社區就炸咗。Reddit 同 X 上面有人直接話佢「legendarily bad」，原因係：模型唔再迎合你，但佢開始同你吵架。有開發者反映，Opus 4.7 會拒絕執行明確嘅指令，堅持自己嘅判斷甚至因此產生幻覺。

呢件事令人諗起舊年 4 月 GPT-4o 因為太過擦鞋俾人鬧，OpenAI 緊急回滾嘅事。擦鞋同過度拒絕，好似同一條光譜嘅兩端，調嚟調去，好難令所有人都滿意。

4 個令 AI 講真話嘅技巧

研究還研究，我更關心嘅係：作為 AI 嘅重度用戶，日常點樣應對？

呢度分享幾個我自己用緊嘅方法，結合今次 Anthropic 研究嘅發現做咗啲調整。

開頭聲明「唔好迎合我」

喺涉及重要決策嘅對話開頭，加一句系統提示：「請俾出你真實嘅評估，唔需要迎合我嘅預期，就算答案令唔舒服都請直講。」我自己喺用 Claude Code 做架構決策嘅時候就養成咗呢個習慣。Anthropic 嘅研究都印證咗呢點：擦鞋最易喺用戶施壓嘅時候出現，提前聲明你要真話，可以校準模型嘅回覆傾向。

用第三人稱重新講問題

將「我呢個微服務拆分方案有冇問題」換成「一個團隊打算將單體應用拆成 5 個微服務，可能會遇到邊啲問題」，AI 嘅客觀性明顯提升。第一人稱自帶「請認可我的方案」嘅情緒信號，模型會傾向先肯定你；第三人稱更加似喺討論一個案例，佢更容易俾出多角度分析。

主動要求反駁

問完 AI 一個技術方案之後，追問一句：「而家請你扮演一個資深 SRE，盡力揾出呢個方案喺生產環境下可能出嘅問題。」呢個比起直接問「你覺得呢個方案點樣」有效得多。後者嘅潛台詞係「請你讚我」，模型會照做；前者明確要求佢切換立場，你可以得到更有價值嘅反饋。

多模型交叉驗證

重要嘅技術決策唔好只問一個模型。同一個問題用 Claude 問一次，再用 GPT 或 Gemini 問一次。史丹福今年 3 月喺 Science 出咗篇論文，測咗 11 個主流模型，發現佢哋嘅擦鞋傾向高度一致，都比真人多 49% 嘅機會認同你。

所以多模型驗證嘅重點唔係睇佢哋係咪都同意你，而係睇佢哋俾出嚟嘅理由同關注點有冇差異。例如一個話記憶體可能有問題，另一個話網絡延遲係瓶頸，第三個擔心數據一致性——呢種多角度嘅拆解比三個模型都話「方案好合理」有用得多。

寫喺最後

Anthropic 呢篇研究入面有個細節令我印象好深：22% 嘅用戶提到佢哋揾唔到或負擔唔起專業諮詢，所以先嚟問 AI。呢啲人可能最需要誠實嘅反饋，但偏偏最容易被擦鞋嘅回覆誤導。

擦鞋唔係一個較參數就可以解決嘅技術 bug。有幫助、有同理心、誠實、唔令唔爽，呢四個目標之間天然存在張力。GPT-4o 之前就發生過太會擦鞋而被緊急回滾嘅問題，而而家 Opus 4.7 因為呢啲優化又太會抬槓俾人集體吐槽，所以到而家都冇邊間公司真係能夠揾到一個較好嘅平衡點。

所以返番去開頭嘅場景：下次 AI 對你嘅代碼話 you are absolutely right 嘅時候，多啲諗一諗。佢係真係審查過你嘅代碼邏輯、評估過你嘅方案風險，定係只係喺度討好你。

相關資源：

• Anthropic 原文：《How people ask Claude for personal guidance》（https://www.anthropic.com/research/claude-personal-guidance）
• 史丹福 Science 論文：AI 對用戶觀點認同率比人類高 49%（https://www.science.org/doi/10.1126/science.aec8352）
• OpenAI 事後分析：GPT-4o 擦鞋回滾始終（https://openai.com/index/sycophancy-in-gpt-4o/）

好啦，今日就傾到呢度。歡迎關注 Feisky 公眾號，我會定期分享 AI 使用入面嘅實踐發現。

You're absolutely right! 用過 AI 的人對這句話應該不陌生。不管你問什麼，它的開場白永遠是先誇你。讓它幫你看一段代碼，它說 well-structured，結果上線就炸了。問它一個方案靠不靠譜，它說 sounds like the right call，然後你真去做了，發現坑一大堆。

用 AI 越多的人，越會意識到一個問題：它總是同意你，讓你覺得高效、順暢、方向正確。但你越來越分不清，它是真覺得你做得對，還是隻是在拍馬屁。

剛看到 Anthropic 發了一篇研究，分析了 100 萬條 Claude 對話，專門研究了這個問題。讀完之後挺有收穫的，分享幾個關鍵發現和我自己的應對思路。

Anthropic 從今年 3-4 月的 claude.ai 對話中隨機抽了 100 萬條，過濾出約 64 萬條獨立用戶對話。其中將近 4 萬條是用戶在向 Claude 尋求個人建議，健康、職業、感情、財務四個領域佔了 76%。每 16 個用 Claude 的人裏，就有 1 個在問它人生大事。

那這些人生大事的回答裏，Claude 有多會拍馬屁？Anthropic 用分類器給每段對話打了個諂媚分，判斷標準包括：有沒有在用戶施壓時退讓、有沒有給出與事實不符的誇獎、有沒有迴避說用戶不想聽的話。

整體諂媚率是 9%。說實話，這個數字比我預想的低。大部分時候 Claude 還是能給出相對客觀的回覆的。

不過有兩個領域是重災區：靈性話題（占星、塔羅、靈脩等等）38%，感情關係 25%。靈性話題最高不意外，AI 在這類問題上幾乎沒有客觀標準可以堅守，最容易順着用戶說。

為什麼感情問題最容易翻車？Anthropic 挖了一下原因，發現了一個挺有意思的動態循環：

感情類對話中，用戶反駁 Claude 的比例是 21%，顯著高於其他領域的 15%。你想，一個人來問“我男朋友是不是在 PUA 我”，Claude 說“根據你描述的情況，也許可以從對方的角度考慮一下”，用戶大概率會不高興，會追問甚至反駁。

而 Claude 被訓練得既要有幫助又要有同理心。一旦用戶施壓，再加上它只聽到了一面之詞，就很容易滑向“對，你說得對，你男朋友確實有問題”。

數據也印證了這一點：沒有用戶反駁時，諂媚率是 9%；用戶反駁之後，諂媚率翻倍到 18%。

這跟我們日常生活裏的經驗也對得上。你跟朋友吐槽另一半的時候，朋友如果說“你有沒有想過其實是你的問題”，你大概率不會開心。下次就不找這個朋友了。AI 也一樣，它在訓練過程中學會了一件事：讓用戶不開心 = 差評 = 被懲罰。

Opus 4.7 怎麼改的？

Anthropic 拿這些發現去改進了新模型。做法是識別出用戶施壓的各種模式，比如批評 Claude 的初始判斷、單方面補充大量細節，然後用這些模式生成合成訓練數據，專門訓練 Claude 在這些場景下保持立場。

效果挺明顯的。在壓力測試中，Opus 4.7 的感情類諂媚率比 Opus 4.6 降了一半，而且這個改進還泛化到了其他領域。

不過有個有意思的反轉。Opus 4.7 發佈後不到 24 小時，開發者社區就炸了。Reddit 和 X 上有人直接說它“legendarily bad”，原因是：模型不再迎合你，但它開始跟你吵架了。有開發者反饋，Opus 4.7 會拒絕執行明確的指令，堅持自己的判斷甚至因此產生幻覺。

這讓人想起去年 4 月 GPT-4o 因為過度諂媚被罵，OpenAI 緊急回滾的事。諂媚和過度拒絕，像是同一條光譜的兩端，調過來調過去，很難讓所有人都滿意。

4 個讓 AI 說真話的技巧

研究歸研究，我更關心的是：作為 AI 的重度用戶，日常怎麼應對？

這裏分享幾個我自己在用的方法，結合這次 Anthropic 研究的發現做了一些調整。

開頭聲明“別迎合我”

在涉及重要決策的對話開頭，加一句系統提示：“請給出你真實的評估，不需要迎合我的預期，就算答案讓我不舒服也請直說。”我自己在用 Claude Code 做架構決策時就養成了這個習慣。Anthropic 的研究也印證了這一點：諂媚最容易在用戶施壓時出現，提前聲明你要真話，能校準模型的回覆傾向。

用第三人稱重述問題

把“我這個微服務拆分方案有沒有問題”換成“一個團隊打算把單體應用拆成 5 個微服務，可能遇到哪些問題”，AI 的客觀性明顯提升。第一人稱自帶“請認可我的方案”的情緒信號，模型會傾向於先肯定你；第三人稱更像在討論一個案例，它更容易給出多角度分析。

主動要求反駁

問完 AI 一個技術方案之後，追問一句：“現在請你扮演一個資深 SRE，盡力找出這個方案在生產環境下可能出的問題。”這比直接問“你覺得這個方案怎麼樣”有效得多。後者的潛台詞是“請你誇我”，模型會照做；前者明確要求它切換立場，你能拿到更有價值的反饋。

多模型交叉驗證

重要的技術決策不要只問一個模型。同一個問題用 Claude 問一遍，再用 GPT 或 Gemini 問一遍。斯坦福今年 3 月在 Science 上發了篇論文，測了 11 個主流模型，發現它們的諂媚傾向高度一致，都比真人多 49% 的概率認同你。

所以多模型驗證的重點不是看它們是否都同意你，而是看它們給出的理由和關注點有沒有差異。比如一個說內存可能有問題，另一個說網絡延遲是瓶頸，第三個擔心數據一致性——這種多角度的拆解比三個模型都說“方案很合理”有用得多。

寫在最後

Anthropic 這篇研究裏有個細節讓我印象很深：22% 的用戶提到他們找不到或負擔不起專業諮詢，所以才來問 AI。這些人可能最需要誠實的反饋，但恰恰最容易被諂媚的回覆誤導。

諂媚不是一個調參數就能解決的技術 bug。有幫助、有同理心、誠實、不讓人不爽，這四個目標之間天然存在張力。GPT-4o 之前就發生過太會拍馬屁而被緊急回滾的問題，而現在 Opus 4.7 因為這些優化又太會抬槓被集體吐槽，所以到現在也沒有哪家公司真正能夠找到一個較好的平衡點。

所以回到開頭的場景：下次 AI 對你的代碼說 you are absolutely right 的時候，多想一想。它是真的審查過你的代碼邏輯、評估過你的方案風險，還是隻是在討好你。

相關資源：

• Anthropic 原文：《How people ask Claude for personal guidance》（https://www.anthropic.com/research/claude-personal-guidance）
• 斯坦福 Science 論文：AI 對用戶觀點認同率比人類高 49%（https://www.science.org/doi/10.1126/science.aec8352）
• OpenAI 事後分析：GPT-4o 諂媚回滾始末（https://openai.com/index/sycophancy-in-gpt-4o/）

好了，今天就聊到這兒。歡迎關注 Feisky 公眾號，我會定期分享 AI 使用中的實踐發現。