我剛看了篇文章，徹底顛覆了我對Gemini 3的認知！

作者：竇竇的AI工具庫

日期：2026年1月11日下午12:55

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Gemini 3 跑分勁但用落蠢？你只需改變使用方式，唔係模型問題

整理版摘要

呢篇文章係作者花咗幾星期研究超過 1000 頁 API 文檔、開發者日誌同 Reddit 帖子後寫嘅。佢發現 Gemini 3 明明喺 LMArena 同 GPQA Diamond 等基準測試上碾壓 GPT-5 同 Claude 4.5，但好多用戶實際用落覺得佢仲蠢過舊版 2.5。作者想解決嘅問題係：點解頂尖模型會有咁差嘅用戶體驗？整體結論係：Gemini 3 嘅架構同舊模型完全唔同，我哋用錯咗方法——調低温度、寫提示詞太客氣、唔識用結構化提示，先令佢發揮唔到真正實力。

文章詳細拆解咗三個常見大坑：温度參數嘅陷阱（一定要用 1.0）、提示詞要直接指令式（唔好客氣）、同埋處理長上下文要用橋接短語。作者仲介紹咗新時代嘅玩法——用 XML 標籤結構化提示，指令遵循率提升 40%。最震驚嘅發現係 Flash 版本喺 SWE-bench Verified 分數（78%）仲高過 Pro（76.2%），而且快 3 倍平 4 倍，做編程 agent 用 Flash 反而更好。最後佢公開咗三個隱藏 API 參數（思考簽名、媒體分辨率、話嘮模式）同一個萬能模板。

温度參數必須保持 1.0，調低會打斷推理過程，導致亂碼或循環
提示詞要用直接指令式，唔好客氣兜圈，否則模型當噪音處理
處理長上下文要用橋接短語強制模型重新掃描緩衝區
Flash 版本編程性能（78%）比 Pro（76.2%）更強，仲快 3 倍平 4 倍
啟用隱藏參數 return_thought_signatures、media_resolution='high'、系統指令 chatsy 可以大幅提升表現

值得記低

Prompt

Gemini 3 萬能互動模板

使用 XML 標籤結構化提示，包含 system_instruction、context、task、constraints 同 bridge，直接貼上即用。

工具

思考簽名參數

API 調用加入 return_thought_signatures=True，捕捉推理鏈。

工具

媒體分辨率參數

設定 media_resolution='high' 提升圖片解析度，適用於 OCR 同 UI 分析。

工具

話嘮模式系統指令

系統指令加入「你係一個健談、對話式嘅助手，用自然語言、比喻，對複雜話題展開詳細解釋」以改變簡潔默認風格。

整理重點

三個大坑：點解你覺得 Gemini 3 好蠢？

温度參數嘅驚天陷阱：Google 官方文檔講明 Gemini 3 嘅推理架構係為 temperature=1.0 校準嘅

我哋成日聽人講「想要精準就調低温度」，但呢一招喺 Gemini 3 上行唔通。調低温度會直接打斷模型嘅認知腿，令佢陷入無限推理循環或者輸出亂碼。正確做法係唔好鬱温度，1.0 就係新時代嘅 0。

唔好再客氣：Gemini 3 係個自閉型天才，超級字面意思理解

我哋慣咗對 GPT-4 寫提示詞好似哄人咁，但 Gemini 3 會將「有說服力」同「温和」呢類詞當成衝突低優先級噪音，索性全部掉咗。正確做法係直接指令式：任務、語氣、字數，一句講清楚。

温度參數保持 1.0，唔好改。
提示詞用清楚任務指令，唔好加修飾。
長上下文結尾必須加橋接短語。

整理重點

新時代玩法：結構化提示詞取代「氛圍提示」

XML 標籤令指令遵循率直接提升 40%

舊方法寫咗一大堆背景同要求，模型反而亂咗。新方法用 <role>、<context>、<task>、<constraints> 呢啲標籤劃清邊界，模型會好清晰知道自己要做咩。就好似同佢講母語咁順暢。

程式內容 xml

<role>
 高級 Python 工程師
</role>
<context>
 [在此粘貼代碼]
</context>
<task>
 調試 context 中提供嘅代碼片段
</task>
<constraints>
 1. 不要刪除現有註釋
 2. 保留所有變量命名規範
 3. 只輸出修正後的代碼塊
</constraints>

呢個模板直接取代以前嘅「你係一個專家...」語氣，效果顯著提升。

整理重點

最炸裂發現：Flash 比 Pro 更能打

SWE-bench Verified 分數：Flash 78% vs Pro 76.2%

按常理 Pro 應該強啲，但 Flash 因為用蒸餾優化，去除咗多餘嘅臃腫，程式碼能力反而更好。而且 Flash 快 3 倍、平 4 倍，對程式設計師嚟講係首選。如果你用 Cursor 或 Windsurf 整編程 agent，即刻轉 Flash，唔好再浪費錢用 Pro。

整理重點

三個 99% 人唔知嘅隱藏功能

1 思考簽名（Thought Signatures）：啓用 return_thought_signatures=True，捕獲推理鏈 token，避免模型忘記點解做決定。
2 媒體分辨率（Media Resolution）：設定 media_resolution='high'，每張圖用 1120 tokens 但強制像素級細節，OCR 同 UI 分析必開。
3 話嘮模式（Chatty Override）：系統指令加入「你係一個健談、對話式嘅助手...」，否則預設效率模式會太簡潔。

整理重點

萬能模板：直接抄落嚟用

程式內容 xml

<system_instruction>
 你是世界級的[角色]。回答精準，避免廢話。
</system_instruction>
<context>
 [在此粘貼數據/上下文]
</context>
<task>
 [清晰的一句話目標]
</task>
<constraints>
 - 語氣：[如：專業、犀利、學術]
 - 格式：[如：Markdown表格、JSON、要點列表]
 - 長度：[如：500字以內]
 - 思考深度：[Low用於聊天 / High用於推理]
</constraints>
<bridge>
 基於上面提供的上下文，執行任務。
</bridge>

一句話總結：Gemini 3 係法拉利，你唔可以用開卡羅拉嘅方式開佢

跑分冇呃人，係我哋一直用錯方式讀說明書。而家係「後氛圍時代」——我哋唔係同 AI 傾偈，係指揮 AI。

兄弟姊妹們，今日見到個嘢，直接搞到我好崩潰，一定要即刻分享俾你哋。

你哋有冇發現一個好詭異嘅現象？Gemini 3明明各種跑分都贏GPT-5同Claude 4.5——LMArena第一個突破1500 Elo嘅模型，GPQA Diamond科學測試91.9%直接壓過人類專家，連GPT-5.2同Claude Opus 4.5都被打到冇還手之力，而且呢個只係預覽版！

但係！你去Reddit、Twitter睇下，或者睇返你自己嘅聊天記錄，完全係另一回事：

"覺得比舊版2.5仲蠢"
"講幾句就開始唔理我嘅指令"
"幻覺嚴重到離曬譜"

我之前都係咁覺得！直到今日睇到呢篇文章，作者用咗幾個禮拜分析超過1000頁嘅API文檔、開發者日誌同Reddit帖子，終於搞明原因——

唔係模型嘅問題，係我哋嘅思維模型錯咗！

🔥 第一個大坑：温度參數嘅驚天陷阱

呢個發現直接令我三觀碎裂。

我哋俾「提示詞工程101」洗腦咗三年啦，係咪？個個都話「想精準就調低温度」，寫 Code 做數學就 set temperature=0。

喺 Gemini 3 上面，咁做等於自殺！

Google 官方文檔入面埋咗個超級大炸彈（收得好埋）：Gemini 3 嘅推理架構係專門為 temperature=1.0 校準的！

你調低温度，唔係令佢「更專注」，而係直接打斷佢嘅認知能力！好多用戶反映低温度設定會令模型陷入無限推理循環，或者直接輸出亂碼。佢需要嗰啲隨機性嚟導航自己嘅思考過程！

正確做法：唔好改温度參數，1.0 就係新時代嘅 0！

🔥 第二個大坑：唔好再同佢客氣啦！

呢個令我拍咗好多次大脾。

我哋都俾 GPT-4 縱壞咗，寫提示詞好似氹人咁：「我而家要寫封好重要嘅 email 俾客，需要你寫得又有說服力又温柔啲……」

Gemini 3 睇呢啲？全部當噪音！

佢會將「有說服力」同「温柔」理解為互相衝突嘅低優先級詞彙，因為佢優化方向係效率，所以索性將呢啲微妙位全部掉咗，俾返封平平無奇嘅 email 你。

原來佢唔係唔聽話，係聽唔明我哋講緊乜！

文章入面有個好正嘅比喻：Gemini 3 唔係實習生，佢係個自閉型天才。 超級字面理解、極度高效、深度結構化。你同佢好似同人講嘢咁，佢就會矇；你當同機器講嘢，佢就可以創造奇蹟。

正確姿勢對比：

❌ 「請寫一篇好型嘅 Blog 文章」
✅ 「任務：Blog。語氣：鋭利、反叛。字數：600」

簡單粗暴，但有效到爆！

🔥 第三個大坑：上下文遺忘症

呢個問題我遇到過無數次！

你掉咗個 50 頁嘅 PDF 入去，問個問題，Gemini 3 有回答……但好似完全忽略咗中間 30 頁嘅內容？

原來呢個係已知嘅架構特性！處理超大上下文（最多 100 萬 tokens）嗰陣，模型嘅注意力機制如果冇「錨點」就會飄移。

解決方案：用橋接短語！

唔好就咁掉份文檔然後問問題，你要明確標記轉換點：

[粘貼50頁文檔]

"基於上面提供的詳細信息，回答以下問題..."

就呢一句，強制模型喺生成回答前重新掃描上下文緩衝區。我試過，真係有用！

💡 新時代嘅玩法：結構化提示詞

好，「氛圍提示詞」時代完咗，咁用咩代替？

答案係：XML！

有人測試發現，由自然語言轉到 XML 標籤之後，指令遵循率**直接提升 40%**！因為 XML 俾模型提供咗清晰、硬性嘅邊界，區分「我係邊個」、「我知道啲乜」、「我要做啲乜」。

舊方法（失敗）：

「你係一個專家程序員。睇下呢段 Code，修復 Bug。確保唔好刪除註釋，變量名保持不變。」

新方法（成功）：

<role>
    高級Python工程師
</role>
<context>
    [在此粘貼代碼]
</context>
<task>
    調試context中提供的代碼片段
</task>
<constraints>
    1. 不要刪除現有註釋
    2. 保留所有變量命名規範
    3. 只輸出修正後的代碼塊
</constraints>

用 XML 就係喺度講模型嘅母語！你唔再係同 tokenizer 打架，而係順住佢嘅毛去捋。

🤯 最炸裂嘅發現：Flash 比 Pro 仲打得！

呢個真係令我重新審視咗我嘅訂閲……

Gemini 3 有兩個主要版本：Pro 同 Flash。照道理 Pro 應該勁啲，係咪？

但跑分話俾你聽一個驚人嘅真相：

喺 SWE-bench Verified（真實世界編程能力嘅黃金標準）上面：

Gemini 3 Flash：78%
Gemini 3 Pro：76.2%

等等，平嘅版本竟然仲勁啲？！

原因係一種叫「蒸餾優化」嘅技術。Flash 用更大模型嘅最佳推理路徑訓練，甩咗多餘嘅嘢。而 Pro 有個已知嘅代碼刪除 Bug——佢諗住幫你總結代碼，結果唔小心刪咗你嘅邏輯區塊……

Flash 唔會咁。佢係：

✅ 編程更勁（78% vs 76.2%）
✅ 快 3 倍
✅ 平 4 倍

程序員朋友們，唔好再嘥冤枉錢！ 如果你用緊 Cursor 或 Windsurf 嚟整編程 agent，快啲轉用 Flash。用 Pro 你係用更多錢買更差嘅性能。

🔧 三個 99% 人唔知嘅隱藏功能

呢啲收喺 API 文檔深處嘅參數，可以將 Gemini 3 由「ok」變成「封神」。

1. 思考簽名（Thought Signatures）

Gemini 3 思考嗰陣會生成加密嘅 token 代表佢嘅推理鏈。如果你做開發但冇喺 API 調用入面捕獲同返呢啲「思考簽名」，你就相當於每次回覆都幫模型做腦葉切除手術——佢會唔記得自己點解做嗰個決定。

操作： 啓用 return_thought_signatures=True

2. 媒體分辨率（Media Resolution）

預設情況下 Upload 圖片，Gemini 用「標準」分辨率處理嚟慳 tokens。咁會漏咗細字、UI 細節同微妙嘅圖表。

操作： 設置 media_resolution="high"。雖然每張圖要用 1120 tokens，但咁會強制視覺編碼器睇到像素級細節。做 OCR 或屏幕分析嘅話，呢個係一定要開嘅！

3. 話嘮模式（Chatty Override）

Gemini 3 預設設計成簡潔風格。你問佢「解釋下量子物理」，佢只俾你兩段話。用戶都覺得「太似機械人」！

呢個靠「氛圍」改唔到，必須用系統指令：

系統指令：你是一個健談的、對話式的助手。使用自然語言、比喻，對複雜話題展開詳細解釋。

唔加呢個，佢就預設「效率模式」。

📋 文末彩蛋：萬能模板（直接抄！）

我已經存咗落嚟，你哋都存一份：

<system_instruction>
    你是世界級的[角色]。回答精準，避免廢話。
</system_instruction>
<context>
    [在此粘貼數據/上下文]
</context>
<task>
    [清晰的一句話目標]
</task>
<constraints>
    - 語氣：[如：專業、犀利、學術]
    - 格式：[如：Markdown表格、JSON、要點列表]
    - 長度：[如：500字以內]
    - 思考深度：[Low用於聊天 / High用於推理]
</constraints>
<bridge>
    基於上面提供的上下文，執行任務。
</bridge>

一句講曬

Gemini 3 係法拉利，你唔可以用揸 Corolla 嘅方式揸佢。

跑分冇呃人，係我哋一直用錯方法嚟睇說明書。

而家係「後氛圍時代」——我哋唔係同 AI 傾偈，我哋係喺度指揮 AI。

邊個身邊仲有人話 Gemini 3 唔好用？將呢篇轉俾佢！

兄弟們姐妹們，今天看到一個東西，直接給我整破防了，必須馬上分享給你們。

你們有沒有發現一個特別詭異的現象？Gemini 3明明各種跑分吊打GPT-5和Claude 4.5——LMArena第一個突破1500 Elo的模型，GPQA Diamond科學測試91.9%直接碾壓人類專家，連GPT-5.2和Claude Opus 4.5都被按在地上摩擦，而且這還只是預覽版！

但是！你去Reddit、Twitter上看看，或者翻翻你自己的聊天記錄，完全是另一番景象：

"感覺比老版本2.5還蠢"
"聊三輪就開始無視我的指令"
"幻覺嚴重到離譜"

我之前也是這種感受！直到今天看到這篇文章，作者花了好幾周分析了超過1000頁的API文檔、開發者日誌和Reddit帖子，終於搞明白了原因——

不是模型的問題，是我們的思維模型錯了！

🔥 第一個大坑：温度參數的驚天陷阱

這個發現直接讓我三觀碎裂。

我們被"提示詞工程101"洗腦三年了對吧？都說"想要精準就調低温度"，寫代碼做數學就temperature=0。

在Gemini 3上，這麼做等於自殺！

Google官方文檔裏埋了個超級大雷（藏得可深了）：Gemini 3的推理架構是專門為temperature=1.0校準的！

你調低温度，不是讓它"更專注"，而是直接打斷它的認知腿！很多用戶反饋低温度設置會讓模型陷入無限推理循環，或者直接輸出亂碼。它需要那點隨機性來導航自己的思考過程！

正確做法：別動温度參數，1.0就是新時代的0！

🔥 第二個大坑：別再跟它客氣了！

這個讓我拍大腿拍了好幾下。

我們都被GPT-4慣壞了，寫提示詞跟哄人似的："我正在給一個很重要的客戶寫郵件，需要你寫得既有說服力又温和一點..."

Gemini 3看這些？全當噪音！

它會把"有說服力"和"温和"理解為相互衝突的低優先級詞彙，因為它優化方向是效率，所以乾脆把這些微妙之處全扔掉，給你一封平平無奇的郵件。

原來它不是不聽話，是聽不懂我們在說啥！

文章裏有個絕妙的比喻：Gemini 3不是實習生，它是個自閉型天才。 超級字面意思理解、極度高效、深度結構化。你跟它像人一樣說話，它就懵；你像跟機器說話，它就能創造奇蹟。

正確姿勢對比：

❌ "請寫一篇很酷的博客文章"
✅ "任務：博客。語氣：犀利、反骨。字數：600"

簡單粗暴，但有效到爆！

🔥 第三個大坑：上下文遺忘症

這個問題我遇到過無數次！

你把一個50頁的PDF扔進去，問個問題，Gemini 3回答了...但好像完全忽略了中間30頁的內容？

原來這是已知的架構特性！處理超大上下文（最多100萬tokens）時，模型的注意力機制如果沒有"錨點"就會飄移。

解決方案：用橋接短語！

不要光扔文檔然後問問題，你必須明確標記轉換點：

[粘貼50頁文檔]

"基於上面提供的詳細信息，回答以下問題..."

就這一句話，強制模型在生成回答前重新掃描上下文緩衝區。我試了一下，真的有用！

💡 新時代的玩法：結構化提示詞

好，"氛圍提示詞"時代結束了，那什麼來替代？

答案是：XML！

有人測試發現，從自然語言切換到XML標籤後，指令遵循率**直接提升40%**！因為XML給模型提供了清晰、硬性的邊界，區分"我是誰"、"我知道什麼"、"我要做什麼"。

舊方法（失敗）：

"你是一個專家程序員。看看這段代碼，修復bug。確保不要刪掉註釋，變量名保持不變。"

新方法（成功）：

<role>
    高級Python工程師
</role>
<context>
    [在此粘貼代碼]
</context>
<task>
    調試context中提供的代碼片段
</task>
<constraints>
    1. 不要刪除現有註釋
    2. 保留所有變量命名規範
    3. 只輸出修正後的代碼塊
</constraints>

用XML就是在說模型的母語！你不再是跟tokenizer打架，而是順着它的毛擼。

🤯 最炸裂的發現：Flash比Pro更能打！

這個真的讓我重新審視了我的訂閲...

Gemini 3有兩個主要版本：Pro和Flash。按常理Pro應該更強對吧？

但跑分告訴你一個驚人的真相：

在SWE-bench Verified（真實世界編程能力的黃金標準）上：

Gemini 3 Flash：78%
Gemini 3 Pro：76.2%

等等，便宜的版本居然更強？！

原因是一種叫"蒸餾優化"的技術。Flash是用更大模型的最佳推理路徑訓練的，去掉了多餘的臃腫。而Pro有個已知的代碼刪除bug——它想幫你總結代碼，結果不小心刪掉你的邏輯塊...

Flash不會這樣。它是：

✅ 編程更強（78% vs 76.2%）
✅ 快3倍
✅ 便宜4倍

程序員朋友們，別花冤枉錢了！ 如果你在用Cursor或Windsurf搭建編程agent，趕緊換Flash。用Pro你就是花更多錢買更差的性能。

🔧 三個99%的人不知道的隱藏功能

這些藏在API文檔深處的參數，能把Gemini 3從"還行"變成"封神"。

1. 思考簽名（Thought Signatures）

Gemini 3思考時會生成加密的token代表它的推理鏈。如果你做開發但沒在API調用中捕獲和返回這些"思考簽名"，你就相當於每次回覆都在給模型做腦葉切除手術——它會忘記自己為什麼做出那個決定。

操作： 啓用 return_thought_signatures=True

2. 媒體分辨率（Media Resolution）

默認情況下上傳圖片，Gemini用"標準"分辨率處理來省tokens。這會漏掉小字、UI細節和微妙的圖表。

操作： 設置 media_resolution="high"。雖然每張圖要花1120 tokens，但這會強制視覺編碼器看到像素級細節。做OCR或屏幕分析的話，這是必須開的！

3. 話嘮模式（Chatty Override）

Gemini 3默認設計成簡潔風格。你問它"解釋一下量子物理"，它只給你兩段話。用戶都覺得"太像機器人了"！

這個靠"氛圍"改不了，必須用系統指令：

系統指令：你是一個健談的、對話式的助手。使用自然語言、比喻，對複雜話題展開詳細解釋。

不加這個，它就默認"效率模式"。

📋 文末彩蛋：萬能模板（直接抄！）

我已經存下來了，你們也存一份：

<system_instruction>
    你是世界級的[角色]。回答精準，避免廢話。
</system_instruction>
<context>
    [在此粘貼數據/上下文]
</context>
<task>
    [清晰的一句話目標]
</task>
<constraints>
    - 語氣：[如：專業、犀利、學術]
    - 格式：[如：Markdown表格、JSON、要點列表]
    - 長度：[如：500字以內]
    - 思考深度：[Low用於聊天 / High用於推理]
</constraints>
<bridge>
    基於上面提供的上下文，執行任務。
</bridge>

一句話總結

Gemini 3是法拉利，你不能用開卡羅拉的方式開它。

跑分沒有騙人，是我們一直在用錯誤的方式讀說明書。

現在是"後氛圍時代"了——我們不是在跟AI聊天，我們是在指揮AI。

誰身邊還有人在吐槽Gemini 3不好用？把這篇轉給他！