我剛看了篇文章,徹底顛覆了我對Gemini 3的認知!

作者:竇竇的AI工具庫
日期:2026年1月11日 下午12:55
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Gemini 3 跑分勁但用落蠢?你只需改變使用方式,唔係模型問題

整理版摘要

呢篇文章係作者花咗幾星期研究超過 1000 頁 API 文檔、開發者日誌同 Reddit 帖子後寫嘅。佢發現 Gemini 3 明明喺 LMArena 同 GPQA Diamond 等基準測試上碾壓 GPT-5 同 Claude 4.5,但好多用戶實際用落覺得佢仲蠢過舊版 2.5。作者想解決嘅問題係:點解頂尖模型會有咁差嘅用戶體驗?整體結論係:Gemini 3 嘅架構同舊模型完全唔同,我哋用錯咗方法——調低温度、寫提示詞太客氣、唔識用結構化提示,先令佢發揮唔到真正實力。

文章詳細拆解咗三個常見大坑:温度參數嘅陷阱(一定要用 1.0)、提示詞要直接指令式(唔好客氣)、同埋處理長上下文要用橋接短語。作者仲介紹咗新時代嘅玩法——用 XML 標籤結構化提示,指令遵循率提升 40%。最震驚嘅發現係 Flash 版本喺 SWE-bench Verified 分數(78%)仲高過 Pro(76.2%),而且快 3 倍平 4 倍,做編程 agent 用 Flash 反而更好。最後佢公開咗三個隱藏 API 參數(思考簽名、媒體分辨率、話嘮模式)同一個萬能模板。

  • 温度參數必須保持 1.0,調低會打斷推理過程,導致亂碼或循環
  • 提示詞要用直接指令式,唔好客氣兜圈,否則模型當噪音處理
  • 處理長上下文要用橋接短語強制模型重新掃描緩衝區
  • Flash 版本編程性能(78%)比 Pro(76.2%)更強,仲快 3 倍平 4 倍
  • 啟用隱藏參數 return_thought_signatures、media_resolution='high'、系統指令 chatsy 可以大幅提升表現
值得記低
Prompt

Gemini 3 萬能互動模板

使用 XML 標籤結構化提示,包含 system_instruction、context、task、constraints 同 bridge,直接貼上即用。

工具

思考簽名參數

API 調用加入 return_thought_signatures=True,捕捉推理鏈。

工具

媒體分辨率參數

設定 media_resolution='high' 提升圖片解析度,適用於 OCR 同 UI 分析。

工具

話嘮模式系統指令

系統指令加入「你係一個健談、對話式嘅助手,用自然語言、比喻,對複雜話題展開詳細解釋」以改變簡潔默認風格。

整理重點

三個大坑:點解你覺得 Gemini 3 好蠢?

温度參數嘅驚天陷阱Google 官方文檔講明 Gemini 3 嘅推理架構係為 temperature=1.0 校準嘅

我哋成日聽人講「想要精準就調低温度」,但呢一招喺 Gemini 3 上行唔通。調低温度會直接打斷模型嘅認知腿,令佢陷入無限推理循環或者輸出亂碼。正確做法係唔好鬱温度,1.0 就係新時代嘅 0。

唔好再客氣Gemini 3 係個自閉型天才,超級字面意思理解

我哋慣咗對 GPT-4 寫提示詞好似哄人咁,但 Gemini 3 會將「有說服力」同「温和」呢類詞當成衝突低優先級噪音,索性全部掉咗。正確做法係直接指令式:任務、語氣、字數,一句講清楚。

  • 温度參數保持 1.0,唔好改。
  • 提示詞用清楚任務指令,唔好加修飾。
  • 長上下文結尾必須加橋接短語。
整理重點

新時代玩法:結構化提示詞取代「氛圍提示」

XML 標籤令指令遵循率直接提升 40%

舊方法寫咗一大堆背景同要求,模型反而亂咗。新方法用 <role>、<context>、<task>、<constraints> 呢啲標籤劃清邊界,模型會好清晰知道自己要做咩。就好似同佢講母語咁順暢。

程式內容 xml
<role>
 高級 Python 工程師
</role>
<context>
 [在此粘貼代碼]
</context>
<task>
 調試 context 中提供嘅代碼片段
</task>
<constraints>
 1. 不要刪除現有註釋
 2. 保留所有變量命名規範
 3. 只輸出修正後的代碼塊
</constraints>

呢個模板直接取代以前嘅「你係一個專家...」語氣,效果顯著提升。

整理重點

最炸裂發現:Flash 比 Pro 更能打

SWE-bench Verified 分數:Flash 78% vs Pro 76.2%

按常理 Pro 應該強啲,但 Flash 因為用蒸餾優化,去除咗多餘嘅臃腫,程式碼能力反而更好。而且 Flash 快 3 倍、平 4 倍,對程式設計師嚟講係首選。如果你用 Cursor 或 Windsurf 整編程 agent,即刻轉 Flash,唔好再浪費錢用 Pro。

整理重點

三個 99% 人唔知嘅隱藏功能

  1. 1 思考簽名(Thought Signatures):啓用 return_thought_signatures=True,捕獲推理鏈 token,避免模型忘記點解做決定。
  2. 2 媒體分辨率(Media Resolution):設定 media_resolution='high',每張圖用 1120 tokens 但強制像素級細節,OCR 同 UI 分析必開。
  3. 3 話嘮模式(Chatty Override):系統指令加入「你係一個健談、對話式嘅助手...」,否則預設效率模式會太簡潔。
整理重點

萬能模板:直接抄落嚟用

程式內容 xml
<system_instruction>
 你是世界級的[角色]。回答精準,避免廢話。
</system_instruction>
<context>
 [在此粘貼數據/上下文]
</context>
<task>
 [清晰的一句話目標]
</task>
<constraints>
 - 語氣:[如:專業、犀利、學術]
 - 格式:[如:Markdown表格、JSON、要點列表]
 - 長度:[如:500字以內]
 - 思考深度:[Low用於聊天 / High用於推理]
</constraints>
<bridge>
 基於上面提供的上下文,執行任務。
</bridge>

一句話總結Gemini 3 係法拉利,你唔可以用開卡羅拉嘅方式開佢

跑分冇呃人,係我哋一直用錯方式讀說明書。而家係「後氛圍時代」——我哋唔係同 AI 傾偈,係指揮 AI。

圖片

兄弟姊妹們,今日見到個嘢,直接搞到我好崩潰,一定要即刻分享俾你哋。

你哋有冇發現一個好詭異嘅現象?Gemini 3明明各種跑分都贏GPT-5同Claude 4.5——LMArena第一個突破1500 Elo嘅模型,GPQA Diamond科學測試91.9%直接壓過人類專家,連GPT-5.2同Claude Opus 4.5都被打到冇還手之力,而且呢個只係預覽版!

但係!你去Reddit、Twitter睇下,或者睇返你自己嘅聊天記錄,完全係另一回事:

  • "覺得比舊版2.5仲蠢"
  • "講幾句就開始唔理我嘅指令"
  • "幻覺嚴重到離曬譜"

我之前都係咁覺得!直到今日睇到呢篇文章,作者用咗幾個禮拜分析超過1000頁嘅API文檔、開發者日誌同Reddit帖子,終於搞明原因——

唔係模型嘅問題,係我哋嘅思維模型錯咗!


🔥 第一個大坑:温度參數嘅驚天陷阱

呢個發現直接令我三觀碎裂。

我哋俾「提示詞工程101」洗腦咗三年啦,係咪?個個都話「想精準就調低温度」,寫 Code 做數學就 set temperature=0。

喺 Gemini 3 上面,咁做等於自殺!

Google 官方文檔入面埋咗個超級大炸彈(收得好埋):Gemini 3 嘅推理架構係專門為 temperature=1.0 校準的!

你調低温度,唔係令佢「更專注」,而係直接打斷佢嘅認知能力!好多用戶反映低温度設定會令模型陷入無限推理循環,或者直接輸出亂碼。佢需要嗰啲隨機性嚟導航自己嘅思考過程!

正確做法:唔好改温度參數,1.0 就係新時代嘅 0!


🔥 第二個大坑:唔好再同佢客氣啦!

呢個令我拍咗好多次大脾。

我哋都俾 GPT-4 縱壞咗,寫提示詞好似氹人咁:「我而家要寫封好重要嘅 email 俾客,需要你寫得又有說服力又温柔啲……」

Gemini 3 睇呢啲?全部當噪音!

佢會將「有說服力」同「温柔」理解為互相衝突嘅低優先級詞彙,因為佢優化方向係效率,所以索性將呢啲微妙位全部掉咗,俾返封平平無奇嘅 email 你。

原來佢唔係唔聽話,係聽唔明我哋講緊乜!

文章入面有個好正嘅比喻:Gemini 3 唔係實習生,佢係個自閉型天才。 超級字面理解、極度高效、深度結構化。你同佢好似同人講嘢咁,佢就會矇;你當同機器講嘢,佢就可以創造奇蹟。

正確姿勢對比:

  • ❌ 「請寫一篇好型嘅 Blog 文章」
  • ✅ 「任務:Blog。語氣:鋭利、反叛。字數:600」

簡單粗暴,但有效到爆!


🔥 第三個大坑:上下文遺忘症

呢個問題我遇到過無數次!

你掉咗個 50 頁嘅 PDF 入去,問個問題,Gemini 3 有回答……但好似完全忽略咗中間 30 頁嘅內容?

原來呢個係已知嘅架構特性!處理超大上下文(最多 100 萬 tokens)嗰陣,模型嘅注意力機制如果冇「錨點」就會飄移。

解決方案:用橋接短語!

唔好就咁掉份文檔然後問問題,你要明確標記轉換點:

[粘貼50頁文檔]

"基於上面提供的詳細信息,回答以下問題..."

就呢一句,強制模型喺生成回答前重新掃描上下文緩衝區。我試過,真係有用


💡 新時代嘅玩法:結構化提示詞

好,「氛圍提示詞」時代完咗,咁用咩代替?

答案係:XML!

有人測試發現,由自然語言轉到 XML 標籤之後,指令遵循率**直接提升 40%**!因為 XML 俾模型提供咗清晰、硬性嘅邊界,區分「我係邊個」、「我知道啲乜」、「我要做啲乜」。

舊方法(失敗):

「你係一個專家程序員。睇下呢段 Code,修復 Bug。確保唔好刪除註釋,變量名保持不變。」

新方法(成功):

<role>
    高級Python工程師
</role>
<context>
    [在此粘貼代碼]
</context>
<task>
    調試context中提供的代碼片段
</task>
<constraints>
    1. 不要刪除現有註釋
    2. 保留所有變量命名規範
    3. 只輸出修正後的代碼塊
</constraints>

用 XML 就係喺度講模型嘅母語!你唔再係同 tokenizer 打架,而係順住佢嘅毛去捋。


🤯 最炸裂嘅發現:Flash 比 Pro 仲打得!

呢個真係令我重新審視咗我嘅訂閲……

Gemini 3 有兩個主要版本:Pro 同 Flash。照道理 Pro 應該勁啲,係咪?

但跑分話俾你聽一個驚人嘅真相:

喺 SWE-bench Verified(真實世界編程能力嘅黃金標準)上面:

  • Gemini 3 Flash:78%
  • Gemini 3 Pro:76.2%

等等,平嘅版本竟然仲勁啲?!

原因係一種叫「蒸餾優化」嘅技術。Flash 用更大模型嘅最佳推理路徑訓練,甩咗多餘嘅嘢。而 Pro 有個已知嘅代碼刪除 Bug——佢諗住幫你總結代碼,結果唔小心刪咗你嘅邏輯區塊……

Flash 唔會咁。佢係:

  • ✅ 編程更勁(78% vs 76.2%)
  • ✅ 快 3 倍
  • ✅ 平 4 倍

程序員朋友們,唔好再嘥冤枉錢! 如果你用緊 Cursor 或 Windsurf 嚟整編程 agent,快啲轉用 Flash。用 Pro 你係用更多錢買更差嘅性能。


🔧 三個 99% 人唔知嘅隱藏功能

呢啲收喺 API 文檔深處嘅參數,可以將 Gemini 3 由「ok」變成「封神」。

1. 思考簽名(Thought Signatures)

Gemini 3 思考嗰陣會生成加密嘅 token 代表佢嘅推理鏈。如果你做開發但冇喺 API 調用入面捕獲同返呢啲「思考簽名」,你就相當於每次回覆都幫模型做腦葉切除手術——佢會唔記得自己點解做嗰個決定。

操作: 啓用 return_thought_signatures=True

2. 媒體分辨率(Media Resolution)

預設情況下 Upload 圖片,Gemini 用「標準」分辨率處理嚟慳 tokens。咁會漏咗細字、UI 細節同微妙嘅圖表。

操作: 設置 media_resolution="high"。雖然每張圖要用 1120 tokens,但咁會強制視覺編碼器睇到像素級細節。做 OCR 或屏幕分析嘅話,呢個係一定要開嘅

3. 話嘮模式(Chatty Override)

Gemini 3 預設設計成簡潔風格。你問佢「解釋下量子物理」,佢只俾你兩段話。用戶都覺得「太似機械人」!

呢個靠「氛圍」改唔到,必須用系統指令

系統指令:你是一個健談的、對話式的助手。使用自然語言、比喻,對複雜話題展開詳細解釋。

唔加呢個,佢就預設「效率模式」。


📋 文末彩蛋:萬能模板(直接抄!)

我已經存咗落嚟,你哋都存一份:

<system_instruction>
    你是世界級的[角色]。回答精準,避免廢話。
</system_instruction>
<context>
    [在此粘貼數據/上下文]
</context>
<task>
    [清晰的一句話目標]
</task>
<constraints>
    - 語氣:[如:專業、犀利、學術]
    - 格式:[如:Markdown表格、JSON、要點列表]
    - 長度:[如:500字以內]
    - 思考深度:[Low用於聊天 / High用於推理]
</constraints>
<bridge>
    基於上面提供的上下文,執行任務。
</bridge>

一句講曬

Gemini 3 係法拉利,你唔可以用揸 Corolla 嘅方式揸佢。

跑分冇呃人,係我哋一直用錯方法嚟睇說明書。

而家係「後氛圍時代」——我哋唔係同 AI 傾偈,我哋係喺度指揮 AI

邊個身邊仲有人話 Gemini 3 唔好用?將呢篇轉俾佢!

圖片



圖片

兄弟們姐妹們,今天看到一個東西,直接給我整破防了,必須馬上分享給你們。

你們有沒有發現一個特別詭異的現象?Gemini 3明明各種跑分吊打GPT-5和Claude 4.5——LMArena第一個突破1500 Elo的模型,GPQA Diamond科學測試91.9%直接碾壓人類專家,連GPT-5.2和Claude Opus 4.5都被按在地上摩擦,而且這還只是預覽版!

但是!你去Reddit、Twitter上看看,或者翻翻你自己的聊天記錄,完全是另一番景象:

  • "感覺比老版本2.5還蠢"
  • "聊三輪就開始無視我的指令"
  • "幻覺嚴重到離譜"

我之前也是這種感受!直到今天看到這篇文章,作者花了好幾周分析了超過1000頁的API文檔、開發者日誌和Reddit帖子,終於搞明白了原因——

不是模型的問題,是我們的思維模型錯了!


🔥 第一個大坑:温度參數的驚天陷阱

這個發現直接讓我三觀碎裂。

我們被"提示詞工程101"洗腦三年了對吧?都說"想要精準就調低温度",寫代碼做數學就temperature=0。

在Gemini 3上,這麼做等於自殺!

Google官方文檔裏埋了個超級大雷(藏得可深了):Gemini 3的推理架構是專門為temperature=1.0校準的!

你調低温度,不是讓它"更專注",而是直接打斷它的認知腿!很多用戶反饋低温度設置會讓模型陷入無限推理循環,或者直接輸出亂碼。它需要那點隨機性來導航自己的思考過程!

正確做法:別動温度參數,1.0就是新時代的0!


🔥 第二個大坑:別再跟它客氣了!

這個讓我拍大腿拍了好幾下。

我們都被GPT-4慣壞了,寫提示詞跟哄人似的:"我正在給一個很重要的客戶寫郵件,需要你寫得既有說服力又温和一點..."

Gemini 3看這些?全當噪音!

它會把"有說服力"和"温和"理解為相互衝突的低優先級詞彙,因為它優化方向是效率,所以乾脆把這些微妙之處全扔掉,給你一封平平無奇的郵件。

原來它不是不聽話,是聽不懂我們在說啥!

文章裏有個絕妙的比喻:Gemini 3不是實習生,它是個自閉型天才。 超級字面意思理解、極度高效、深度結構化。你跟它像人一樣說話,它就懵;你像跟機器說話,它就能創造奇蹟。

正確姿勢對比:

  • ❌ "請寫一篇很酷的博客文章"
  • ✅ "任務:博客。語氣:犀利、反骨。字數:600"

簡單粗暴,但有效到爆!


🔥 第三個大坑:上下文遺忘症

這個問題我遇到過無數次!

你把一個50頁的PDF扔進去,問個問題,Gemini 3回答了...但好像完全忽略了中間30頁的內容?

原來這是已知的架構特性!處理超大上下文(最多100萬tokens)時,模型的注意力機制如果沒有"錨點"就會飄移。

解決方案:用橋接短語!

不要光扔文檔然後問問題,你必須明確標記轉換點:

[粘貼50頁文檔]

"基於上面提供的詳細信息,回答以下問題..."

就這一句話,強制模型在生成回答前重新掃描上下文緩衝區。我試了一下,真的有用


💡 新時代的玩法:結構化提示詞

好,"氛圍提示詞"時代結束了,那什麼來替代?

答案是:XML!

有人測試發現,從自然語言切換到XML標籤後,指令遵循率**直接提升40%**!因為XML給模型提供了清晰、硬性的邊界,區分"我是誰"、"我知道什麼"、"我要做什麼"。

舊方法(失敗):

"你是一個專家程序員。看看這段代碼,修復bug。確保不要刪掉註釋,變量名保持不變。"

新方法(成功):

<role>
    高級Python工程師
</role>
<context>
    [在此粘貼代碼]
</context>
<task>
    調試context中提供的代碼片段
</task>
<constraints>
    1. 不要刪除現有註釋
    2. 保留所有變量命名規範
    3. 只輸出修正後的代碼塊
</constraints>

用XML就是在說模型的母語!你不再是跟tokenizer打架,而是順着它的毛擼。


🤯 最炸裂的發現:Flash比Pro更能打!

這個真的讓我重新審視了我的訂閲...

Gemini 3有兩個主要版本:Pro和Flash。按常理Pro應該更強對吧?

但跑分告訴你一個驚人的真相:

在SWE-bench Verified(真實世界編程能力的黃金標準)上:

  • Gemini 3 Flash:78%
  • Gemini 3 Pro:76.2%

等等,便宜的版本居然更強?!

原因是一種叫"蒸餾優化"的技術。Flash是用更大模型的最佳推理路徑訓練的,去掉了多餘的臃腫。而Pro有個已知的代碼刪除bug——它想幫你總結代碼,結果不小心刪掉你的邏輯塊...

Flash不會這樣。它是:

  • ✅ 編程更強(78% vs 76.2%)
  • ✅ 快3倍
  • ✅ 便宜4倍

程序員朋友們,別花冤枉錢了! 如果你在用Cursor或Windsurf搭建編程agent,趕緊換Flash。用Pro你就是花更多錢買更差的性能。


🔧 三個99%的人不知道的隱藏功能

這些藏在API文檔深處的參數,能把Gemini 3從"還行"變成"封神"。

1. 思考簽名(Thought Signatures)

Gemini 3思考時會生成加密的token代表它的推理鏈。如果你做開發但沒在API調用中捕獲和返回這些"思考簽名",你就相當於每次回覆都在給模型做腦葉切除手術——它會忘記自己為什麼做出那個決定。

操作: 啓用 return_thought_signatures=True

2. 媒體分辨率(Media Resolution)

默認情況下上傳圖片,Gemini用"標準"分辨率處理來省tokens。這會漏掉小字、UI細節和微妙的圖表。

操作: 設置 media_resolution="high"。雖然每張圖要花1120 tokens,但這會強制視覺編碼器看到像素級細節。做OCR或屏幕分析的話,這是必須開的

3. 話嘮模式(Chatty Override)

Gemini 3默認設計成簡潔風格。你問它"解釋一下量子物理",它只給你兩段話。用戶都覺得"太像機器人了"!

這個靠"氛圍"改不了,必須用系統指令

系統指令:你是一個健談的、對話式的助手。使用自然語言、比喻,對複雜話題展開詳細解釋。

不加這個,它就默認"效率模式"。


📋 文末彩蛋:萬能模板(直接抄!)

我已經存下來了,你們也存一份:

<system_instruction>
    你是世界級的[角色]。回答精準,避免廢話。
</system_instruction>
<context>
    [在此粘貼數據/上下文]
</context>
<task>
    [清晰的一句話目標]
</task>
<constraints>
    - 語氣:[如:專業、犀利、學術]
    - 格式:[如:Markdown表格、JSON、要點列表]
    - 長度:[如:500字以內]
    - 思考深度:[Low用於聊天 / High用於推理]
</constraints>
<bridge>
    基於上面提供的上下文,執行任務。
</bridge>

一句話總結

Gemini 3是法拉利,你不能用開卡羅拉的方式開它。

跑分沒有騙人,是我們一直在用錯誤的方式讀說明書。

現在是"後氛圍時代"了——我們不是在跟AI聊天,我們是在指揮AI

誰身邊還有人在吐槽Gemini 3不好用?把這篇轉給他!

圖片