幻覺減半，廢話砍三成！被罵一年，OpenAI 終於把 ChatGPT 改對了

作者：AI信息Gap

日期：2026年5月6日上午11:51

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

GPT-5.5 Instant 上線：幻覺減半、廢話少三成，ChatGPT 日常模型大改進

整理版摘要

呢篇文章係AI產品經理木易為我哋整理OpenAI最新推出嘅GPT-5.5 Instant。呢個模型取代咗GPT-5.3 Instant，成為ChatGPT嘅新預設模型，無論係免費用戶定付費用戶，打開ChatGPT預設就係用呢個。整體嚟講，呢次更新針對用戶鬧得最犀利嘅兩大問題——幻覺同廢話——作出咗顯著改善。官方數據顯示幻覺減少咗52.5%，廢話平均少用三成，呢個係好大嘅進步。

文章仲提到，以前GPT-5系列因為幻覺嚴重同廢話太多，被超過5000人聯署要求換返舊模型，70%同信任有關嘅討論都係負面。而家呢個5.5 Instant版本完全改咗呢啲問題。一個數學例子就清楚見到新模型會回頭檢查錯咗嘅步驟，而唔係直接放棄或話「無解」。跑分方面，AIME、GPQA等都有雙位數升幅。另外，複雜問題會自動切換到Thinking模型，顯示計劃俾用戶睇，仲可以中途打斷。新功能「記憶來源」亦提高咗透明度。作者結論係，呢個版本值得回歸，尤其係已經搬去Claude嘅用戶可以考慮返嚟。

幻覺減少52.5%，錯誤回答減少37.3%；數學例子顯示新模型會回頭檢查錯誤，而非放棄。
廢話減少30.2%，回覆更簡潔；唔再硬塞表情包，唔再追問用戶。
跑分全面提升：AIME 2025從65.4%升到81.2%，GPQA、MMMU-Pro、CharXiv等都有上升。
智能路由：遇到複雜問題自動切換GPT-5.5 Thinking，唔佔用周用量，顯示計劃可打斷。
新功能記憶來源：回覆旁邊顯示Sources按鈕，清楚知道引用了邊條記憶，方便管理。

整理重點

幻覺減半，廢話少三成

GPT-5.5 Instant 上線，成為 ChatGPT 新默認模型。最大變化係幻覺減少 52.5%，用戶標記過的錯誤回答減少 37.3%。

幻覺減少52.5%

錯誤回答減少37.3%

一個數學例子好清楚：用戶解方程時算錯一步，舊模型發現不對就直接話「無解」；新模型會回頭檢查代數式，揾到具體錯嘅步驟，再用公式解出正確答案。

整理重點

跑分提升，自動路由幫手

多個基準測試都有顯著進步：

競賽數學 AIME 2025 從 65.4% 升到 81.2%
博士級科學題 GPQA 從 78.5% 升到 85.6%
多模態推理 MMMU-Pro 從 69.2% 升到 76.0%
圖表推理 CharXiv 從 75.0% 升到 81.6%
文檔解析錯誤率由 14.6% 降到 12.5%

遇到複雜問題，ChatGPT 會自動切換到 GPT-5.5 Thinking 深度推理，唔佔用 Thinking 嘅周用量。仲會先顯示一段「計劃」話你知佢打算點做，你可以中途打斷調整方向。

自動切換到GPT-5.5 Thinking

唔佔用周用量

顯示計劃可打斷

整理重點

記憶來源同其他細節

GPT-5.5 Instant 嘅回覆比上一代少用 30.2% 嘅詞，行數減少 29.2%。OpenAI 特意提到「gratuitous emojis」，即係唔好再硬塞表情包，佢哋話呢啲表情係多餘嘅。而且佢哋唔會再喺回答完後追問「仲想了解啲咩？」，直接停。

唔再硬塞表情包

回答完就停

新功能「記憶來源」（Memory Sources）令透明度大增。回覆旁邊會有個 Sources 按鈕，點開就知道今次回答引用了邊條記憶、邊段歷史對話。你可以直接刪除或修改過時嘅記憶。分享對話時，記憶來源唔會暴露俾對方。

記憶來源（Memory Sources）

Sources按鈕

呢個模型仲係第一個被列為「高能力」（High Capability）嘅 Instant 級模型，以前只有推理模型先有呢個等級，即係網絡安全同生物領域嘅風險防護已達標準。

高能力（High Capability）

各用戶額度如下：

免費用戶：每 5 小時 10 條，超額降級到 mini 模型，上下文 16K
Plus/Go 用戶：每 3 小時 160 條，上下文 32K
Pro 用戶：不限量，上下文 128K
Thinking 模型：Plus 每週 3000 條，上下文 256K；Pro 不限量，上下文 400K

整理重點

作者總結：值得回歸

GPT-5 系列從發佈到而家被罵咗差唔多一年，超過 5000 人聯名要求換返舊模型，70% 同信任有關嘅討論都係負面。最多人鬧嘅就係幻覺同廢話。

5000多人聯名要求換回老模型

70%負面討論

作者木易（AI 產品經理）認為，5.5 Instant 已經改曬呢啲問題，幻覺減半、廢話少三成，仲加埋智能路由同記憶來源，係一個真正值得用嘅日常模型。佢話已經搬去 Claude 嘅用戶可以考慮返嚟。

GPT-5.5 Instant，上線咗喇。

取代咗 GPT-5.3 Instant，成為ChatGPT新嘅默認模型。幾億人開ChatGPT默認就係用佢，包括免費用戶。

最大嘅變化，一個數字。幻覺減少 52.5%。

我哋之前傾過 GPT-5.5 嘅提示詞變化，嗰係 GPT-5.5 Thinking 同滿血版API嘅事。今日呢個Instant係「日常版」，專門畀ChatGPT用嘅。

喺醫學、法律、金融呢啲高風險領域嘅測試入面，GPT-5.5 Instant 比上一代幻覺（作嘢）少咗一半。用戶以前標記過嘅「答錯咗」對話，拎返出嚟重新測，唔準確嘅回答減少咗37.3%。

OpenAI官方博客擺咗一個數學例子，有啲意思。

一條帶根號嘅方程問題，用戶嘅解題過程入面有一步計錯咗。GPT-5.3 Instant 一開始話「冇問題」，後來將答案代返原方程，發現唔啱，直接宣佈「冇解」。

即刻放棄咗。

GPT-5.5 Instant 第一次都睇唔出嚟。但佢行多咗一步，回頭檢查咗代數式展開過程，揾到具體邊一步計錯咗，然後用公式重新解出正確答案。

一個發現錯咗會放棄，一個發現錯咗會往回查。

呢個就係「幻覺減半」背後嘅嘢。好重要。

嚟睇你哋最關心嘅，「跑分」。

競賽數學AIME 2025由65.4%升到81.2%，提升最大。博士級科學題GPQA由78.5%升到85.6%，多模態推理MMMU-Pro由69.2%升到76.0%，圖表推理CharXiv由75.0%升到81.6%。

文檔解析嘅錯誤率亦由14.6%降到12.5%。

值得一提嘅係，揀咗Instant唔代表只用Instant。遇到複雜問題，ChatGPT會自動切換到 GPT-5.5 Thinking 進行深度推理。

自動路由唔佔Thinking嘅週用量（雖然你用唔曬，Plus 3000條/週）。

Thinking推理嘅時候，ChatGPT會先顯示一段「計劃」話畀你知佢打算點做。你可以中途打斷調整方向，唔使等佢全部諗完再嚟過。

GPT-5.5 Instant 廢話更少咗。

佢嘅回覆比上一代少用30.2%嘅詞，行數減少29.2%。同樣嘅問題，同樣嘅信息量，篇幅縮短咗將近三分之一。

OpenAI提到咗一個詞，「gratuitous emojis」。

即係話，「唔好硬塞表情包啦」。

以前ChatGPT回答問題總係鍾意加幾個emoji表情助興。而家收斂咗。

佢亦唔再成日追問你。以前你問一個簡單問題，佢回答完仲要加一句「你仲想了解啲咩？」而家唔問喇，回答完就停。

呢一點喺 Claude Opus 4.7 嘅提示詞入面都有提及。

ChatGPT記憶新加咗一個功能，叫 記憶來源（Memory Sources）。

以前ChatGPT只係記住你嘅資訊，但你唔知佢喺回答時引用咗啲咩。而家回覆旁邊會顯示一個「Sources」掣，㩒開會睇到呢次回答引用咗邊條記憶、邊段歷史對話。

見到過時或者有問題嘅記憶，直接刪除或者修改。

小細節，分享對話嘅時候，記憶來源唔會暴露畀對方。

GPT-5.5 Instant 係OpenAI第一個喺網絡安全同生物領域俾列為「高能力」（High Capability）嘅Instant級模型。

以前呢個等級係推理模型嘅專屬。而家一個畀所有人免費使用嘅日常模型，都去到需要同等安全防護嘅程度。

系統安全文檔係咁樣描述嘅。

GPT-5.5 Instant 未到能獨立開發零日漏洞攻擊鏈嘅水平，嗰係「關鍵能力」門檻。但佢喺網絡安全領域嘅能力已經比 GPT-5.4 強咗唔少。

GPT-5.5 Instant 已經向所有ChatGPT用戶推送，未睇到嘅耐心等待就得。

API模型ID gpt-5.5-chat-latest。

嚟睇ChatGPT最新額度。

GPT-5.5 Instant，免費用戶每5小時10條，超咗自動降級到mini模型，上下文窗口16K。ChatGPT Plus同Go每3小時160條，上下文窗口32K。ChatGPT Pro不限量，上下文窗口128K。

GPT-5.5 Thinking，付費可選。ChatGPT Plus同Business（老Team訂閲）每週3000條爽用，幾乎用唔曬，上下文窗口256K。ChatGPT Pro不限量，上下文窗口400K。

GPT-5.5 Pro 只有Pro、Business、企業同教育用戶用得。

記憶增強同比性化功能目前只對網頁版Plus同Pro用戶開放，手機端好快跟進。

GPT-5 系列從發佈到而家，俾人鬧咗差唔多一年。網上5000幾人聯名要求換返老模型，70%同信任有關嘅討論都係負面嘅。

鬧得最多嘅就兩件事。亂作嘢、廢話太多。

Sam Altman今次雖然冇「感受到原子彈爆炸」，但睇得出佢同樣好激動。

5.5 Instant 全部改曬。已經搬咗去Claude嘅朋友們，可以考慮返嚟喇。

我係木易，Top2 + 美國Top10 CS碩，而家係AI產品經理。
關注「AI信息Gap」，等AI成為你嘅外掛。

GPT-5.5 Instant，上線了。

替換掉了 GPT-5.3 Instant，成為 ChatGPT 新的默認模型。幾億人打開 ChatGPT 默認用的就是它，包括免費用戶。

最大的變化，一個數字。幻覺減少 52.5%。

我們之前聊過 GPT-5.5 的提示詞變化，那是 GPT-5.5 Thinking 和滿血版 API 的事。今天這個 Instant 是「日常版」，專門給 ChatGPT 用的。

在醫學、法律、金融這些高風險領域的測試裏，GPT-5.5 Instant 比上一代幻覺（編造事實）少了一半。用戶以前標記過的「答錯了」對話，拿出來重新測，不準確的回答減少了 37.3%。

OpenAI 官方博客放了一個數學例子，有點意思。

一道帶根號的方程問題，用戶的解題過程裏有一步算錯了。GPT-5.3 Instant 一開始說「沒問題」，後來把答案代回原方程，發現不對，直接宣佈「無解」。

原地放棄。

GPT-5.5 Instant 第一次也沒看出來。但它多走了一步，回頭檢查了代數式展開過程，找到具體哪一步算錯了，然後用公式重新解出了正確答案。

一個發現錯了會放棄，一個發現錯了會往回查。

這就是「幻覺減半」背後的東西。很重要。

來看你們最關心的，「跑分」。

競賽數學 AIME 2025 從 65.4% 漲到 81.2%，提升最大。博士級科學題 GPQA 從 78.5% 漲到 85.6%，多模態推理 MMMU-Pro 從 69.2% 漲到 76.0%，圖表推理 CharXiv 從 75.0% 漲到 81.6%。

文檔解析的錯誤率也從 14.6% 降到了 12.5%。

值得一提的是，選了 Instant 不代表只用 Instant。遇到複雜問題，ChatGPT 會自動切換到 GPT-5.5 Thinking 進行深度推理。

自動路由不佔 Thinking 的周用量（雖然你也用不完，Plus 3000 條/周）。

Thinking 推理的時候，ChatGPT 會先顯示一段「計劃」告訴你它打算怎麼做。你可以中途打斷調整方向，不用等它全想完再重來。

GPT-5.5 Instant 廢話更少了。

它的回覆比上一代少用 30.2% 的詞，行數減少 29.2%。同樣的問題，同樣的信息量，篇幅縮短將近三分之一。

OpenAI 提到了一個詞，「gratuitous emojis」。

意思是，「別硬塞表情包了」。

以前 ChatGPT 回答問題總喜歡加幾個 emoji 表情助興。現在收斂了。

它也不再動不動追問你了。以前你問一個簡單問題，它回答完還要加一句「你還想了解什麼？」現在不問了，回答完就停。

這一點在 Claude Opus 4.7 的提示詞裏也有提及。

ChatGPT 記憶新加了一個功能，叫 「記憶來源」（Memory Sources）。

以前 ChatGPT 只是記住你的信息，但你不知道它在回答時引用了什麼。現在回覆旁邊會顯示一個「Sources」按鈕，點開能看到這次回答引用了哪條記憶、哪段歷史對話。

看到過時的或者有問題的記憶，直接刪掉或修改。

小細節，分享對話的時候，記憶來源不會暴露給對方。

GPT-5.5 Instant 是 OpenAI 第一個在網絡安全和生物領域被列為「高能力」（High Capability）的 Instant 級模型。

以前這個等級是推理模型的專屬。現在一個給所有人免費用的日常模型，也到了需要同等安全防護的程度。

系統安全文檔是這樣描述的。

GPT-5.5 Instant 還沒到能獨立開發零日漏洞攻擊鏈的水平，那是「關鍵能力」門檻。但它在網絡安全領域的能力已經比 GPT-5.4 強了不少。

GPT-5.5 Instant 已經向所有 ChatGPT 用戶推送，還沒看到的耐心等待就行。

API 模型 ID gpt-5.5-chat-latest。

來看 ChatGPT 最新額度。

GPT-5.5 Instant，免費用戶每 5 小時 10 條，超了自動降級到 mini 模型，上下文窗口 16K。ChatGPT Plus 和 Go 每 3 小時 160 條，上下文窗口 32K。ChatGPT Pro 不限量，上下文窗口 128K。

GPT-5.5 Thinking，付費可選。ChatGPT Plus 和 Business（老 Team 訂閲）每週 3000 條爽用，幾乎用不完，上下文窗口 256K。ChatGPT Pro 不限量，上下文窗口 400K。

GPT-5.5 Pro 只有 Pro、Business、企業和教育用戶能用。

記憶增強和個性化功能目前只對網頁版 Plus 和 Pro 用戶開放，手機端很快跟進。

GPT-5 系列從發佈到現在，被罵了快一年。網上 5000 多人聯名要求換回老模型，70% 和信任有關的討論都是負面的。

罵得最多的就兩件事。瞎編亂造、廢話太多。

Sam Altman 這次雖然沒有「感受到原子彈爆炸」，但看得出來他同樣很激動。

5.5 Instant 全改了。已經搬到 Claude 的朋友們，可以考慮回來了。

我是木易，Top2 + 美國 Top10 CS 碩，現在是 AI 產品經理。
關注「AI信息Gap」，讓 AI 成為你的外掛。