幻覺減半,廢話砍三成!被罵一年,OpenAI 終於把 ChatGPT 改對了

作者:AI信息Gap
日期:2026年5月6日 上午11:51
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

GPT-5.5 Instant 上線:幻覺減半、廢話少三成,ChatGPT 日常模型大改進

整理版摘要

呢篇文章係AI產品經理木易為我哋整理OpenAI最新推出嘅GPT-5.5 Instant。呢個模型取代咗GPT-5.3 Instant,成為ChatGPT嘅新預設模型,無論係免費用戶定付費用戶,打開ChatGPT預設就係用呢個。整體嚟講,呢次更新針對用戶鬧得最犀利嘅兩大問題——幻覺同廢話——作出咗顯著改善。官方數據顯示幻覺減少咗52.5%,廢話平均少用三成,呢個係好大嘅進步。

文章仲提到,以前GPT-5系列因為幻覺嚴重同廢話太多,被超過5000人聯署要求換返舊模型,70%同信任有關嘅討論都係負面。而家呢個5.5 Instant版本完全改咗呢啲問題。一個數學例子就清楚見到新模型會回頭檢查錯咗嘅步驟,而唔係直接放棄或話「無解」。跑分方面,AIME、GPQA等都有雙位數升幅。另外,複雜問題會自動切換到Thinking模型,顯示計劃俾用戶睇,仲可以中途打斷。新功能「記憶來源」亦提高咗透明度。作者結論係,呢個版本值得回歸,尤其係已經搬去Claude嘅用戶可以考慮返嚟。

  • 幻覺減少52.5%,錯誤回答減少37.3%;數學例子顯示新模型會回頭檢查錯誤,而非放棄。
  • 廢話減少30.2%,回覆更簡潔;唔再硬塞表情包,唔再追問用戶。
  • 跑分全面提升AIME 2025從65.4%升到81.2%,GPQAMMMU-Pro、CharXiv等都有上升。
  • 智能路由:遇到複雜問題自動切換GPT-5.5 Thinking,唔佔用周用量,顯示計劃可打斷。
  • 新功能記憶來源:回覆旁邊顯示Sources按鈕,清楚知道引用了邊條記憶,方便管理。
整理重點

幻覺減半,廢話少三成

GPT-5.5 Instant 上線,成為 ChatGPT 新默認模型。最大變化係幻覺減少 52.5%,用戶標記過的錯誤回答減少 37.3%。

幻覺減少52.5%

錯誤回答減少37.3%

一個數學例子好清楚:用戶解方程時算錯一步,舊模型發現不對就直接話「無解」;新模型會回頭檢查代數式,揾到具體錯嘅步驟,再用公式解出正確答案。

整理重點

跑分提升,自動路由幫手

多個基準測試都有顯著進步

  • 競賽數學 AIME 2025 從 65.4% 升到 81.2%
  • 博士級科學題 GPQA 從 78.5% 升到 85.6%
  • 多模態推理 MMMU-Pro 從 69.2% 升到 76.0%
  • 圖表推理 CharXiv 從 75.0% 升到 81.6%
  • 文檔解析錯誤率由 14.6% 降到 12.5%

遇到複雜問題,ChatGPT 會自動切換到 GPT-5.5 Thinking 深度推理,唔佔用 Thinking 嘅周用量。仲會先顯示一段「計劃」話你知佢打算點做,你可以中途打斷調整方向。

自動切換到GPT-5.5 Thinking

唔佔用周用量

顯示計劃可打斷

整理重點

記憶來源同其他細節

GPT-5.5 Instant 嘅回覆比上一代少用 30.2% 嘅詞,行數減少 29.2%。OpenAI 特意提到「gratuitous emojis」,即係唔好再硬塞表情包,佢哋話呢啲表情係多餘嘅。而且佢哋唔會再喺回答完後追問「仲想了解啲咩?」,直接停。

唔再硬塞表情包

回答完就停

新功能「記憶來源」(Memory Sources)令透明度大增。回覆旁邊會有個 Sources 按鈕,點開就知道今次回答引用了邊條記憶、邊段歷史對話。你可以直接刪除或修改過時嘅記憶。分享對話時,記憶來源唔會暴露俾對方。

記憶來源(Memory Sources

Sources按鈕

呢個模型仲係第一個被列為「高能力」(High Capability)嘅 Instant 級模型,以前只有推理模型先有呢個等級,即係網絡安全同生物領域嘅風險防護已達標準。

高能力(High Capability

各用戶額度如下

  • 免費用戶:每 5 小時 10 條,超額降級到 mini 模型,上下文 16K
  • Plus/Go 用戶:每 3 小時 160 條,上下文 32K
  • Pro 用戶:不限量,上下文 128K
  • Thinking 模型Plus 每週 3000 條,上下文 256K;Pro 不限量,上下文 400K
整理重點

作者總結:值得回歸

GPT-5 系列從發佈到而家被罵咗差唔多一年,超過 5000 人聯名要求換返舊模型,70% 同信任有關嘅討論都係負面。最多人鬧嘅就係幻覺同廢話。

5000多人聯名要求換回老模型

70%負面討論

作者木易(AI 產品經理)認為,5.5 Instant 已經改曬呢啲問題,幻覺減半、廢話少三成,仲加埋智能路由同記憶來源,係一個真正值得用嘅日常模型。佢話已經搬去 Claude 嘅用戶可以考慮返嚟。

GPT-5.5 Instant,上線咗喇。

取代咗 GPT-5.3 Instant,成為ChatGPT新嘅默認模型。幾億人開ChatGPT默認就係用佢,包括免費用戶。

圖片

最大嘅變化,一個數字。幻覺減少 52.5%。



我哋之前傾過 GPT-5.5 嘅提示詞變化,嗰係 GPT-5.5 Thinking 同滿血版API嘅事。今日呢個Instant係「日常版」,專門畀ChatGPT用嘅。

喺醫學、法律、金融呢啲高風險領域嘅測試入面,GPT-5.5 Instant 比上一代幻覺(作嘢)少咗一半。用戶以前標記過嘅「答錯咗」對話,拎返出嚟重新測,唔準確嘅回答減少咗37.3%。

OpenAI官方博客擺咗一個數學例子,有啲意思。

一條帶根號嘅方程問題,用戶嘅解題過程入面有一步計錯咗。GPT-5.3 Instant 一開始話「冇問題」,後來將答案代返原方程,發現唔啱,直接宣佈「冇解」。

即刻放棄咗。

GPT-5.5 Instant 第一次都睇唔出嚟。但佢行多咗一步,回頭檢查咗代數式展開過程,揾到具體邊一步計錯咗,然後用公式重新解出正確答案。

圖片

一個發現錯咗會放棄,一個發現錯咗會往回查。

呢個就係「幻覺減半」背後嘅嘢。好重要。



嚟睇你哋最關心嘅,「跑分」。

競賽數學AIME 2025由65.4%升到81.2%,提升最大。博士級科學題GPQA由78.5%升到85.6%,多模態推理MMMU-Pro由69.2%升到76.0%,圖表推理CharXiv由75.0%升到81.6%。

文檔解析嘅錯誤率亦由14.6%降到12.5%。

圖片

值得一提嘅係,揀咗Instant唔代表只用Instant。遇到複雜問題,ChatGPT會自動切換到 GPT-5.5 Thinking 進行深度推理。

自動路由唔佔Thinking嘅週用量(雖然你用唔曬,Plus 3000條/週)。

Thinking推理嘅時候,ChatGPT會先顯示一段「計劃」話畀你知佢打算點做。你可以中途打斷調整方向,唔使等佢全部諗完再嚟過。



GPT-5.5 Instant 廢話更少咗。

佢嘅回覆比上一代少用30.2%嘅詞,行數減少29.2%。同樣嘅問題,同樣嘅信息量,篇幅縮短咗將近三分之一。

OpenAI提到咗一個詞,「gratuitous emojis」。

即係話,「唔好硬塞表情包啦」。

以前ChatGPT回答問題總係鍾意加幾個emoji表情助興。而家收斂咗。

佢亦唔再成日追問你。以前你問一個簡單問題,佢回答完仲要加一句「你仲想了解啲咩?」而家唔問喇,回答完就停。

呢一點喺 Claude Opus 4.7 嘅提示詞入面都有提及。



ChatGPT記憶新加咗一個功能,叫 記憶來源(Memory Sources)

以前ChatGPT只係記住你嘅資訊,但你唔知佢喺回答時引用咗啲咩。而家回覆旁邊會顯示一個「Sources」掣,㩒開會睇到呢次回答引用咗邊條記憶、邊段歷史對話。

見到過時或者有問題嘅記憶,直接刪除或者修改。

小細節,分享對話嘅時候,記憶來源唔會暴露畀對方。

圖片


GPT-5.5 Instant 係OpenAI第一個喺網絡安全同生物領域俾列為「高能力」(High Capability)嘅Instant級模型。

以前呢個等級係推理模型嘅專屬。而家一個畀所有人免費使用嘅日常模型,都去到需要同等安全防護嘅程度。

系統安全文檔係咁樣描述嘅。

GPT-5.5 Instant 未到能獨立開發零日漏洞攻擊鏈嘅水平,嗰係「關鍵能力」門檻。但佢喺網絡安全領域嘅能力已經比 GPT-5.4 強咗唔少。



GPT-5.5 Instant 已經向所有ChatGPT用戶推送,未睇到嘅耐心等待就得。

API模型ID gpt-5.5-chat-latest

圖片

嚟睇ChatGPT最新額度。

GPT-5.5 Instant,免費用戶每5小時10條,超咗自動降級到mini模型,上下文窗口16K。ChatGPT Plus同Go每3小時160條,上下文窗口32K。ChatGPT Pro不限量,上下文窗口128K。

GPT-5.5 Thinking,付費可選。ChatGPT Plus同Business(老Team訂閲)每週3000條爽用,幾乎用唔曬,上下文窗口256K。ChatGPT Pro不限量,上下文窗口400K。

GPT-5.5 Pro 只有Pro、Business、企業同教育用戶用得。

記憶增強同比性化功能目前只對網頁版Plus同Pro用戶開放,手機端好快跟進。



GPT-5 系列從發佈到而家,俾人鬧咗差唔多一年。網上5000幾人聯名要求換返老模型,70%同信任有關嘅討論都係負面嘅。

鬧得最多嘅就兩件事。亂作嘢、廢話太多。

Sam Altman今次雖然冇「感受到原子彈爆炸」,但睇得出佢同樣好激動。

圖片

5.5 Instant 全部改曬。已經搬咗去Claude嘅朋友們,可以考慮返嚟喇。




我係木易,Top2 + 美國Top10 CS碩,而家係AI產品經理。

關注「AI信息Gap」,等AI成為你嘅外掛。




圖片

GPT-5.5 Instant,上線了。

替換掉了 GPT-5.3 Instant,成為 ChatGPT 新的默認模型。幾億人打開 ChatGPT 默認用的就是它,包括免費用戶。

圖片

最大的變化,一個數字。幻覺減少 52.5%。



我們之前聊過 GPT-5.5 的提示詞變化,那是 GPT-5.5 Thinking 和滿血版 API 的事。今天這個 Instant 是「日常版」,專門給 ChatGPT 用的。

在醫學、法律、金融這些高風險領域的測試裏,GPT-5.5 Instant 比上一代幻覺(編造事實)少了一半。用戶以前標記過的「答錯了」對話,拿出來重新測,不準確的回答減少了 37.3%。

OpenAI 官方博客放了一個數學例子,有點意思。

一道帶根號的方程問題,用戶的解題過程裏有一步算錯了。GPT-5.3 Instant 一開始說「沒問題」,後來把答案代回原方程,發現不對,直接宣佈「無解」。

原地放棄。

GPT-5.5 Instant 第一次也沒看出來。但它多走了一步,回頭檢查了代數式展開過程,找到具體哪一步算錯了,然後用公式重新解出了正確答案。

圖片

一個發現錯了會放棄,一個發現錯了會往回查。

這就是「幻覺減半」背後的東西。很重要。



來看你們最關心的,「跑分」。

競賽數學 AIME 2025 從 65.4% 漲到 81.2%,提升最大。博士級科學題 GPQA 從 78.5% 漲到 85.6%,多模態推理 MMMU-Pro 從 69.2% 漲到 76.0%,圖表推理 CharXiv 從 75.0% 漲到 81.6%。

文檔解析的錯誤率也從 14.6% 降到了 12.5%。

圖片

值得一提的是,選了 Instant 不代表只用 Instant。遇到複雜問題,ChatGPT 會自動切換到 GPT-5.5 Thinking 進行深度推理。

自動路由不佔 Thinking 的周用量(雖然你也用不完,Plus 3000 條/周)。

Thinking 推理的時候,ChatGPT 會先顯示一段「計劃」告訴你它打算怎麼做。你可以中途打斷調整方向,不用等它全想完再重來。



GPT-5.5 Instant 廢話更少了。

它的回覆比上一代少用 30.2% 的詞,行數減少 29.2%。同樣的問題,同樣的信息量,篇幅縮短將近三分之一。

OpenAI 提到了一個詞,「gratuitous emojis」。

意思是,「別硬塞表情包了」。

以前 ChatGPT 回答問題總喜歡加幾個 emoji 表情助興。現在收斂了。

它也不再動不動追問你了。以前你問一個簡單問題,它回答完還要加一句「你還想了解什麼?」現在不問了,回答完就停。

這一點在 Claude Opus 4.7 的提示詞裏也有提及。



ChatGPT 記憶新加了一個功能,叫 「記憶來源」(Memory Sources)

以前 ChatGPT 只是記住你的信息,但你不知道它在回答時引用了什麼。現在回覆旁邊會顯示一個「Sources」按鈕,點開能看到這次回答引用了哪條記憶、哪段歷史對話。

看到過時的或者有問題的記憶,直接刪掉或修改。

小細節,分享對話的時候,記憶來源不會暴露給對方。

圖片


GPT-5.5 Instant 是 OpenAI 第一個在網絡安全和生物領域被列為「高能力」(High Capability)的 Instant 級模型。

以前這個等級是推理模型的專屬。現在一個給所有人免費用的日常模型,也到了需要同等安全防護的程度。

系統安全文檔是這樣描述的。

GPT-5.5 Instant 還沒到能獨立開發零日漏洞攻擊鏈的水平,那是「關鍵能力」門檻。但它在網絡安全領域的能力已經比 GPT-5.4 強了不少。



GPT-5.5 Instant 已經向所有 ChatGPT 用戶推送,還沒看到的耐心等待就行。

API 模型 ID gpt-5.5-chat-latest

圖片

來看 ChatGPT 最新額度。

GPT-5.5 Instant,免費用戶每 5 小時 10 條,超了自動降級到 mini 模型,上下文窗口 16K。ChatGPT Plus 和 Go 每 3 小時 160 條,上下文窗口 32K。ChatGPT Pro 不限量,上下文窗口 128K。

GPT-5.5 Thinking,付費可選。ChatGPT Plus 和 Business(老 Team 訂閲)每週 3000 條爽用,幾乎用不完,上下文窗口 256K。ChatGPT Pro 不限量,上下文窗口 400K。

GPT-5.5 Pro 只有 Pro、Business、企業和教育用戶能用。

記憶增強和個性化功能目前只對網頁版 Plus 和 Pro 用戶開放,手機端很快跟進。



GPT-5 系列從發佈到現在,被罵了快一年。網上 5000 多人聯名要求換回老模型,70% 和信任有關的討論都是負面的。

罵得最多的就兩件事。瞎編亂造、廢話太多。

Sam Altman 這次雖然沒有「感受到原子彈爆炸」,但看得出來他同樣很激動。

圖片

5.5 Instant 全改了。已經搬到 Claude 的朋友們,可以考慮回來了。




我是木易,Top2 + 美國 Top10 CS 碩,現在是 AI 產品經理。

關注「AI信息Gap」,讓 AI 成為你的外掛。




圖片