幻覺減半,廢話砍三成!被罵一年,OpenAI 終於把 ChatGPT 改對了
整理版優先睇
GPT-5.5 Instant 上線:幻覺減半、廢話少三成,ChatGPT 日常模型大改進
呢篇文章係AI產品經理木易為我哋整理OpenAI最新推出嘅GPT-5.5 Instant。呢個模型取代咗GPT-5.3 Instant,成為ChatGPT嘅新預設模型,無論係免費用戶定付費用戶,打開ChatGPT預設就係用呢個。整體嚟講,呢次更新針對用戶鬧得最犀利嘅兩大問題——幻覺同廢話——作出咗顯著改善。官方數據顯示幻覺減少咗52.5%,廢話平均少用三成,呢個係好大嘅進步。
文章仲提到,以前GPT-5系列因為幻覺嚴重同廢話太多,被超過5000人聯署要求換返舊模型,70%同信任有關嘅討論都係負面。而家呢個5.5 Instant版本完全改咗呢啲問題。一個數學例子就清楚見到新模型會回頭檢查錯咗嘅步驟,而唔係直接放棄或話「無解」。跑分方面,AIME、GPQA等都有雙位數升幅。另外,複雜問題會自動切換到Thinking模型,顯示計劃俾用戶睇,仲可以中途打斷。新功能「記憶來源」亦提高咗透明度。作者結論係,呢個版本值得回歸,尤其係已經搬去Claude嘅用戶可以考慮返嚟。
- 幻覺減少52.5%,錯誤回答減少37.3%;數學例子顯示新模型會回頭檢查錯誤,而非放棄。
- 廢話減少30.2%,回覆更簡潔;唔再硬塞表情包,唔再追問用戶。
- 跑分全面提升:AIME 2025從65.4%升到81.2%,GPQA、MMMU-Pro、CharXiv等都有上升。
- 智能路由:遇到複雜問題自動切換GPT-5.5 Thinking,唔佔用周用量,顯示計劃可打斷。
- 新功能記憶來源:回覆旁邊顯示Sources按鈕,清楚知道引用了邊條記憶,方便管理。
幻覺減半,廢話少三成
GPT-5.5 Instant 上線,成為 ChatGPT 新默認模型。最大變化係幻覺減少 52.5%,用戶標記過的錯誤回答減少 37.3%。
幻覺減少52.5%
錯誤回答減少37.3%
一個數學例子好清楚:用戶解方程時算錯一步,舊模型發現不對就直接話「無解」;新模型會回頭檢查代數式,揾到具體錯嘅步驟,再用公式解出正確答案。
跑分提升,自動路由幫手
多個基準測試都有顯著進步:
- 競賽數學 AIME 2025 從 65.4% 升到 81.2%
- 博士級科學題 GPQA 從 78.5% 升到 85.6%
- 多模態推理 MMMU-Pro 從 69.2% 升到 76.0%
- 圖表推理 CharXiv 從 75.0% 升到 81.6%
- 文檔解析錯誤率由 14.6% 降到 12.5%
遇到複雜問題,ChatGPT 會自動切換到 GPT-5.5 Thinking 深度推理,唔佔用 Thinking 嘅周用量。仲會先顯示一段「計劃」話你知佢打算點做,你可以中途打斷調整方向。
自動切換到GPT-5.5 Thinking
唔佔用周用量
顯示計劃可打斷
記憶來源同其他細節
GPT-5.5 Instant 嘅回覆比上一代少用 30.2% 嘅詞,行數減少 29.2%。OpenAI 特意提到「gratuitous emojis」,即係唔好再硬塞表情包,佢哋話呢啲表情係多餘嘅。而且佢哋唔會再喺回答完後追問「仲想了解啲咩?」,直接停。
唔再硬塞表情包
回答完就停
新功能「記憶來源」(Memory Sources)令透明度大增。回覆旁邊會有個 Sources 按鈕,點開就知道今次回答引用了邊條記憶、邊段歷史對話。你可以直接刪除或修改過時嘅記憶。分享對話時,記憶來源唔會暴露俾對方。
記憶來源(Memory Sources)
Sources按鈕
呢個模型仲係第一個被列為「高能力」(High Capability)嘅 Instant 級模型,以前只有推理模型先有呢個等級,即係網絡安全同生物領域嘅風險防護已達標準。
高能力(High Capability)
各用戶額度如下:
- 免費用戶:每 5 小時 10 條,超額降級到 mini 模型,上下文 16K
- Plus/Go 用戶:每 3 小時 160 條,上下文 32K
- Pro 用戶:不限量,上下文 128K
- Thinking 模型:Plus 每週 3000 條,上下文 256K;Pro 不限量,上下文 400K
作者總結:值得回歸
GPT-5 系列從發佈到而家被罵咗差唔多一年,超過 5000 人聯名要求換返舊模型,70% 同信任有關嘅討論都係負面。最多人鬧嘅就係幻覺同廢話。
5000多人聯名要求換回老模型
70%負面討論
作者木易(AI 產品經理)認為,5.5 Instant 已經改曬呢啲問題,幻覺減半、廢話少三成,仲加埋智能路由同記憶來源,係一個真正值得用嘅日常模型。佢話已經搬去 Claude 嘅用戶可以考慮返嚟。
GPT-5.5 Instant,上線咗喇。
取代咗 GPT-5.3 Instant,成為ChatGPT新嘅默認模型。幾億人開ChatGPT默認就係用佢,包括免費用戶。

最大嘅變化,一個數字。幻覺減少 52.5%。
我哋之前傾過 GPT-5.5 嘅提示詞變化,嗰係 GPT-5.5 Thinking 同滿血版API嘅事。今日呢個Instant係「日常版」,專門畀ChatGPT用嘅。
喺醫學、法律、金融呢啲高風險領域嘅測試入面,GPT-5.5 Instant 比上一代幻覺(作嘢)少咗一半。用戶以前標記過嘅「答錯咗」對話,拎返出嚟重新測,唔準確嘅回答減少咗37.3%。
OpenAI官方博客擺咗一個數學例子,有啲意思。
一條帶根號嘅方程問題,用戶嘅解題過程入面有一步計錯咗。GPT-5.3 Instant 一開始話「冇問題」,後來將答案代返原方程,發現唔啱,直接宣佈「冇解」。
即刻放棄咗。
GPT-5.5 Instant 第一次都睇唔出嚟。但佢行多咗一步,回頭檢查咗代數式展開過程,揾到具體邊一步計錯咗,然後用公式重新解出正確答案。

一個發現錯咗會放棄,一個發現錯咗會往回查。
呢個就係「幻覺減半」背後嘅嘢。好重要。
嚟睇你哋最關心嘅,「跑分」。
競賽數學AIME 2025由65.4%升到81.2%,提升最大。博士級科學題GPQA由78.5%升到85.6%,多模態推理MMMU-Pro由69.2%升到76.0%,圖表推理CharXiv由75.0%升到81.6%。
文檔解析嘅錯誤率亦由14.6%降到12.5%。

值得一提嘅係,揀咗Instant唔代表只用Instant。遇到複雜問題,ChatGPT會自動切換到 GPT-5.5 Thinking 進行深度推理。
自動路由唔佔Thinking嘅週用量(雖然你用唔曬,Plus 3000條/週)。
Thinking推理嘅時候,ChatGPT會先顯示一段「計劃」話畀你知佢打算點做。你可以中途打斷調整方向,唔使等佢全部諗完再嚟過。
GPT-5.5 Instant 廢話更少咗。
佢嘅回覆比上一代少用30.2%嘅詞,行數減少29.2%。同樣嘅問題,同樣嘅信息量,篇幅縮短咗將近三分之一。
OpenAI提到咗一個詞,「gratuitous emojis」。
即係話,「唔好硬塞表情包啦」。
以前ChatGPT回答問題總係鍾意加幾個emoji表情助興。而家收斂咗。
佢亦唔再成日追問你。以前你問一個簡單問題,佢回答完仲要加一句「你仲想了解啲咩?」而家唔問喇,回答完就停。
呢一點喺 Claude Opus 4.7 嘅提示詞入面都有提及。
ChatGPT記憶新加咗一個功能,叫 記憶來源(Memory Sources)。
以前ChatGPT只係記住你嘅資訊,但你唔知佢喺回答時引用咗啲咩。而家回覆旁邊會顯示一個「Sources」掣,㩒開會睇到呢次回答引用咗邊條記憶、邊段歷史對話。
見到過時或者有問題嘅記憶,直接刪除或者修改。
小細節,分享對話嘅時候,記憶來源唔會暴露畀對方。

GPT-5.5 Instant 係OpenAI第一個喺網絡安全同生物領域俾列為「高能力」(High Capability)嘅Instant級模型。
以前呢個等級係推理模型嘅專屬。而家一個畀所有人免費使用嘅日常模型,都去到需要同等安全防護嘅程度。
系統安全文檔係咁樣描述嘅。
GPT-5.5 Instant 未到能獨立開發零日漏洞攻擊鏈嘅水平,嗰係「關鍵能力」門檻。但佢喺網絡安全領域嘅能力已經比 GPT-5.4 強咗唔少。
GPT-5.5 Instant 已經向所有ChatGPT用戶推送,未睇到嘅耐心等待就得。
API模型ID gpt-5.5-chat-latest。

嚟睇ChatGPT最新額度。
GPT-5.5 Instant,免費用戶每5小時10條,超咗自動降級到mini模型,上下文窗口16K。ChatGPT Plus同Go每3小時160條,上下文窗口32K。ChatGPT Pro不限量,上下文窗口128K。
GPT-5.5 Thinking,付費可選。ChatGPT Plus同Business(老Team訂閲)每週3000條爽用,幾乎用唔曬,上下文窗口256K。ChatGPT Pro不限量,上下文窗口400K。
GPT-5.5 Pro 只有Pro、Business、企業同教育用戶用得。
記憶增強同比性化功能目前只對網頁版Plus同Pro用戶開放,手機端好快跟進。
GPT-5 系列從發佈到而家,俾人鬧咗差唔多一年。網上5000幾人聯名要求換返老模型,70%同信任有關嘅討論都係負面嘅。
鬧得最多嘅就兩件事。亂作嘢、廢話太多。
Sam Altman今次雖然冇「感受到原子彈爆炸」,但睇得出佢同樣好激動。

5.5 Instant 全部改曬。已經搬咗去Claude嘅朋友們,可以考慮返嚟喇。
我係木易,Top2 + 美國Top10 CS碩,而家係AI產品經理。
關注「AI信息Gap」,等AI成為你嘅外掛。

GPT-5.5 Instant,上線了。
替換掉了 GPT-5.3 Instant,成為 ChatGPT 新的默認模型。幾億人打開 ChatGPT 默認用的就是它,包括免費用戶。

最大的變化,一個數字。幻覺減少 52.5%。
我們之前聊過 GPT-5.5 的提示詞變化,那是 GPT-5.5 Thinking 和滿血版 API 的事。今天這個 Instant 是「日常版」,專門給 ChatGPT 用的。
在醫學、法律、金融這些高風險領域的測試裏,GPT-5.5 Instant 比上一代幻覺(編造事實)少了一半。用戶以前標記過的「答錯了」對話,拿出來重新測,不準確的回答減少了 37.3%。
OpenAI 官方博客放了一個數學例子,有點意思。
一道帶根號的方程問題,用戶的解題過程裏有一步算錯了。GPT-5.3 Instant 一開始說「沒問題」,後來把答案代回原方程,發現不對,直接宣佈「無解」。
原地放棄。
GPT-5.5 Instant 第一次也沒看出來。但它多走了一步,回頭檢查了代數式展開過程,找到具體哪一步算錯了,然後用公式重新解出了正確答案。

一個發現錯了會放棄,一個發現錯了會往回查。
這就是「幻覺減半」背後的東西。很重要。
來看你們最關心的,「跑分」。
競賽數學 AIME 2025 從 65.4% 漲到 81.2%,提升最大。博士級科學題 GPQA 從 78.5% 漲到 85.6%,多模態推理 MMMU-Pro 從 69.2% 漲到 76.0%,圖表推理 CharXiv 從 75.0% 漲到 81.6%。
文檔解析的錯誤率也從 14.6% 降到了 12.5%。

值得一提的是,選了 Instant 不代表只用 Instant。遇到複雜問題,ChatGPT 會自動切換到 GPT-5.5 Thinking 進行深度推理。
自動路由不佔 Thinking 的周用量(雖然你也用不完,Plus 3000 條/周)。
Thinking 推理的時候,ChatGPT 會先顯示一段「計劃」告訴你它打算怎麼做。你可以中途打斷調整方向,不用等它全想完再重來。
GPT-5.5 Instant 廢話更少了。
它的回覆比上一代少用 30.2% 的詞,行數減少 29.2%。同樣的問題,同樣的信息量,篇幅縮短將近三分之一。
OpenAI 提到了一個詞,「gratuitous emojis」。
意思是,「別硬塞表情包了」。
以前 ChatGPT 回答問題總喜歡加幾個 emoji 表情助興。現在收斂了。
它也不再動不動追問你了。以前你問一個簡單問題,它回答完還要加一句「你還想了解什麼?」現在不問了,回答完就停。
這一點在 Claude Opus 4.7 的提示詞裏也有提及。
ChatGPT 記憶新加了一個功能,叫 「記憶來源」(Memory Sources)。
以前 ChatGPT 只是記住你的信息,但你不知道它在回答時引用了什麼。現在回覆旁邊會顯示一個「Sources」按鈕,點開能看到這次回答引用了哪條記憶、哪段歷史對話。
看到過時的或者有問題的記憶,直接刪掉或修改。
小細節,分享對話的時候,記憶來源不會暴露給對方。

GPT-5.5 Instant 是 OpenAI 第一個在網絡安全和生物領域被列為「高能力」(High Capability)的 Instant 級模型。
以前這個等級是推理模型的專屬。現在一個給所有人免費用的日常模型,也到了需要同等安全防護的程度。
系統安全文檔是這樣描述的。
GPT-5.5 Instant 還沒到能獨立開發零日漏洞攻擊鏈的水平,那是「關鍵能力」門檻。但它在網絡安全領域的能力已經比 GPT-5.4 強了不少。
GPT-5.5 Instant 已經向所有 ChatGPT 用戶推送,還沒看到的耐心等待就行。
API 模型 ID gpt-5.5-chat-latest。

來看 ChatGPT 最新額度。
GPT-5.5 Instant,免費用戶每 5 小時 10 條,超了自動降級到 mini 模型,上下文窗口 16K。ChatGPT Plus 和 Go 每 3 小時 160 條,上下文窗口 32K。ChatGPT Pro 不限量,上下文窗口 128K。
GPT-5.5 Thinking,付費可選。ChatGPT Plus 和 Business(老 Team 訂閲)每週 3000 條爽用,幾乎用不完,上下文窗口 256K。ChatGPT Pro 不限量,上下文窗口 400K。
GPT-5.5 Pro 只有 Pro、Business、企業和教育用戶能用。
記憶增強和個性化功能目前只對網頁版 Plus 和 Pro 用戶開放,手機端很快跟進。
GPT-5 系列從發佈到現在,被罵了快一年。網上 5000 多人聯名要求換回老模型,70% 和信任有關的討論都是負面的。
罵得最多的就兩件事。瞎編亂造、廢話太多。
Sam Altman 這次雖然沒有「感受到原子彈爆炸」,但看得出來他同樣很激動。

5.5 Instant 全改了。已經搬到 Claude 的朋友們,可以考慮回來了。
我是木易,Top2 + 美國 Top10 CS 碩,現在是 AI 產品經理。
關注「AI信息Gap」,讓 AI 成為你的外掛。
