剛剛,GPT 語音模型最大升級來了!能思考、會同傳,還能邊聊邊幹活

作者:AI信息Gap
日期:2026年5月8日 上午1:43
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

OpenAI推出GPT-Realtime-2等三個語音模型,語音AI首次具備推理能力

整理版摘要

呢篇文章由AI產品經理木易撰寫,介紹OpenAI最新發布嘅三個實時語音模型:GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper。作者想帶出嘅核心訊息係語音模型已經從單純嘅語音互動進化到能夠思考、推理同並行處理任務嘅階段。

文章整理咗OpenAI官方發布嘅技術細節、性能提升數據(例如Big Bench Audio測試從81.4%升至96.6%)、應用案例(Zillow、Priceline、德國電信)同價格調整。整體結論係呢次升級令語音助手更可靠、更智能,但暫時只限API使用,ChatGPT用戶要再等下。

重點係GPT-Realtime-2接入GPT-5級別推理能力,可以一邊對話一邊調用工具、處理複雜請求,仲可以穩定應對中斷。實時翻譯同流式轉寫模型亦大幅提升實用性,對於開發者同企業嚟講打開咗新可能性。

  • 結論GPT語音模型首次具備推理能力,可以並行調用工具,處理複雜請求。
  • 方法GPT-Realtime-2接入GPT-5級別推理引擎,配合128K上下文窗口同五檔推理強度。
  • 差異Big Bench Audio測試得分從81.4%升至96.6%,Zillow通話成功率從69%提升到95%。
  • 啟發:語音助手由簡單問答進化到能執行多步驟任務,例如預約睇樓、更改預訂。
  • 可行動點:開發者可透過Realtime API接入新模型,注意價格差異,並優化提示詞以達到最佳效果。
整理重點

一次過發布三個語音模型

OpenAI啱啱一口氣發布咗三個實時語音模型,全部經Realtime API向開發者開放。呢次升級唔係小修小補,而係令語音模型第一次識得「思考」。

GPT-Realtime-2第一個帶GPT-5級別推理能力嘅語音模型

另外兩個係實時翻譯模型GPT-Realtime-Translate同流式轉寫模型GPT-Realtime-Whisper。三個模型各自針對唔同場景,但都強調實時同智能。

整理重點

GPT-Realtime-2:語音模型識得思考

GPT-Realtime-2係今次主角。上一代GPT-Realtime-1.5簡單問題搞得掂,但遇到需要調用工具、多步推理嘅複雜場景就好易甩轆。

呢次接入咗GPT-5級別嘅推理能力,處理能力完全唔同量級

例如你話「幫我揾個預算2000嘅樓,避開主幹道,星期六安排睇樓」,佢會一邊同你傾偈,一邊並行調用搜索、篩選、日曆三個工具。過程中仲會主動講句「我check嚇你個日曆」,唔會突然靜曬。

  1. 1 上下文窗口從32K token擴展到128K token。
  2. 2 開發者可選五檔推理強度,由minimal到xhigh,簡單問題快回,複雜問題深度思考。
  3. 3 Big Bench Audio測試GPT-Realtime-2(high)拎到96.6%,上一代得81.4%。
  4. 4 Audio MultiChallenge指令跟隨基準:GPT-Realtime-2(xhigh)48.5%,上一代34.7%。

Zillow對抗性測試通話成功率由69%升到95%

整理重點

即時翻譯同轉寫模型

GPT-Realtime-Translate係實時翻譯模型,支援超過70種語言輸入、13種語言輸出,包括中文。佢嘅翻譯唔係等講完一句先翻,而係跟住講嘢速度同步翻,做到真·同聲傳譯。

印度AI語音公司BolnaAI測試發現,詞錯誤率比其他模型低12.5%

GPT-Realtime-Whisper係流式轉寫模型,開會、直播、客服通話,一邊講一邊出文字。佢比舊版Whisper貴約三倍,但換來實時性。

  • GPT-Realtime-Translate:每分鐘0.034美元(約兩毫子人民幣)。
  • GPT-Realtime-Whisper:每分鐘0.017美元(約一毫二人民幣)。
  • 舊版Whisper每分鐘0.006美元,新版貴咗但即時出字。

目前三個新語音模型都只支援API調用,ChatGPT語音模式未更新

整理重點

價格調整同實際應用

GPT-Realtime-2價格較高:每百萬音頻輸入token 32美元,緩存輸入0.4美元,每百萬音頻輸出token 64美元。不過其他兩個模型按分鐘計費,算係有性價比。

美國地產平台Zillow已經用GPT-Realtime-2,通話成功率飆升

Zillow AI負責人Josh Weisberg表示,經過提示詞優化,對抗性測試通話成功率由69%升到95%,合規性亦更穩定。在線旅遊平台Priceline用佢做語音助手,用戶可以語音搜航班、改酒店、查延誤。

  • 德國電信測試GPT-Realtime-Translate做跨語言客服。
  • IntercomGleanGenspark等公司都係第一批測試者。

OpenAI官方話ChatGPT語音更新「正在整,唔好急

整理重點

點樣用呢個升級?

開發者可以即刻透過Realtime API接入呢三個模型。想用好GPT-Realtime-2,關鍵係設計清晰嘅提示詞,等模型知道幾時需要深度推理、幾時快速回覆。

建議從minimal推理強度開始,逐步調整到xhigh

翻譯同轉寫模型適合客服、會議記錄、直播字幕等場景。留意價格差異,如果預算有限,可以先用WhisperTranslate,再按需升級。

GPT 語音模型,終於更新咗。

啱啱,OpenAI 一次過發佈咗三個即時語音模型,全部經 Realtime API 向開發者開放。

GPT-Realtime-2,第一個有 GPT-5 級別推理能力嘅語音模型。佢喺同你傾偈嘅同時可以呼叫工具、處理複雜請求,中途被打斷都可以繼續對話。

GPT-Realtime-Translate,即時翻譯模型。支援70多種語言,跟住講者嘅語速同步翻譯(呢個絕對係「同聲傳譯」啦)。

GPT-Realtime-Whisper,即時轉錄模型。你一路講,佢一路轉錄成文字。

圖片

美國最大嘅房地產平台 Zillow 已經用咗 GPT-Realtime-2。喺最難嘅對抗性測試中,通話成功率由69%飆升到95%。



GPT-Realtime-2 係今次嘅主角。

上一代 GPT-Realtime-1.5 應付到簡單問題,但遇到需要呼叫工具、多步推理嘅複雜情況就容易甩轆。今次嘅升級版接入咗 GPT-5 級別嘅推理能力,處理能力完全唔同一個級數。

例如你同佢講「幫我揾一個預算2000嘅樓,避開主路,星期六安排睇樓」,佢可以一邊同你傾偈,一邊同時呼叫搜索、篩選、日曆三個工具。處理期間仲會主動講一句「我查嚇你嘅日曆」,唔會突然沉默令你白等。

你講到一半改變主意,佢可以即刻調整。遇到真係搞唔掂嘅請求,佢會同你講「我而家有啲困難」,唔會直接收線或者扮聽唔到。

GPT-Realtime-2 嘅上下文窗口由32K token擴展到128K。開發者可以從五級推理強度中揀,由minimal到xhigh,簡單問題快啲答,複雜問題深度思考。

Big Bench Audio 語音模型嘅「智商」測試,GPT-Realtime-2(high)拎到96.6%,上一代81.4%。Audio MultiChallenge 指令跟隨基準測試,GPT-Realtime-2(xhigh)48.5%,上一代34.7%。兩項都提升咗十幾個百分點。

圖片


Zillow 係第一批用 GPT-Realtime-2 嘅公司之一。

Zillow AI負責人Josh Weisberg俾咗一組數據。喺佢哋最難嘅對抗性測試中,經過提示詞優化,通話成功率由69%提升到95%,升咗26個百分點。美國公平住房法規嘅合規性亦都更穩定,呢個對Zillow嚟講係硬指標。

呢個意味住,以前10個電話有3個會甩轆,而家基本上全部搞得掂。

在線旅遊平台Priceline喺用佢做旅行語音助手。用戶可以用語音搜航班、改酒店預訂、查航班延誤,成個旅行管理淨係靠對話就搞得掂。

圖片

德國電信喺測試 GPT-Realtime-Translate,做跨語言客服。客戶用母語講嘢,客服嗰邊聽到嘅係即時翻譯。

Intercom、Glean、Genspark都喺第一批測試名單裏面。



GPT-Realtime-Translate 嘅翻譯唔係「講完成句先翻」,而係跟住講者嘅語速一邊聽一邊翻。支援70多種語言輸入、13種語言輸出,包括中文。

印度AI語音公司BolnaAI聯合創辦人兼CTO Prateek Sachan話,喺佢哋測試印地語、泰米爾語同泰盧固語嘅場景入面,GPT-Realtime-Translate 嘅詞錯誤率比佢哋測過嘅所有其他模型低12.5%。

圖片

GPT-Realtime-Whisper 係流式轉錄模型。開會、直播、客服通話,你講嘢嘅同時文字就出咗嚟。



劃重點,目前呢三個新語音模型都淨係支援API呼叫,ChatGPT裏面嘅語音模式仲未更新。

模型變強咗,價格都變高咗。

GPT-Realtime-2 每百萬音頻輸入token 32美元,快取輸入0.4美元,每百萬音頻輸出token 64美元。

圖片

其他兩個模型都係按時長計費,都算幾有性價比。

GPT-Realtime-Translate 每分鐘0.034美元,摺合人民幣大約兩毫子。

GPT-Realtime-Whisper 每分鐘0.017美元,大約一毫二。

之前嘅Whisper轉錄模型係每分鐘0.006美元。新嘅流式版本貴咗大約3倍,換嚟嘅係即時性。



對於ChatGPT,OpenAI官方仲專門澄清咗一下。

"We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking."

我哋知道你哋等ChatGPT語音更新等到好心急。唔使急,我哋整緊。

語音模型,都「識得思考」喇。




我係木易,Top2 + 美國Top10 CS碩士,而家係 AI 產品經理。

關注「AI信息Gap」,令 AI 成為你嘅外掛。




圖片

GPT 語音模型,終於更新了。

剛剛,OpenAI 一口氣發佈了三個實時語音模型,全部通過 Realtime API 向開發者開放。

GPT-Realtime-2,第一個帶 GPT-5 級別推理能力的語音模型。它在和你聊天的同時能調用工具、處理複雜請求,中途被打斷也能繼續對話。

GPT-Realtime-Translate,實時翻譯模型。支持 70 多種語言,跟着說話者的語速同步翻譯(這就是妥妥的「同聲傳譯」啊)。

GPT-Realtime-Whisper,實時轉寫模型。你一邊說,它一邊轉錄成文字。

圖片

美國最大的房地產平台 Zillow 已經用上了 GPT-Realtime-2。在最難的對抗性測試中,通話成功率從 69% 飆升到了 95%。



GPT-Realtime-2 是這次的主角。

上一代 GPT-Realtime-1.5 接得住簡單問題,但遇到需要調用工具、多步推理的複雜場景就容易掉鏈子。這次的升級版接入了 GPT-5 級別的推理能力,處理能力完全不在一個量級。

比如你對它說「幫我找一個預算 2000 的房子,避開主幹道,週六安排看房」,它能一邊和你聊天,一邊並行調用搜索、篩選、日曆三個工具。處理過程中還會主動說一句「我查一下你的日曆」,不會突然沉默讓你乾等。

你說到一半改了主意,它能及時調整。遇到實在處理不了的請求,它會告訴你「我現在有點困難」,不會直接掛掉或者裝沒聽見。

GPT-Realtime-2 的上下文窗口從 32K token 擴展到了 128K。開發者可以從五檔推理強度中選擇,從 minimal 到 xhigh,簡單問題快速回復,複雜問題深度思考。

Big Bench Audio 語音模型的「智商」測試,GPT-Realtime-2(high)拿到 96.6%,上一代 81.4%。Audio MultiChallenge 指令跟隨基準測試,GPT-Realtime-2(xhigh)48.5%,上一代 34.7%。兩項都提升了十幾個百分點。

圖片


Zillow 是第一批用上 GPT-Realtime-2 的公司之一。

Zillow AI 負責人 Josh Weisberg 給出了一組數據。在他們最難的對抗性測試中,經過提示詞優化,通話成功率從 69% 提升到了 95%,漲了 26 個百分點。美國公平住房法規的合規性也更穩定,這對 Zillow 來說是硬指標。

這意味着,以前 10 個電話裏有 3 個會掉鏈子,現在基本全能搞定。

在線旅遊平台 Priceline 在用它做旅行語音助手。用戶可以用語音搜航班、改酒店預訂、查航班延誤,整套旅行管理全靠對話就能完成。

圖片

德國電信在測試 GPT-Realtime-Translate,做跨語言客服。客戶用母語說話,客服那邊聽到的是實時翻譯。

Intercom、Glean、Genspark 也都在第一批測試名單裏。



GPT-Realtime-Translate 的翻譯不是「說完一整句再翻」,是跟着說話者的語速邊聽邊翻譯。支持 70 多種語言輸入、13 種語言輸出,包括中文。

印度 AI 語音公司 BolnaAI 聯合創始人兼 CTO Prateek Sachan 說,在他們測試印地語、泰米爾語和泰盧固語的場景中,GPT-Realtime-Translate 的詞錯誤率比他們測過的所有其他模型低 12.5%。

圖片

GPT-Realtime-Whisper 是流式轉寫模型。開會、直播、客服通話,你說話的同時文字就出來了。



劃重點,當前這三個新語音模型都只支持 API 調用,ChatGPT 裏的語音模式還沒有更新。

模型變強了,價格也變高了。

GPT-Realtime-2 每百萬音頻輸入 token 32 美元,緩存輸入 0.4 美元,每百萬音頻輸出 token 64 美元。

圖片

其他兩個模型都是按照時長計費,還是相當有性價比的。

GPT-Realtime-Translate 每分鐘 0.034 美元,摺合人民幣大約兩毛錢。

GPT-Realtime-Whisper 每分鐘 0.017 美元,大約一毛二。

之前的 Whisper 轉寫模型是每分鐘 0.006 美元。新的流式版本貴了大約 3 倍,換來的是實時性。



對於 ChatGPT,OpenAI 官方還專門澄清了一下。

「We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.」

我們知道你們等 ChatGPT 語音更新等得很着急。別急,我們正在做。

語音模型,也「能思考」了。




我是木易,Top2 + 美國 Top10 CS 碩,現在是 AI 產品經理。

關注「AI信息Gap」,讓 AI 成為你的外掛。




圖片