剛剛,OpenAI 放出三個語音模型,順便殺死了「同傳」
整理版優先睇
OpenAI 發布三個即時語音模型,GPT-Realtime-Translate 每分鐘 $0.034,衝擊同聲傳譯行業
呢篇文章介紹 OpenAI 最新推出三個即時語音模型:GPT-Realtime-2(對話)、GPT-Realtime-Translate(翻譯)、GPT-Realtime-Whisper(轉錄)。作者認為最大亮點係翻譯模型,支援 70 幾種語言輸入,即時翻譯成 13 種語言輸出,而且保留說話者嘅語調同情感。最震撼嘅係成本——每分鐘只需 $0.034(約 2 毛 5 人民幣),開發者可以用 Realtime API 輕鬆接入。
文章同時深入講解同聲傳譯呢個職業。同傳係翻譯界金字塔頂端,日薪過萬,但壓力極大,每 15-20 分鐘就要輪換,培訓門檻極高,全球專業同傳只得 2000 幾人。而家 AI 翻譯成本係人類嘅萬分之一,唔使休息,唔會崩潰,而且正在接近「即時現場翻譯」嘅水平。作者引用字節跳動、科大訊飛等案例,指出行業早已被威脅,但 OpenAI 將即時翻譯標準化為廉價 API,令到「殺死同傳」變成可大規模部署嘅產品。
最後,文章總結 OpenAI 鋪齊咗語音 AI 嘅基礎設施:對話用 GPT-Realtime-2,翻譯用 GPT-Realtime-Translate,轉錄用 GPT-Realtime-Whisper。開發者可以好似砌積木咁組合,創造新應用。作者認為,同傳行業嘅終局可能已經來臨。
- OpenAI 推出三個即時語音模型:GPT-Realtime-2(對話)、GPT-Realtime-Translate(翻譯)、GPT-Realtime-Whisper(轉錄),其中翻譯模型成本極低。
- GPT-Realtime-Translate 每分鐘成本 $0.034(約 2 毛 5),為人類同傳日薪(1.2-2.1 萬)嘅萬分之一,且支援 70+ 語言輸入、13 語言輸出,保留語調情感。
- 同傳行業門檻高、壓力大:聯合國同傳需精通多種官方語言,每 15-20 分鐘輪換,全球專業人才不足 3000 人。
- 傳統級聯式翻譯(語音→文字→翻譯→語音)會丟失信息,端到端嘅 GPT-Realtime-Translate 直接處理原始音頻,更接近真人翻譯。
- 開發者可透過 Realtime API(WebRTC/WebSocket/SIP)低成本集成呢啲模型,快速構建語音應用,加速行業變革。
OpenAI 博客文章
Advancing voice intelligence with new models in the API
OpenAI Realtime API 文檔
Real-time voice and audio API guide
GPT-Realtime 模型文檔
API reference for gpt-realtime models
OpenAI Realtime Translation Cookbook
示例:使用 Realtime API 實現單向翻譯
三個模型,三個場景
OpenAI 最新推出三個即時語音模型,分別對應語音交互嘅三大場景:對話、翻譯同轉錄。
- GPT-Realtime-2:最強語音模型,具備 GPT-5 級推理能力,邊聽邊想,可以打電話式互動。
- GPT-Realtime-Translate:即時語音翻譯,支援 70+ 語言輸入,13 語言輸出,保留語調情感。
- GPT-Realtime-Whisper:即時語音轉文字,一邊講一邊出字幕,適合會議記錄。
定價方面,文字 token 價格為 $4/$16(每百萬 token),音頻 token 為 $32/$64。翻譯功能單獨計價,每分鐘 $0.034(約 2 毛 5 人民幣)。
能幹活嘅嘴:GPT-Realtime-2
呢個模型令語音 Agent 由「能聊天」變成「能幹活」。關鍵升級包括:
- GPT-5 級推理:喺語音對話中處理複雜多步推理。
- 更好嘅工具調用:可以精準調用外部工具,如查數據庫、調 API。
- 自然對話處理:能夠處理打斷同話題切換,唔會失上下文。
- 128K 上下文窗口:比之前 32K 翻咗四倍。
- 更像人嘅聲音:語音合成自然度同表現力提升。
殺死同傳:GPT-Realtime-Translate 嘅衝擊
GPT-Realtime-Translate 係端到端處理原始音頻,克服咗傳統級聯式翻譯(語音→文字→翻譯→語音)嘅缺點,保留情感、語調、語速,更接近「現場翻譯」。
- 1 同傳日薪 1.2 萬至 2.1 萬人民幣,但壓力極大,每 15-20 分鐘輪換一次。
- 2 培訓門檻極高:聯合國要求精通至少三種官方語言,考試六場無原文稿。北京語言大學同傳專業每年只收 15 人。
- 3 全球專業同聲傳譯人才約 2000 人,中國頂級同傳約 30 人。
OpenAI 將即時翻譯標準化為廉價 API,任何開發者都能輕鬆接入,直接跳過實驗室 demo 階段,令「殺死同傳」變成可大規模部署嘅產品。
Whisper 同 AI 語音基礎設施
GPT-Realtime-Whisper 係流式語音識別,延遲極低,適合即時字幕、會議記錄。配合翻譯模型,會議行業服務商可能要重新諗生存模式。
總括來講,三個模型鋪齊咗語音 AI 嘅基礎設施:對話、翻譯、轉錄。開發者可以用 Realtime API 組合創造新產品,拎住呢三塊積木,搭出唔同嘅可能性。
剛剛,OpenAI 推出咗三個全新嘅實時語音模型,其中一個翻譯模型可以將 70 幾種語言即時翻譯做 13 種語言輸出,每分鐘成本大概兩毫半。
同聲傳譯呢個行業,宜家可能,要迎來佢嘅終局喇。

發佈咗啲乜
今次發佈嘅三個模型,分別對應語音交互嘅三大場景:對話、翻譯、轉錄。
GPT-Realtime-2,係 OpenAI 目前最勁嘅語音模型,具備 GPT-5 級別嘅推理能力。佢可以邊聽邊諗,喺對話中實時解決複雜問題。可以理解為:一個可以打電話嘅 GPT-5。
GPT-Realtime-Translate,實時語音翻譯。支援 70 幾種語言輸入,翻譯做 13 種語言輸出,翻譯嘅同時仲可以保留講嘢者嘅語調同情感。
GPT-Realtime-Whisper,實時語音轉文字。一邊講嘢一邊出字幕,適合用嚟做實時字幕、會議記錄。

三個模型都透過 Realtime API 對外開放,開發者可以用 WebRTC、WebSocket 或者 SIP 接入。
02可以幫手做嘢把口
GPT-Realtime-2 係 OpenAI 推出嘅第二代實時語音模型,亦係目前 Realtime API 入面推理能力最強嘅一個。
OpenAI 對佢嘅定位係:令語音 Agent 從「傾得偈」變成「做得嘢」。
佢嘅幾個關鍵升級:
• GPT-5 級推理:可以喺語音對話中處理複雜嘅多步推理任務,唔再只係簡單嘅問答
• 更好嘅工具調用:可以精準咁調用外部工具,例如查數據庫、調 API,呢個意味住語音 Agent 可以真正「做嘢」喇
• 自然嘅對話處理:可以處理打斷、話題切換,唔會因為你插咗句嘴就冇咗上文下理
• 128K 上下文窗口:之前嘅 gpt-realtime 得 32K,宜家翻咗四倍
• 更加似人聲:語音合成嘅自然度同表現力都有提升,可以更好咁理解同執行系統指令
用過 ChatGPT 語音模式嘅應該都好有感受,相比起直接嘅 chat,語音版嘅智能好差,幾乎唔會思考,更加唔會調用工具。
因為工具調用需要時間,語音場景又對延遲極度敏感,所以之前索性做咗一個好簡單嘅版本。傾到偈就算,幹活就唔好諗佢做其他嘢。
但宜家,呢個問題解決咗。
GPT-Realtime-2 可以邊傾邊諗邊調用工具,你講出一個需求,佢可以完成日曆查找、更新 CRM,直接開口就搞掂。
03定價
文本 token 嘅價格係 $4/$16(輸入/輸出,每百萬 token)。
音頻 token 就係 $32/$64。
GPT-Realtime-Translate 嘅翻譯功能會分開計價,每分鐘 $0.034,大約人民幣 2 毫 5。
呢個價格之後會詳細講,因為佢對同傳行業,可能會係毀滅性嘅衝擊。
04實際案例
OpenAI 喺網誌入面,提到咗幾個已經在用嘅企業:
德國電信正喺度基於 GPT-Realtime-Translate 打造客服系統,等客戶用自己最舒服嘅語言溝通,模型負責實時翻譯。
Priceline 喺度做一個旅行語音助手,旅客落地之後可以直接用語音管理行程,語言不通都冇問題,模型實時翻譯。
Vimeo 亦喺度合作中,具體做嘅係影片相關嘅實時語音場景。
05影片 Demo
OpenAI 同步放出咗一段 4 分鐘嘅示範影片,展示咗翻譯同語音 Agent 兩個場景。
先睇翻譯功能。
Demo 入面一個人用法文發言,模型實時將法文翻譯成英文輸出,音頻直接從手提電腦捕獲,冇任何後期編輯。
效果可以話係,非常驚艷。
模型會一邊聽一邊翻譯,等關鍵詞(例如動詞)出現之後即刻開始輸出,聽起嚟似兩個人在自然對話。
如果你中途突然轉做德文,模型都可以無縫跟上,冇任何卡頓。遇到 GPT、OpenAI、computer use 呢類技術術語,都一樣可以準確處理。
再睇語音 Agent。
Demo 中對住手機上嘅個人助手講一句:
“ 我等陣有個客戶會議,可唔可以幫我睇嚇個日程?
模型會即刻睇日曆,回覆話 12 分鐘之後有一個同 Sablecrest Robotics 嘅 CTO Alex Kim 嘅會議。之後叫佢更新 CRM,將今日嘅會議摘要同跟進步驟入落系統。
呢度有個細節:模型喺執行呢啲操作嘅時候,唔係沉默咁處理完再一次性畀結果,而係會主動同你講「等我攞最新嘅上下文,然後更新你嘅 CRM」。
呢個「邊做邊報告」嘅能力叫 preamble,係 GPT-Realtime-2 嘅一個關鍵設計。以前嘅語音 Agent 調工具嘅時候,用戶只能乾等,唔知佢做緊乜。
宜家佢會邊推理邊同你講嘢,體驗完全唔同曬。
Demo 中話:
06“ 語音,宜家可以真正成為主要交互界面喇。
殺死同傳
跟住講嚇今次發佈入面,我覺得可能最值得詳細講嘅部分。
GPT-Realtime-Translate 呢個模型,睇起嚟只係三個新模型之中嘅一個,但佢所指向嘅行業,係一個曾經企喺翻譯界金字塔頂端嘅職業:
同聲傳譯。
07塔尖職業
同聲傳譯,即係「同傳」,係翻譯行業中公認難度最高、門檻最高、人工亦都最高嘅工種。
佢嘅工作方式大致係咁:喺國際會議或者外交場合,譯員坐喺隔音嘅口譯室,戴住耳機聽台上嘅發言,幾乎同時將聽到嘅內容翻譯成另一種語言,對住咪高峯講出嚟。
台下嘅聽眾,就透過耳機接收翻譯。
注意係「幾乎同時」。
發言者講完一句話,譯員大概只落後兩三秒。
全球 95% 嘅高端國際會議,都採用同聲傳譯。聯合國安理會、世界經濟論壇、G20 峯會,台上領導人侃侃而談嘅背後,都有同傳譯員喺口譯室入面高速運轉。
呢個職業,日薪過萬。
北京市場上,英文同傳一日嘅報酬喺 1.2 萬到 2.1 萬人民幣之間。一個譯員如果一年接 100 日工,年收入可以達到 50 萬甚至更高。
但呢啲錢,真係唔易賺。
0820 分鐘一換
高薪嘅背後,同傳嘅精神壓力其實非常之大。大咗去邊呢?

一般嚟講,同一語言需要 2 到 3 名譯員組成一組,每 15 到 20 分鐘輪換一次。
因為人嘅大腦喺同傳狀態下係滿負荷運行嘅:你要同時完成「聽、理解、記住、翻譯、表達」呢五個動作,而且唔可以停,唔可以回頭,講咗出去嘅話收唔返。
2009 年嘅聯合國大會上,就發生過一件出名嘅事。
利比亞領導人卡扎菲上台發言,原本話 15 分鐘嘅演講,佢整整講咗 96 分鐘。內容天馬行空,從「新型流感係某個國家放嘅細菌武器」講到怒撕《聯合國憲章》。
佢嘅私人阿拉伯語同傳譯員堅持咗 75 分鐘之後,終於心理狀態徹底崩潰,當場直接放棄咗翻譯,並對住咪高峯嗌咗一句:
“ 我頂唔順喇。
聯合國要臨時調派其他譯員嚟接手。
這個事所以喺翻譯界,都算係一個經典故事。
09十年磨一劍
而想成為一名合格嘅同傳譯員,門檻高得嚇人。
聯合國招聘同傳,要求英文、法文、俄文、西班牙文嘅譯員必須精通至少三門聯合國官方語言。中文同阿拉伯文譯員就必須精通英文或者法文。
而且,淨係語言好都未夠。你仲要通過聯合國嘅同傳考試:六場演講,冇原文稿,涵蓋政治、經濟、人權、環境等各種議題,唔同語速、唔同口音、唔同風格,一場一場咁翻譯。
有考生話,淨係備考就用咗七個月,每日密集練習。
國內嘅情況都類似。北京語言大學嘅同傳專業每年只收 15 人,三個學期嘅地獄訓練,第一學期畀稿翻譯,第二學期唔畀稿翻譯,第三學期唔畀稿亦唔畀譯文,直接模擬現場訪問。
但,畢業就做得嘢咩?
也未必。客戶揀人係睇你參加過咩級別嘅會議,新人……根本冇乜機會。

全球專業嘅同聲傳譯人才總共得 2000 幾人。據不完全統計,中國的頂級同傳得 30 人左右。
呢啲人,每一個都係十年以上嘅累積,每一場會議都係如履薄冰。
10兩毛五
然後……OpenAI 發佈咗個 API。
GPT-Realtime-Translate,每分鐘 $0.034,摺合人民幣大概 2 毫 5。
一個同傳譯員一日嘅報酬係 1.2 萬到 2.1 萬元。按 8 小時工作制計,每分鐘成本大約 25 到 44 元。

AI 翻譯嘅成本,係人類同傳嘅萬分之一。
而且 AI 唔使休息,唔使每 20 分鐘換人,唔會心理崩潰,支援 70 幾種輸入語言,7×24 小時侯命。
更加唔會嗌果句:老子唔撈喇!
當然喇,目前嘅 GPT-Realtime-Translate 仲未算係完美嘅「同聲傳譯」。
由 Demo 嚟睇,佢已經可以喺講嘢者仲講緊嘅時候就開始翻譯,會等關鍵詞(例如動詞)出現之後即刻輸出。但 OpenAI 嘅技術文件將佢標註為 turn-based:理想狀態下講嘢者短暫停頓,模型處理效果最好。
實際體驗介乎「逐句翻譯」同「同聲傳譯」之間。
間中亦會出現幻覺,例如產生一啲冇意義嘅聲音,或者乾脆沉默唔翻譯。
OpenAI 喺技術文件入面寫嘅係:
“ 隨住模型變得更加快、更加高效,呢個延遲會顯著降低,翻譯會變得更加無縫。
而且更重要嘅係,佢喺翻譯時可以保留講嘢者嘅情感、語調同語速。
OpenAI 喺 Cookbook 文件入面話:呢樣令佢「比以往任何時候都更加接近一個現場翻譯」(live interpreter)。

傳統嘅翻譯方案係級聯式嘅:先語音轉文字,再文字翻譯,再文字轉語音。每一步都會流失訊息,語調冇咗,情感冇咗,停頓節奏都冇咗。
GPT-Realtime-Translate 就係端到端處理原始音頻,跳過咗中間嘅文字步驟,自然可以保留更多聲音本身嘅特徵。
同傳呢個行業,唔係今日先受到威脅嘅。
字節喺舊年 7 月發佈嘅豆包同傳大模型 Seed LiveInterpret 2.0,已經喺延遲同準確率上接近人類水平。科大訊飛嘅同傳產品都做咗好幾年喇。
連聯合國婦女署都已經喺採購 AI 翻譯口譯軟件。
但 OpenAI 今次唔同。佢將實時翻譯做成咗一個標準化嘅 API,每分鐘 2 毫 5,任何開發者都可以輕鬆接入。
佢直接跳過咗實驗室 demo 階段,將「殺死同傳」呢件事,做成咗一個可以大規模部署嘅平價產品。
11仲有 Whisper
GPT-Realtime-Whisper 都順便講幾句。
Whisper 各位應該唔太陌生,OpenAI 之前已經有開源嘅語音識別模型 Whisper。但今次嘅 GPT-Realtime-Whisper 係串流版本:一邊講嘢,一邊出文字,延遲極低。
適合嘅場景有邊啲呢?
實時字幕、會議實時記錄、直播實時轉寫。
如果話 GPT-Realtime-Translate 威脅嘅係同傳,咁 GPT-Realtime-Whisper 威脅嘅就係速記員。
呢兩樣加埋,會議行業嘅服務商,可能要重新諗嚇生存模式喇……
12AI 語音基礎設施
三個模型,三個場景,可以話 OpenAI 今次係直接將語音 AI 嘅基礎設施一次過鋪齊曬。
對話有 GPT-Realtime-2,翻譯有 GPT-Realtime-Translate,轉錄有 GPT-Realtime-Whisper。
而攞到呢三塊積木,可以砌出點樣嘅產品,就睇各位嘅本事喇。
◇ ◆ ◇
相關連結:
OpenAI 網誌:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
OpenAI Realtime API 文檔:https://developers.openai.com/api/docs/guides/realtime
GPT-Realtime 模型文檔:https://developers.openai.com/api/docs/models/gpt-realtime
OpenAI Realtime Translation Cookbook:https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api
剛剛,OpenAI 放出了三個全新的實時語音模型,其中一個翻譯模型,能把 70 多種語言實時翻譯成 13 種語言輸出,每分鐘成本 2 毛錢。
同聲傳譯這個行業,現在可能,要迎來它的終局了。

發了什麼
這次發佈的三個模型,分別對應語音交互的三大場景:對話、翻譯、轉錄。
GPT-Realtime-2,是 OpenAI 目前最強的語音模型,具備 GPT-5 級別的推理能力。它能邊聽邊想,在對話中實時解決複雜問題。可以理解為:一個能打電話的 GPT-5。
GPT-Realtime-Translate,實時語音翻譯。支持 70 多種語言輸入,翻譯成 13 種語言輸出,翻譯的同時還能保留說話者的語調和情感。
GPT-Realtime-Whisper,實時語音轉文字。一邊說話一邊出字幕,適合做實時字幕、會議記錄。

三個模型都通過 Realtime API 對外開放,開發者可以用 WebRTC、WebSocket 或 SIP 接入。
02能幹活的嘴
GPT-Realtime-2 是 OpenAI 推出的第二代實時語音模型,也是目前 Realtime API 中推理能力最強的一個。
OpenAI 對它的定位是:讓語音 Agent 從「能聊天」變成「能幹活」。
它的幾個關鍵升級:
• GPT-5 級推理:能在語音對話中處理複雜的多步推理任務,不再只是簡單的問答
• 更好的工具調用:可以精準地調用外部工具,比如查數據庫、調 API,這意味着語音 Agent 可以真正「做事」了
• 自然的對話處理:能處理打斷、話題切換,不會因為你插了句嘴就丟了上下文
• 128K 上下文窗口:之前的 gpt-realtime 只有 32K,現在翻了四倍
• 更像人的聲音:語音合成的自然度和表現力都有提升,能更好地理解和執行系統指令
用過 ChatGPT 語音模式的應該都很有感受,相比於直接的 chat,語音版的智能很差,幾乎不怎麼思考,更不會調用工具。
因為工具調用需要時間,語音場景又對延遲極度敏感,所以之前索性就做了一個很簡單的版本。能聊天就行,幹活就別指望它了。
但現在,這個問題解決了。
GPT-Realtime-2 能邊聊邊想邊調工具了,你說出一個需求,它可以完成日曆查找、更新完 CRM,直接動嘴就把事兒辦了。
03定價
文本 token 的價格是 $4/$16(輸入/輸出,每百萬 token)。
音頻 token 則是 $32/$64。
GPT-Realtime-Translate 的翻譯功能單獨計價,每分鐘 $0.034,大約人民幣 2 毛 5。
這個價格後面會詳細說,因為它對同傳行業,可能會是毀滅性的衝擊。
04實際案例
OpenAI 在博客裏,提到了幾個已經在用的企業:
德國電信正在基於 GPT-Realtime-Translate 打造客服系統,讓客戶用自己最舒服的語言溝通,模型負責實時翻譯。
Priceline 在做一個旅行語音助手,旅客落地後可以直接用語音管理行程,語言不通也沒關係,模型實時翻譯。
Vimeo 也在合作中,具體做的是視頻相關的實時語音場景。
05視頻 Demo
OpenAI 同步放出了一段 4 分鐘的演示視頻,展示了翻譯和語音 Agent 兩個場景。
先看翻譯功能。
Demo 裏一個人用法語發言,模型實時把法語翻譯成英語輸出,音頻直接從筆記本電腦捕獲,沒有任何後期編輯。
效果可以說是,非常驚豔。
模型會一邊聽一邊翻譯,等關鍵詞(比如動詞)出現後立即開始輸出,聽起來像兩個人在自然對話。
如果你中途突然切換成德語,模型也能無縫跟上,毫無卡頓。碰到 GPT、OpenAI、computer use 這類技術術語,也一樣能準確處理。
再看語音 Agent。
Demo 中對着手機上的個人助手說一句:
“ 我馬上有個客戶會議,能幫我看一下日程嗎?
模型會立刻查看日曆,回覆說 12 分鐘後有一個跟 Sablecrest Robotics 的 CTO Alex Kim 的會議。接着讓它更新 CRM,把今天的會議摘要和後續步驟錄入系統。
這裏有個細節:模型在執行這些操作的時候,不是沉默地處理完再一次性給結果,而是會主動跟你說「讓我拉一下最新的上下文,然後更新你的 CRM」。
這個「邊幹活邊彙報」的能力叫 preamble,是 GPT-Realtime-2 的一個關鍵設計。以前的語音 Agent 調工具的時候,用戶只能乾等着,不知道它在幹嘛。
現在它會邊推理邊跟你說話,體驗完全不一樣了。
Demo 中稱:
06“ 語音,現在可以真正成為主要交互界面了。
殺死同傳
接下來聊聊這次發佈裏,我覺得可能最值得展開一說的部分。
GPT-Realtime-Translate 這個模型,看起來只是三個新模型中的一個,但它所指向的行業,是一個曾經站在翻譯界金字塔頂端的職業:
同聲傳譯。
07塔尖職業
同聲傳譯,也就是「同傳」,是翻譯行業中公認難度最高、門檻最高、薪資也最高的工種。
它的工作方式上大體是這樣的:在國際會議或外交場合,譯員坐在隔音的口譯室裏,戴着耳機聽台上的發言,幾乎同時把聽到的內容翻譯成另一種語言,對着麥克風說出來。
台下的聽眾,則通過耳機接收翻譯。
注意是「幾乎同時」。
發言者說完一句話,譯員大約只落後兩三秒。
全球 95% 的高端國際會議,都採用同聲傳譯。聯合國安理會、世界經濟論壇、G20 峯會,台上領導人侃侃而談的背後,都有同傳譯員在口譯室裏高速運轉。
這個職業,日薪過萬。
北京市場上,英語同傳一天的報酬在 1.2 萬到 2.1 萬人民幣之間。一個譯員如果一年接 100 天活兒,年收入可以達到 50 萬甚至更高。
但這錢,真的不好賺。
0820 分鐘一換
高薪的背後,同傳的精神壓力其實非常之大。大到了什麼程度呢?

一般來說,同一語言需要 2 到 3 名譯員組成一組,每 15 到 20 分鐘輪換一次。
因為人的大腦在同傳狀態下是滿負荷運行的:你要同時完成「聽、理解、記憶、翻譯、表達」這五個動作,而且不能停,不能回頭,說出去的話收不回來。
2009 年的聯合國大會上,就發生過一件著名的事。
利比亞領導人卡扎菲上台發言,原定 15 分鐘的演講,他整整講了 96 分鐘。內容天馬行空,從「新型流感是某個國家施放的細菌武器」講到怒撕《聯合國憲章》。
他的私人阿拉伯語同傳譯員在堅持了 75 分鐘後,終於心理狀態徹底崩潰,當場直接放棄了翻譯,並對着麥克風喊了一句:
“ 我受不了了。
聯合國不得不臨時調派其他譯員來接替。
這個事故在翻譯界,也算是一大故事了。
09十年磨一劍
而想成為一名合格的同傳譯員,門檻高得嚇人。
聯合國招聘同傳,要求英語、法語、俄語、西班牙語的譯員必須精通至少三門聯合國官方語言。中文和阿拉伯語譯員則必須精通英語或法語。
而且,光語言好還不夠。你還得通過聯合國的同傳考試:六場演講,沒有原文稿,涵蓋政治、經濟、人權、環境等各種議題,不同語速、不同口音、不同風格,一場一場翻過去。
有考生說,光是備考就花了七個月,每天密集練習。
國內的情況也類似。北京語言大學的同傳專業每年只招 15 人,三個學期的魔鬼訓練,第一學期給稿子翻,第二學期不給稿子翻,第三學期不給稿子也不給譯文,直接模擬現場採訪。
但,畢業了就能上崗嗎?
也未必。客戶選人看的是你參加過什麼級別的會議,新人……根本沒什麼機會。

全球專業的同聲傳譯人才總共也就 2000 多人。據不完全統計,中國的頂級同傳也就只有 30 人左右。
這些人,每一個都是十年以上的積累,每一場會議都是如履薄冰。
10兩毛五
然後……OpenAI 發了個 API。
GPT-Realtime-Translate,每分鐘 $0.034,摺合人民幣大約 2 毛 5。
一個同傳譯員一天的報酬是 1.2 萬到 2.1 萬元。按 8 小時工作制算,每分鐘成本大約 25 到 44 元。

AI 翻譯的成本,是人類同傳的萬分之一。
而且 AI 不需要休息,不需要每 20 分鐘換人,不會心理崩潰,支持 70 多種輸入語言,7×24 小時待命。
更不會吼出那聲:老子不幹了!
當然了,目前的 GPT-Realtime-Translate 還算不上完美的「同聲傳譯」。
從 Demo 中來看,它已經能在說話者還在講的時候就開始翻譯,會等關鍵詞(比如動詞)出現後立即輸出。但 OpenAI 的技術文檔把它標註為 turn-based:理想狀態下說話者短暫停頓,模型處理效果最好。
實際體驗介於「逐句翻譯」和「同聲傳譯」之間。
偶爾也會出現幻覺,比如產生一些無意義的聲音,或者乾脆沉默不翻譯。
OpenAI 在技術文檔裏寫的是:
“ 隨着模型變得更快、更高效,這個延遲會顯著降低,翻譯會變得更加無縫。
而且更為關鍵的是,它在翻譯時能保留說話者的情感、語調和語速。
OpenAI 在 Cookbook 文檔聲稱:這讓它「比以往任何時候都更接近一個現場翻譯」(live interpreter)。

傳統的翻譯方案是級聯式的:先語音轉文字,再文字翻譯,再文字轉語音。每一步都會丟失信息,語調沒了,情感沒了,停頓節奏也沒了。
GPT-Realtime-Translate 則是端到端處理原始音頻,跳過了中間的文字步驟,自然能保留更多聲音本身的特徵。
同傳這個行業,倒不是今天才被威脅的。
字節在去年 7 月發佈的豆包同傳大模型 Seed LiveInterpret 2.0,已經在延遲和準確率上接近人類水平。科大訊飛的同傳產品也做了好幾年了。
連聯合國婦女署都已經在採購 AI 翻譯口譯軟件。
但 OpenAI 這次不一樣。它把實時翻譯做成了一個標準化的 API,每分鐘 2 毛 5,任何開發者都能輕鬆接入。
它直接跳過了實驗室 demo 階段,把「殺死同傳」這件事,做成了一個可以大規模部署的廉價產品。
11還有 Whisper
GPT-Realtime-Whisper 也順便聊幾句。
Whisper 各位應該不太陌生了,OpenAI 之前就有開源的語音識別模型 Whisper。但這次的 GPT-Realtime-Whisper 是流式版本:一邊說話,一邊出文字,延遲極低。
適合場景有哪些呢?
實時字幕、會議實時記錄、直播實時轉寫。
如果說 GPT-Realtime-Translate 威脅的是同傳,那 GPT-Realtime-Whisper 威脅的就是速記員。
這倆加在一起,會議行業的服務商們,可能要重新想想生存模式了……
12AI 語音基礎設施
三個模型,三個場景,可以說 OpenAI 這次是直接把語音 AI 的基礎設施一次性鋪齊了。
對話有 GPT-Realtime-2,翻譯有 GPT-Realtime-Translate,轉錄有 GPT-Realtime-Whisper。
而拿到這三塊積木,能搭出什麼樣的產品,就看各位的了。
◇ ◆ ◇
相關連結:
OpenAI 博客:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
OpenAI Realtime API 文檔:https://developers.openai.com/api/docs/guides/realtime
GPT-Realtime 模型文檔:https://developers.openai.com/api/docs/models/gpt-realtime
OpenAI Realtime Translation Cookbook:https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api