剛剛，OpenAI 放出三個語音模型，順便殺死了「同傳」

作者：AGI Hunt

日期：2026年5月7日下午6:47

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

OpenAI 發布三個即時語音模型，GPT-Realtime-Translate 每分鐘 $0.034，衝擊同聲傳譯行業

整理版摘要

呢篇文章介紹 OpenAI 最新推出三個即時語音模型：GPT-Realtime-2（對話）、GPT-Realtime-Translate（翻譯）、GPT-Realtime-Whisper（轉錄）。作者認為最大亮點係翻譯模型，支援 70 幾種語言輸入，即時翻譯成 13 種語言輸出，而且保留說話者嘅語調同情感。最震撼嘅係成本——每分鐘只需 $0.034（約 2 毛 5 人民幣），開發者可以用 Realtime API 輕鬆接入。

文章同時深入講解同聲傳譯呢個職業。同傳係翻譯界金字塔頂端，日薪過萬，但壓力極大，每 15-20 分鐘就要輪換，培訓門檻極高，全球專業同傳只得 2000 幾人。而家 AI 翻譯成本係人類嘅萬分之一，唔使休息，唔會崩潰，而且正在接近「即時現場翻譯」嘅水平。作者引用字節跳動、科大訊飛等案例，指出行業早已被威脅，但 OpenAI 將即時翻譯標準化為廉價 API，令到「殺死同傳」變成可大規模部署嘅產品。

最後，文章總結 OpenAI 鋪齊咗語音 AI 嘅基礎設施：對話用 GPT-Realtime-2，翻譯用 GPT-Realtime-Translate，轉錄用 GPT-Realtime-Whisper。開發者可以好似砌積木咁組合，創造新應用。作者認為，同傳行業嘅終局可能已經來臨。

OpenAI 推出三個即時語音模型：GPT-Realtime-2（對話）、GPT-Realtime-Translate（翻譯）、GPT-Realtime-Whisper（轉錄），其中翻譯模型成本極低。
GPT-Realtime-Translate 每分鐘成本 $0.034（約 2 毛 5），為人類同傳日薪（1.2-2.1 萬）嘅萬分之一，且支援 70+ 語言輸入、13 語言輸出，保留語調情感。
同傳行業門檻高、壓力大：聯合國同傳需精通多種官方語言，每 15-20 分鐘輪換，全球專業人才不足 3000 人。
傳統級聯式翻譯（語音→文字→翻譯→語音）會丟失信息，端到端嘅 GPT-Realtime-Translate 直接處理原始音頻，更接近真人翻譯。
開發者可透過 Realtime API（WebRTC/WebSocket/SIP）低成本集成呢啲模型，快速構建語音應用，加速行業變革。

值得記低

連結 openai.com

OpenAI 博客文章

Advancing voice intelligence with new models in the API

連結 developers.openai.com

OpenAI Realtime API 文檔

Real-time voice and audio API guide

連結 developers.openai.com

GPT-Realtime 模型文檔

API reference for gpt-realtime models

連結 developers.openai.com

OpenAI Realtime Translation Cookbook

示例：使用 Realtime API 實現單向翻譯

整理重點

三個模型，三個場景

OpenAI 最新推出三個即時語音模型，分別對應語音交互嘅三大場景：對話、翻譯同轉錄。

GPT-Realtime-2：最強語音模型，具備 GPT-5 級推理能力，邊聽邊想，可以打電話式互動。
GPT-Realtime-Translate：即時語音翻譯，支援 70+ 語言輸入，13 語言輸出，保留語調情感。
GPT-Realtime-Whisper：即時語音轉文字，一邊講一邊出字幕，適合會議記錄。

定價方面，文字 token 價格為 $4/$16（每百萬 token），音頻 token 為 $32/$64。翻譯功能單獨計價，每分鐘 $0.034（約 2 毛 5 人民幣）。

整理重點

能幹活嘅嘴：GPT-Realtime-2

呢個模型令語音 Agent 由「能聊天」變成「能幹活」。關鍵升級包括：

GPT-5 級推理：喺語音對話中處理複雜多步推理。
更好嘅工具調用：可以精準調用外部工具，如查數據庫、調 API。
自然對話處理：能夠處理打斷同話題切換，唔會失上下文。
128K 上下文窗口：比之前 32K 翻咗四倍。
更像人嘅聲音：語音合成自然度同表現力提升。

整理重點

殺死同傳：GPT-Realtime-Translate 嘅衝擊

GPT-Realtime-Translate 係端到端處理原始音頻，克服咗傳統級聯式翻譯（語音→文字→翻譯→語音）嘅缺點，保留情感、語調、語速，更接近「現場翻譯」。

1 同傳日薪 1.2 萬至 2.1 萬人民幣，但壓力極大，每 15-20 分鐘輪換一次。
2 培訓門檻極高：聯合國要求精通至少三種官方語言，考試六場無原文稿。北京語言大學同傳專業每年只收 15 人。
3 全球專業同聲傳譯人才約 2000 人，中國頂級同傳約 30 人。

OpenAI 將即時翻譯標準化為廉價 API，任何開發者都能輕鬆接入，直接跳過實驗室 demo 階段，令「殺死同傳」變成可大規模部署嘅產品。

整理重點

Whisper 同 AI 語音基礎設施

GPT-Realtime-Whisper 係流式語音識別，延遲極低，適合即時字幕、會議記錄。配合翻譯模型，會議行業服務商可能要重新諗生存模式。

總括來講，三個模型鋪齊咗語音 AI 嘅基礎設施：對話、翻譯、轉錄。開發者可以用 Realtime API 組合創造新產品，拎住呢三塊積木，搭出唔同嘅可能性。

剛剛，OpenAI 推出咗三個全新嘅實時語音模型，其中一個翻譯模型可以將 70 幾種語言即時翻譯做 13 種語言輸出，每分鐘成本大概兩毫半。

同聲傳譯呢個行業，宜家可能，要迎來佢嘅終局喇。

發佈咗啲乜

今次發佈嘅三個模型，分別對應語音交互嘅三大場景：對話、翻譯、轉錄。

GPT-Realtime-2，係 OpenAI 目前最勁嘅語音模型，具備 GPT-5 級別嘅推理能力。佢可以邊聽邊諗，喺對話中實時解決複雜問題。可以理解為：一個可以打電話嘅 GPT-5。

GPT-Realtime-Translate，實時語音翻譯。支援 70 幾種語言輸入，翻譯做 13 種語言輸出，翻譯嘅同時仲可以保留講嘢者嘅語調同情感。

GPT-Realtime-Whisper，實時語音轉文字。一邊講嘢一邊出字幕，適合用嚟做實時字幕、會議記錄。

三個模型都透過 Realtime API 對外開放，開發者可以用 WebRTC、WebSocket 或者 SIP 接入。

可以幫手做嘢把口

GPT-Realtime-2 係 OpenAI 推出嘅第二代實時語音模型，亦係目前 Realtime API 入面推理能力最強嘅一個。

OpenAI 對佢嘅定位係：令語音 Agent 從「傾得偈」變成「做得嘢」。

佢嘅幾個關鍵升級：

• GPT-5 級推理：可以喺語音對話中處理複雜嘅多步推理任務，唔再只係簡單嘅問答

• 更好嘅工具調用：可以精準咁調用外部工具，例如查數據庫、調 API，呢個意味住語音 Agent 可以真正「做嘢」喇

• 自然嘅對話處理：可以處理打斷、話題切換，唔會因為你插咗句嘴就冇咗上文下理

• 128K 上下文窗口：之前嘅 gpt-realtime 得 32K，宜家翻咗四倍

• 更加似人聲：語音合成嘅自然度同表現力都有提升，可以更好咁理解同執行系統指令

用過 ChatGPT 語音模式嘅應該都好有感受，相比起直接嘅 chat，語音版嘅智能好差，幾乎唔會思考，更加唔會調用工具。

因為工具調用需要時間，語音場景又對延遲極度敏感，所以之前索性做咗一個好簡單嘅版本。傾到偈就算，幹活就唔好諗佢做其他嘢。

但宜家，呢個問題解決咗。

GPT-Realtime-2 可以邊傾邊諗邊調用工具，你講出一個需求，佢可以完成日曆查找、更新 CRM，直接開口就搞掂。

定價

文本 token 嘅價格係 $4/$16（輸入/輸出，每百萬 token）。

音頻 token 就係 $32/$64。

GPT-Realtime-Translate 嘅翻譯功能會分開計價，每分鐘 $0.034，大約人民幣 2 毫 5。

呢個價格之後會詳細講，因為佢對同傳行業，可能會係毀滅性嘅衝擊。

實際案例

OpenAI 喺網誌入面，提到咗幾個已經在用嘅企業：

德國電信正喺度基於 GPT-Realtime-Translate 打造客服系統，等客戶用自己最舒服嘅語言溝通，模型負責實時翻譯。

Priceline 喺度做一個旅行語音助手，旅客落地之後可以直接用語音管理行程，語言不通都冇問題，模型實時翻譯。

Vimeo 亦喺度合作中，具體做嘅係影片相關嘅實時語音場景。

影片 Demo

OpenAI 同步放出咗一段 4 分鐘嘅示範影片，展示咗翻譯同語音 Agent 兩個場景。

先睇翻譯功能。

Demo 入面一個人用法文發言，模型實時將法文翻譯成英文輸出，音頻直接從手提電腦捕獲，冇任何後期編輯。

效果可以話係，非常驚艷。

模型會一邊聽一邊翻譯，等關鍵詞（例如動詞）出現之後即刻開始輸出，聽起嚟似兩個人在自然對話。

如果你中途突然轉做德文，模型都可以無縫跟上，冇任何卡頓。遇到 GPT、OpenAI、computer use 呢類技術術語，都一樣可以準確處理。

再睇語音 Agent。

Demo 中對住手機上嘅個人助手講一句：

“ 我等陣有個客戶會議，可唔可以幫我睇嚇個日程？

模型會即刻睇日曆，回覆話 12 分鐘之後有一個同 Sablecrest Robotics 嘅 CTO Alex Kim 嘅會議。之後叫佢更新 CRM，將今日嘅會議摘要同跟進步驟入落系統。

呢度有個細節：模型喺執行呢啲操作嘅時候，唔係沉默咁處理完再一次性畀結果，而係會主動同你講「等我攞最新嘅上下文，然後更新你嘅 CRM」。

呢個「邊做邊報告」嘅能力叫 preamble，係 GPT-Realtime-2 嘅一個關鍵設計。以前嘅語音 Agent 調工具嘅時候，用戶只能乾等，唔知佢做緊乜。

宜家佢會邊推理邊同你講嘢，體驗完全唔同曬。

Demo 中話：

“ 語音，宜家可以真正成為主要交互界面喇。

殺死同傳

跟住講嚇今次發佈入面，我覺得可能最值得詳細講嘅部分。

GPT-Realtime-Translate 呢個模型，睇起嚟只係三個新模型之中嘅一個，但佢所指向嘅行業，係一個曾經企喺翻譯界金字塔頂端嘅職業：

同聲傳譯。

塔尖職業

同聲傳譯，即係「同傳」，係翻譯行業中公認難度最高、門檻最高、人工亦都最高嘅工種。

佢嘅工作方式大致係咁：喺國際會議或者外交場合，譯員坐喺隔音嘅口譯室，戴住耳機聽台上嘅發言，幾乎同時將聽到嘅內容翻譯成另一種語言，對住咪高峯講出嚟。

台下嘅聽眾，就透過耳機接收翻譯。

注意係「幾乎同時」。

發言者講完一句話，譯員大概只落後兩三秒。

全球 95% 嘅高端國際會議，都採用同聲傳譯。聯合國安理會、世界經濟論壇、G20 峯會，台上領導人侃侃而談嘅背後，都有同傳譯員喺口譯室入面高速運轉。

呢個職業，日薪過萬。

北京市場上，英文同傳一日嘅報酬喺 1.2 萬到 2.1 萬人民幣之間。一個譯員如果一年接 100 日工，年收入可以達到 50 萬甚至更高。

但呢啲錢，真係唔易賺。

20 分鐘一換

高薪嘅背後，同傳嘅精神壓力其實非常之大。大咗去邊呢？

一般嚟講，同一語言需要 2 到 3 名譯員組成一組，每 15 到 20 分鐘輪換一次。

因為人嘅大腦喺同傳狀態下係滿負荷運行嘅：你要同時完成「聽、理解、記住、翻譯、表達」呢五個動作，而且唔可以停，唔可以回頭，講咗出去嘅話收唔返。

2009 年嘅聯合國大會上，就發生過一件出名嘅事。

利比亞領導人卡扎菲上台發言，原本話 15 分鐘嘅演講，佢整整講咗 96 分鐘。內容天馬行空，從「新型流感係某個國家放嘅細菌武器」講到怒撕《聯合國憲章》。

佢嘅私人阿拉伯語同傳譯員堅持咗 75 分鐘之後，終於心理狀態徹底崩潰，當場直接放棄咗翻譯，並對住咪高峯嗌咗一句：

“ 我頂唔順喇。

聯合國要臨時調派其他譯員嚟接手。

這個事所以喺翻譯界，都算係一個經典故事。

十年磨一劍

而想成為一名合格嘅同傳譯員，門檻高得嚇人。

聯合國招聘同傳，要求英文、法文、俄文、西班牙文嘅譯員必須精通至少三門聯合國官方語言。中文同阿拉伯文譯員就必須精通英文或者法文。

而且，淨係語言好都未夠。你仲要通過聯合國嘅同傳考試：六場演講，冇原文稿，涵蓋政治、經濟、人權、環境等各種議題，唔同語速、唔同口音、唔同風格，一場一場咁翻譯。

有考生話，淨係備考就用咗七個月，每日密集練習。

國內嘅情況都類似。北京語言大學嘅同傳專業每年只收 15 人，三個學期嘅地獄訓練，第一學期畀稿翻譯，第二學期唔畀稿翻譯，第三學期唔畀稿亦唔畀譯文，直接模擬現場訪問。

但，畢業就做得嘢咩？

也未必。客戶揀人係睇你參加過咩級別嘅會議，新人……根本冇乜機會。

全球專業嘅同聲傳譯人才總共得 2000 幾人。據不完全統計，中國的頂級同傳得 30 人左右。

呢啲人，每一個都係十年以上嘅累積，每一場會議都係如履薄冰。

兩毛五

然後……OpenAI 發佈咗個 API。

GPT-Realtime-Translate，每分鐘 $0.034，摺合人民幣大概 2 毫 5。

一個同傳譯員一日嘅報酬係 1.2 萬到 2.1 萬元。按 8 小時工作制計，每分鐘成本大約 25 到 44 元。

AI 翻譯嘅成本，係人類同傳嘅萬分之一。

而且 AI 唔使休息，唔使每 20 分鐘換人，唔會心理崩潰，支援 70 幾種輸入語言，7×24 小時侯命。

更加唔會嗌果句：老子唔撈喇！

當然喇，目前嘅 GPT-Realtime-Translate 仲未算係完美嘅「同聲傳譯」。

由 Demo 嚟睇，佢已經可以喺講嘢者仲講緊嘅時候就開始翻譯，會等關鍵詞（例如動詞）出現之後即刻輸出。但 OpenAI 嘅技術文件將佢標註為 turn-based：理想狀態下講嘢者短暫停頓，模型處理效果最好。

實際體驗介乎「逐句翻譯」同「同聲傳譯」之間。

間中亦會出現幻覺，例如產生一啲冇意義嘅聲音，或者乾脆沉默唔翻譯。

OpenAI 喺技術文件入面寫嘅係：

“ 隨住模型變得更加快、更加高效，呢個延遲會顯著降低，翻譯會變得更加無縫。

而且更重要嘅係，佢喺翻譯時可以保留講嘢者嘅情感、語調同語速。

OpenAI 喺 Cookbook 文件入面話：呢樣令佢「比以往任何時候都更加接近一個現場翻譯」（live interpreter）。

傳統嘅翻譯方案係級聯式嘅：先語音轉文字，再文字翻譯，再文字轉語音。每一步都會流失訊息，語調冇咗，情感冇咗，停頓節奏都冇咗。

GPT-Realtime-Translate 就係端到端處理原始音頻，跳過咗中間嘅文字步驟，自然可以保留更多聲音本身嘅特徵。

同傳呢個行業，唔係今日先受到威脅嘅。

字節喺舊年 7 月發佈嘅豆包同傳大模型 Seed LiveInterpret 2.0，已經喺延遲同準確率上接近人類水平。科大訊飛嘅同傳產品都做咗好幾年喇。

連聯合國婦女署都已經喺採購 AI 翻譯口譯軟件。

但 OpenAI 今次唔同。佢將實時翻譯做成咗一個標準化嘅 API，每分鐘 2 毫 5，任何開發者都可以輕鬆接入。

佢直接跳過咗實驗室 demo 階段，將「殺死同傳」呢件事，做成咗一個可以大規模部署嘅平價產品。

仲有 Whisper

GPT-Realtime-Whisper 都順便講幾句。

Whisper 各位應該唔太陌生，OpenAI 之前已經有開源嘅語音識別模型 Whisper。但今次嘅 GPT-Realtime-Whisper 係串流版本：一邊講嘢，一邊出文字，延遲極低。

適合嘅場景有邊啲呢？

實時字幕、會議實時記錄、直播實時轉寫。

如果話 GPT-Realtime-Translate 威脅嘅係同傳，咁 GPT-Realtime-Whisper 威脅嘅就係速記員。

呢兩樣加埋，會議行業嘅服務商，可能要重新諗嚇生存模式喇……

AI 語音基礎設施

三個模型，三個場景，可以話 OpenAI 今次係直接將語音 AI 嘅基礎設施一次過鋪齊曬。

對話有 GPT-Realtime-2，翻譯有 GPT-Realtime-Translate，轉錄有 GPT-Realtime-Whisper。

而攞到呢三塊積木，可以砌出點樣嘅產品，就睇各位嘅本事喇。

◇ ◆ ◇

相關連結：

OpenAI 網誌：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

OpenAI Realtime API 文檔：https://developers.openai.com/api/docs/guides/realtime

GPT-Realtime 模型文檔：https://developers.openai.com/api/docs/models/gpt-realtime

OpenAI Realtime Translation Cookbook：https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api

剛剛，OpenAI 放出了三個全新的實時語音模型，其中一個翻譯模型，能把 70 多種語言實時翻譯成 13 種語言輸出，每分鐘成本 2 毛錢。

同聲傳譯這個行業，現在可能，要迎來它的終局了。

發了什麼

這次發佈的三個模型，分別對應語音交互的三大場景：對話、翻譯、轉錄。

GPT-Realtime-2，是 OpenAI 目前最強的語音模型，具備 GPT-5 級別的推理能力。它能邊聽邊想，在對話中實時解決複雜問題。可以理解為：一個能打電話的 GPT-5。

GPT-Realtime-Translate，實時語音翻譯。支持 70 多種語言輸入，翻譯成 13 種語言輸出，翻譯的同時還能保留說話者的語調和情感。

GPT-Realtime-Whisper，實時語音轉文字。一邊說話一邊出字幕，適合做實時字幕、會議記錄。

三個模型都通過 Realtime API 對外開放，開發者可以用 WebRTC、WebSocket 或 SIP 接入。

能幹活的嘴

GPT-Realtime-2 是 OpenAI 推出的第二代實時語音模型，也是目前 Realtime API 中推理能力最強的一個。

OpenAI 對它的定位是：讓語音 Agent 從「能聊天」變成「能幹活」。

它的幾個關鍵升級：

• GPT-5 級推理：能在語音對話中處理複雜的多步推理任務，不再只是簡單的問答

• 更好的工具調用：可以精準地調用外部工具，比如查數據庫、調 API，這意味着語音 Agent 可以真正「做事」了

• 自然的對話處理：能處理打斷、話題切換，不會因為你插了句嘴就丟了上下文

• 128K 上下文窗口：之前的 gpt-realtime 只有 32K，現在翻了四倍

• 更像人的聲音：語音合成的自然度和表現力都有提升，能更好地理解和執行系統指令

用過 ChatGPT 語音模式的應該都很有感受，相比於直接的 chat，語音版的智能很差，幾乎不怎麼思考，更不會調用工具。

因為工具調用需要時間，語音場景又對延遲極度敏感，所以之前索性就做了一個很簡單的版本。能聊天就行，幹活就別指望它了。

但現在，這個問題解決了。

GPT-Realtime-2 能邊聊邊想邊調工具了，你說出一個需求，它可以完成日曆查找、更新完 CRM，直接動嘴就把事兒辦了。

定價

文本 token 的價格是 $4/$16（輸入/輸出，每百萬 token）。

音頻 token 則是 $32/$64。

GPT-Realtime-Translate 的翻譯功能單獨計價，每分鐘 $0.034，大約人民幣 2 毛 5。

這個價格後面會詳細說，因為它對同傳行業，可能會是毀滅性的衝擊。

實際案例

OpenAI 在博客裏，提到了幾個已經在用的企業：

德國電信正在基於 GPT-Realtime-Translate 打造客服系統，讓客戶用自己最舒服的語言溝通，模型負責實時翻譯。

Priceline 在做一個旅行語音助手，旅客落地後可以直接用語音管理行程，語言不通也沒關係，模型實時翻譯。

Vimeo 也在合作中，具體做的是視頻相關的實時語音場景。

視頻 Demo

OpenAI 同步放出了一段 4 分鐘的演示視頻，展示了翻譯和語音 Agent 兩個場景。

先看翻譯功能。

Demo 裏一個人用法語發言，模型實時把法語翻譯成英語輸出，音頻直接從筆記本電腦捕獲，沒有任何後期編輯。

效果可以說是，非常驚豔。

模型會一邊聽一邊翻譯，等關鍵詞（比如動詞）出現後立即開始輸出，聽起來像兩個人在自然對話。

如果你中途突然切換成德語，模型也能無縫跟上，毫無卡頓。碰到 GPT、OpenAI、computer use 這類技術術語，也一樣能準確處理。

再看語音 Agent。

Demo 中對着手機上的個人助手說一句：

“ 我馬上有個客戶會議，能幫我看一下日程嗎？

模型會立刻查看日曆，回覆說 12 分鐘後有一個跟 Sablecrest Robotics 的 CTO Alex Kim 的會議。接着讓它更新 CRM，把今天的會議摘要和後續步驟錄入系統。

這裏有個細節：模型在執行這些操作的時候，不是沉默地處理完再一次性給結果，而是會主動跟你說「讓我拉一下最新的上下文，然後更新你的 CRM」。

這個「邊幹活邊彙報」的能力叫 preamble，是 GPT-Realtime-2 的一個關鍵設計。以前的語音 Agent 調工具的時候，用戶只能乾等着，不知道它在幹嘛。

現在它會邊推理邊跟你說話，體驗完全不一樣了。

Demo 中稱：

“ 語音，現在可以真正成為主要交互界面了。

殺死同傳

接下來聊聊這次發佈裏，我覺得可能最值得展開一說的部分。

GPT-Realtime-Translate 這個模型，看起來只是三個新模型中的一個，但它所指向的行業，是一個曾經站在翻譯界金字塔頂端的職業：

同聲傳譯。

塔尖職業

同聲傳譯，也就是「同傳」，是翻譯行業中公認難度最高、門檻最高、薪資也最高的工種。

它的工作方式上大體是這樣的：在國際會議或外交場合，譯員坐在隔音的口譯室裏，戴着耳機聽台上的發言，幾乎同時把聽到的內容翻譯成另一種語言，對着麥克風說出來。

台下的聽眾，則通過耳機接收翻譯。

注意是「幾乎同時」。

發言者說完一句話，譯員大約只落後兩三秒。

全球 95% 的高端國際會議，都採用同聲傳譯。聯合國安理會、世界經濟論壇、G20 峯會，台上領導人侃侃而談的背後，都有同傳譯員在口譯室裏高速運轉。

這個職業，日薪過萬。

北京市場上，英語同傳一天的報酬在 1.2 萬到 2.1 萬人民幣之間。一個譯員如果一年接 100 天活兒，年收入可以達到 50 萬甚至更高。

但這錢，真的不好賺。

20 分鐘一換

高薪的背後，同傳的精神壓力其實非常之大。大到了什麼程度呢？

一般來說，同一語言需要 2 到 3 名譯員組成一組，每 15 到 20 分鐘輪換一次。

因為人的大腦在同傳狀態下是滿負荷運行的：你要同時完成「聽、理解、記憶、翻譯、表達」這五個動作，而且不能停，不能回頭，說出去的話收不回來。

2009 年的聯合國大會上，就發生過一件著名的事。

利比亞領導人卡扎菲上台發言，原定 15 分鐘的演講，他整整講了 96 分鐘。內容天馬行空，從「新型流感是某個國家施放的細菌武器」講到怒撕《聯合國憲章》。

他的私人阿拉伯語同傳譯員在堅持了 75 分鐘後，終於心理狀態徹底崩潰，當場直接放棄了翻譯，並對着麥克風喊了一句：

“ 我受不了了。

聯合國不得不臨時調派其他譯員來接替。

這個事故在翻譯界，也算是一大故事了。

十年磨一劍

而想成為一名合格的同傳譯員，門檻高得嚇人。

聯合國招聘同傳，要求英語、法語、俄語、西班牙語的譯員必須精通至少三門聯合國官方語言。中文和阿拉伯語譯員則必須精通英語或法語。

而且，光語言好還不夠。你還得通過聯合國的同傳考試：六場演講，沒有原文稿，涵蓋政治、經濟、人權、環境等各種議題，不同語速、不同口音、不同風格，一場一場翻過去。

有考生說，光是備考就花了七個月，每天密集練習。

國內的情況也類似。北京語言大學的同傳專業每年只招 15 人，三個學期的魔鬼訓練，第一學期給稿子翻，第二學期不給稿子翻，第三學期不給稿子也不給譯文，直接模擬現場採訪。

但，畢業了就能上崗嗎？

也未必。客戶選人看的是你參加過什麼級別的會議，新人……根本沒什麼機會。

全球專業的同聲傳譯人才總共也就 2000 多人。據不完全統計，中國的頂級同傳也就只有 30 人左右。

這些人，每一個都是十年以上的積累，每一場會議都是如履薄冰。

兩毛五

然後……OpenAI 發了個 API。

GPT-Realtime-Translate，每分鐘 $0.034，摺合人民幣大約 2 毛 5。

一個同傳譯員一天的報酬是 1.2 萬到 2.1 萬元。按 8 小時工作制算，每分鐘成本大約 25 到 44 元。

AI 翻譯的成本，是人類同傳的萬分之一。

而且 AI 不需要休息，不需要每 20 分鐘換人，不會心理崩潰，支持 70 多種輸入語言，7×24 小時待命。

更不會吼出那聲：老子不幹了！

當然了，目前的 GPT-Realtime-Translate 還算不上完美的「同聲傳譯」。

從 Demo 中來看，它已經能在說話者還在講的時候就開始翻譯，會等關鍵詞（比如動詞）出現後立即輸出。但 OpenAI 的技術文檔把它標註為 turn-based：理想狀態下說話者短暫停頓，模型處理效果最好。

實際體驗介於「逐句翻譯」和「同聲傳譯」之間。

偶爾也會出現幻覺，比如產生一些無意義的聲音，或者乾脆沉默不翻譯。

OpenAI 在技術文檔裏寫的是：

“ 隨着模型變得更快、更高效，這個延遲會顯著降低，翻譯會變得更加無縫。

而且更為關鍵的是，它在翻譯時能保留說話者的情感、語調和語速。

OpenAI 在 Cookbook 文檔聲稱：這讓它「比以往任何時候都更接近一個現場翻譯」（live interpreter）。

傳統的翻譯方案是級聯式的：先語音轉文字，再文字翻譯，再文字轉語音。每一步都會丟失信息，語調沒了，情感沒了，停頓節奏也沒了。

GPT-Realtime-Translate 則是端到端處理原始音頻，跳過了中間的文字步驟，自然能保留更多聲音本身的特徵。

同傳這個行業，倒不是今天才被威脅的。

字節在去年 7 月發佈的豆包同傳大模型 Seed LiveInterpret 2.0，已經在延遲和準確率上接近人類水平。科大訊飛的同傳產品也做了好幾年了。

連聯合國婦女署都已經在採購 AI 翻譯口譯軟件。

但 OpenAI 這次不一樣。它把實時翻譯做成了一個標準化的 API，每分鐘 2 毛 5，任何開發者都能輕鬆接入。

它直接跳過了實驗室 demo 階段，把「殺死同傳」這件事，做成了一個可以大規模部署的廉價產品。

還有 Whisper

GPT-Realtime-Whisper 也順便聊幾句。

Whisper 各位應該不太陌生了，OpenAI 之前就有開源的語音識別模型 Whisper。但這次的 GPT-Realtime-Whisper 是流式版本：一邊說話，一邊出文字，延遲極低。

適合場景有哪些呢？

實時字幕、會議實時記錄、直播實時轉寫。

如果說 GPT-Realtime-Translate 威脅的是同傳，那 GPT-Realtime-Whisper 威脅的就是速記員。

這倆加在一起，會議行業的服務商們，可能要重新想想生存模式了……

AI 語音基礎設施

三個模型，三個場景，可以說 OpenAI 這次是直接把語音 AI 的基礎設施一次性鋪齊了。

對話有 GPT-Realtime-2，翻譯有 GPT-Realtime-Translate，轉錄有 GPT-Realtime-Whisper。

而拿到這三塊積木，能搭出什麼樣的產品，就看各位的了。

◇ ◆ ◇

相關連結：

OpenAI 博客：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

OpenAI Realtime API 文檔：https://developers.openai.com/api/docs/guides/realtime

GPT-Realtime 模型文檔：https://developers.openai.com/api/docs/models/gpt-realtime

OpenAI Realtime Translation Cookbook：https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api