剛剛,OpenAI 放出三個語音模型,順便殺死了「同傳」

作者:AGI Hunt
日期:2026年5月7日 下午6:47
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

OpenAI 發布三個即時語音模型,GPT-Realtime-Translate 每分鐘 $0.034,衝擊同聲傳譯行業

整理版摘要

呢篇文章介紹 OpenAI 最新推出三個即時語音模型:GPT-Realtime-2(對話)、GPT-Realtime-Translate(翻譯)、GPT-Realtime-Whisper(轉錄)。作者認為最大亮點係翻譯模型,支援 70 幾種語言輸入,即時翻譯成 13 種語言輸出,而且保留說話者嘅語調同情感。最震撼嘅係成本——每分鐘只需 $0.034(約 2 毛 5 人民幣),開發者可以用 Realtime API 輕鬆接入。

文章同時深入講解同聲傳譯呢個職業。同傳係翻譯界金字塔頂端,日薪過萬,但壓力極大,每 15-20 分鐘就要輪換,培訓門檻極高,全球專業同傳只得 2000 幾人。而家 AI 翻譯成本係人類嘅萬分之一,唔使休息,唔會崩潰,而且正在接近「即時現場翻譯」嘅水平。作者引用字節跳動、科大訊飛等案例,指出行業早已被威脅,但 OpenAI 將即時翻譯標準化為廉價 API,令到「殺死同傳」變成可大規模部署嘅產品。

最後,文章總結 OpenAI 鋪齊咗語音 AI 嘅基礎設施:對話用 GPT-Realtime-2,翻譯用 GPT-Realtime-Translate,轉錄用 GPT-Realtime-Whisper。開發者可以好似砌積木咁組合,創造新應用。作者認為,同傳行業嘅終局可能已經來臨。

  • OpenAI 推出三個即時語音模型GPT-Realtime-2(對話)、GPT-Realtime-Translate(翻譯)、GPT-Realtime-Whisper(轉錄),其中翻譯模型成本極低。
  • GPT-Realtime-Translate 每分鐘成本 $0.034(約 2 毛 5),為人類同傳日薪(1.2-2.1 萬)嘅萬分之一,且支援 70+ 語言輸入、13 語言輸出,保留語調情感。
  • 同傳行業門檻高、壓力大:聯合國同傳需精通多種官方語言,每 15-20 分鐘輪換,全球專業人才不足 3000 人。
  • 傳統級聯式翻譯(語音→文字→翻譯→語音)會丟失信息,端到端嘅 GPT-Realtime-Translate 直接處理原始音頻,更接近真人翻譯。
  • 開發者可透過 Realtime APIWebRTC/WebSocket/SIP)低成本集成呢啲模型,快速構建語音應用,加速行業變革。
值得記低
連結 openai.com

OpenAI 博客文章

Advancing voice intelligence with new models in the API

連結 developers.openai.com

OpenAI Realtime API 文檔

Real-time voice and audio API guide

連結 developers.openai.com

GPT-Realtime 模型文檔

API reference for gpt-realtime models

連結 developers.openai.com

OpenAI Realtime Translation Cookbook

示例:使用 Realtime API 實現單向翻譯

整理重點

三個模型,三個場景

OpenAI 最新推出三個即時語音模型,分別對應語音交互嘅三大場景:對話、翻譯同轉錄。

  • GPT-Realtime-2:最強語音模型,具備 GPT-5 級推理能力,邊聽邊想,可以打電話式互動。
  • GPT-Realtime-Translate:即時語音翻譯,支援 70+ 語言輸入,13 語言輸出,保留語調情感。
  • GPT-Realtime-Whisper:即時語音轉文字,一邊講一邊出字幕,適合會議記錄。

定價方面,文字 token 價格為 $4/$16(每百萬 token),音頻 token 為 $32/$64。翻譯功能單獨計價,每分鐘 $0.034(約 2 毛 5 人民幣)。

整理重點

能幹活嘅嘴:GPT-Realtime-2

呢個模型令語音 Agent 由「能聊天」變成「能幹活」。關鍵升級包括:

  • GPT-5 級推理:喺語音對話中處理複雜多步推理。
  • 更好嘅工具調用:可以精準調用外部工具,如查數據庫、調 API
  • 自然對話處理:能夠處理打斷同話題切換,唔會失上下文。
  • 128K 上下文窗口:比之前 32K 翻咗四倍。
  • 更像人嘅聲音:語音合成自然度同表現力提升。
整理重點

殺死同傳:GPT-Realtime-Translate 嘅衝擊

GPT-Realtime-Translate 係端到端處理原始音頻,克服咗傳統級聯式翻譯(語音→文字→翻譯→語音)嘅缺點,保留情感、語調、語速,更接近「現場翻譯」。

  1. 1 同傳日薪 1.2 萬至 2.1 萬人民幣,但壓力極大,每 15-20 分鐘輪換一次。
  2. 2 培訓門檻極高:聯合國要求精通至少三種官方語言,考試六場無原文稿。北京語言大學同傳專業每年只收 15 人。
  3. 3 全球專業同聲傳譯人才約 2000 人,中國頂級同傳約 30 人。

OpenAI 將即時翻譯標準化為廉價 API,任何開發者都能輕鬆接入,直接跳過實驗室 demo 階段,令「殺死同傳」變成可大規模部署嘅產品。

整理重點

Whisper 同 AI 語音基礎設施

GPT-Realtime-Whisper 係流式語音識別,延遲極低,適合即時字幕、會議記錄。配合翻譯模型,會議行業服務商可能要重新諗生存模式。

總括來講,三個模型鋪齊咗語音 AI 嘅基礎設施:對話、翻譯、轉錄。開發者可以用 Realtime API 組合創造新產品,拎住呢三塊積木,搭出唔同嘅可能性。

剛剛,OpenAI 推出咗三個全新嘅實時語音模型,其中一個翻譯模型可以將 70 幾種語言即時翻譯做 13 種語言輸出,每分鐘成本大概兩毫半。

同聲傳譯呢個行業,宜家可能,要迎來佢嘅終局喇。

OpenAI GPT-Realtime-2
OpenAI GPT-Realtime-2
01

發佈咗啲乜

今次發佈嘅三個模型,分別對應語音交互嘅三大場景:對話、翻譯、轉錄。

GPT-Realtime-2,係 OpenAI 目前最勁嘅語音模型,具備 GPT-5 級別嘅推理能力。佢可以邊聽邊諗,喺對話中實時解決複雜問題。可以理解為:一個可以打電話嘅 GPT-5。

GPT-Realtime-Translate,實時語音翻譯。支援 70 幾種語言輸入,翻譯做 13 種語言輸出,翻譯嘅同時仲可以保留講嘢者嘅語調同情感。

GPT-Realtime-Whisper,實時語音轉文字。一邊講嘢一邊出字幕,適合用嚟做實時字幕、會議記錄。

三個模型,三個場景
三個模型,三個場景

三個模型都透過 Realtime API 對外開放,開發者可以用 WebRTC、WebSocket 或者 SIP 接入。

02

可以幫手做嘢把口

GPT-Realtime-2 係 OpenAI 推出嘅第二代實時語音模型,亦係目前 Realtime API 入面推理能力最強嘅一個。

OpenAI 對佢嘅定位係:令語音 Agent 從「傾得偈」變成「做得嘢」

佢嘅幾個關鍵升級:

• GPT-5 級推理:可以喺語音對話中處理複雜嘅多步推理任務,唔再只係簡單嘅問答 

• 更好嘅工具調用:可以精準咁調用外部工具,例如查數據庫、調 API,呢個意味住語音 Agent 可以真正「做嘢」喇 

• 自然嘅對話處理:可以處理打斷、話題切換,唔會因為你插咗句嘴就冇咗上文下理 

• 128K 上下文窗口:之前嘅 gpt-realtime 得 32K,宜家翻咗四倍 

• 更加似人聲:語音合成嘅自然度同表現力都有提升,可以更好咁理解同執行系統指令 

用過 ChatGPT 語音模式嘅應該都好有感受,相比起直接嘅 chat,語音版嘅智能好差,幾乎唔會思考,更加唔會調用工具。

因為工具調用需要時間,語音場景又對延遲極度敏感,所以之前索性做咗一個好簡單嘅版本。傾到偈就算,幹活就唔好諗佢做其他嘢。

但宜家,呢個問題解決咗。

GPT-Realtime-2 可以邊傾邊諗邊調用工具,你講出一個需求,佢可以完成日曆查找、更新 CRM,直接開口就搞掂。

03

定價

文本 token 嘅價格係 $4/$16(輸入/輸出,每百萬 token)。

音頻 token 就係 $32/$64。

GPT-Realtime-Translate 嘅翻譯功能會分開計價,每分鐘 $0.034,大約人民幣 2 毫 5。

呢個價格之後會詳細講,因為佢對同傳行業,可能會係毀滅性嘅衝擊

04

實際案例

OpenAI 喺網誌入面,提到咗幾個已經在用嘅企業:

德國電信正喺度基於 GPT-Realtime-Translate 打造客服系統,等客戶用自己最舒服嘅語言溝通,模型負責實時翻譯。

Priceline 喺度做一個旅行語音助手,旅客落地之後可以直接用語音管理行程,語言不通都冇問題,模型實時翻譯。

Vimeo 亦喺度合作中,具體做嘅係影片相關嘅實時語音場景。

05

影片 Demo

OpenAI 同步放出咗一段 4 分鐘嘅示範影片,展示咗翻譯同語音 Agent 兩個場景。

先睇翻譯功能

Demo 入面一個人用法文發言,模型實時將法文翻譯成英文輸出,音頻直接從手提電腦捕獲,冇任何後期編輯。

效果可以話係,非常驚艷。

模型會一邊聽一邊翻譯,等關鍵詞(例如動詞)出現之後即刻開始輸出,聽起嚟似兩個人在自然對話。

如果你中途突然轉做德文,模型都可以無縫跟上,冇任何卡頓。遇到 GPT、OpenAI、computer use 呢類技術術語,都一樣可以準確處理。

再睇語音 Agent。

Demo 中對住手機上嘅個人助手講一句:

“ 我等陣有個客戶會議,可唔可以幫我睇嚇個日程?

模型會即刻睇日曆,回覆話 12 分鐘之後有一個同 Sablecrest Robotics 嘅 CTO Alex Kim 嘅會議。之後叫佢更新 CRM,將今日嘅會議摘要同跟進步驟入落系統。

呢度有個細節:模型喺執行呢啲操作嘅時候,唔係沉默咁處理完再一次性畀結果,而係會主動同你講「等我攞最新嘅上下文,然後更新你嘅 CRM」。

呢個「邊做邊報告」嘅能力叫 preamble,係 GPT-Realtime-2 嘅一個關鍵設計。以前嘅語音 Agent 調工具嘅時候,用戶只能乾等,唔知佢做緊乜。

宜家佢會邊推理邊同你講嘢,體驗完全唔同曬。

Demo 中話:

“ 語音,宜家可以真正成為主要交互界面喇。

06

殺死同傳

跟住講嚇今次發佈入面,我覺得可能最值得詳細講嘅部分。

GPT-Realtime-Translate 呢個模型,睇起嚟只係三個新模型之中嘅一個,但佢所指向嘅行業,係一個曾經企喺翻譯界金字塔頂端嘅職業:

同聲傳譯。

07

塔尖職業

同聲傳譯,即係「同傳」,係翻譯行業中公認難度最高、門檻最高、人工亦都最高嘅工種。

佢嘅工作方式大致係咁:喺國際會議或者外交場合,譯員坐喺隔音嘅口譯室,戴住耳機聽台上嘅發言,幾乎同時將聽到嘅內容翻譯成另一種語言,對住咪高峯講出嚟。

台下嘅聽眾,就透過耳機接收翻譯。

注意係「幾乎同時」。

發言者講完一句話,譯員大概只落後兩三秒。

全球 95% 嘅高端國際會議,都採用同聲傳譯。聯合國安理會、世界經濟論壇、G20 峯會,台上領導人侃侃而談嘅背後,都有同傳譯員喺口譯室入面高速運轉。

呢個職業,日薪過萬。

北京市場上,英文同傳一日嘅報酬喺 1.2 萬到 2.1 萬人民幣之間。一個譯員如果一年接 100 日工,年收入可以達到 50 萬甚至更高。

但呢啲錢,真係唔易賺。

08

20 分鐘一換

高薪嘅背後,同傳嘅精神壓力其實非常之大。大咗去邊呢?

同傳的高壓工作
同傳嘅高壓工作

一般嚟講,同一語言需要 2 到 3 名譯員組成一組,每 15 到 20 分鐘輪換一次。

因為人嘅大腦喺同傳狀態下係滿負荷運行嘅:你要同時完成「聽、理解、記住、翻譯、表達」呢五個動作,而且唔可以停,唔可以回頭,講咗出去嘅話收唔返。

2009 年嘅聯合國大會上,就發生過一件出名嘅事。

利比亞領導人卡扎菲上台發言,原本話 15 分鐘嘅演講,佢整整講咗 96 分鐘。內容天馬行空,從「新型流感係某個國家放嘅細菌武器」講到怒撕《聯合國憲章》。

佢嘅私人阿拉伯語同傳譯員堅持咗 75 分鐘之後,終於心理狀態徹底崩潰,當場直接放棄咗翻譯,並對住咪高峯嗌咗一句:

“ 我頂唔順喇。

聯合國要臨時調派其他譯員嚟接手。

這個所以喺翻譯界,都算係一個經典故事。

09

十年磨一劍

而想成為一名合格嘅同傳譯員,門檻高得嚇人。

聯合國招聘同傳,要求英文、法文、俄文、西班牙文嘅譯員必須精通至少三門聯合國官方語言。中文同阿拉伯文譯員就必須精通英文或者法文。

而且,淨係語言好都未夠。你仲要通過聯合國嘅同傳考試:六場演講,冇原文稿,涵蓋政治、經濟、人權、環境等各種議題,唔同語速、唔同口音、唔同風格,一場一場咁翻譯。

有考生話,淨係備考就用咗七個月,每日密集練習。

國內嘅情況都類似。北京語言大學嘅同傳專業每年只收 15 人,三個學期嘅地獄訓練,第一學期畀稿翻譯,第二學期唔畀稿翻譯,第三學期唔畀稿亦唔畀譯文,直接模擬現場訪問。

但,畢業就做得嘢咩?

也未必。客戶揀人係睇你參加過咩級別嘅會議,新人……根本冇乜機會。

同傳培養之路
同傳培養之路

全球專業嘅同聲傳譯人才總共得 2000 幾人。據不完全統計,中國的頂級同傳得 30 人左右。

呢啲人,每一個都係十年以上嘅累積,每一場會議都係如履薄冰。

10

兩毛五

然後……OpenAI 發佈咗個 API。

GPT-Realtime-Translate,每分鐘 $0.034,摺合人民幣大概 2 毫 5。

一個同傳譯員一日嘅報酬係 1.2 萬到 2.1 萬元。按 8 小時工作制計,每分鐘成本大約 25 到 44 元。

AI 翻譯 vs 人類同傳
AI 翻譯 vs 人類同傳

AI 翻譯嘅成本,係人類同傳嘅萬分之一。

而且 AI 唔使休息,唔使每 20 分鐘換人,唔會心理崩潰,支援 70 幾種輸入語言,7×24 小時侯命。

更加唔會嗌果句:老子唔撈喇!

當然喇,目前嘅 GPT-Realtime-Translate 仲未算係完美嘅「同聲傳譯」。

由 Demo 嚟睇,佢已經可以喺講嘢者仲講緊嘅時候就開始翻譯,會等關鍵詞(例如動詞)出現之後即刻輸出。但 OpenAI 嘅技術文件將佢標註為 turn-based:理想狀態下講嘢者短暫停頓,模型處理效果最好。

實際體驗介乎「逐句翻譯」同「同聲傳譯」之間。

間中亦會出現幻覺,例如產生一啲冇意義嘅聲音,或者乾脆沉默唔翻譯。

OpenAI 喺技術文件入面寫嘅係:

“ 隨住模型變得更加快、更加高效,呢個延遲會顯著降低,翻譯會變得更加無縫。

而且更重要嘅係,佢喺翻譯時可以保留講嘢者嘅情感、語調同語速。

OpenAI 喺 Cookbook 文件入面話:呢樣令佢「比以往任何時候都更加接近一個現場翻譯」(live interpreter)。

級聯翻譯 vs 端到端
級聯翻譯 vs 端到端

傳統嘅翻譯方案係級聯式嘅:先語音轉文字,再文字翻譯,再文字轉語音。每一步都會流失訊息,語調冇咗,情感冇咗,停頓節奏都冇咗。

GPT-Realtime-Translate 就係端到端處理原始音頻,跳過咗中間嘅文字步驟,自然可以保留更多聲音本身嘅特徵。

同傳呢個行業,唔係今日先受到威脅嘅。

字節喺舊年 7 月發佈嘅豆包同傳大模型 Seed LiveInterpret 2.0,已經喺延遲同準確率上接近人類水平。科大訊飛嘅同傳產品都做咗好幾年喇。

連聯合國婦女署都已經喺採購 AI 翻譯口譯軟件。

但 OpenAI 今次唔同。佢將實時翻譯做成咗一個標準化嘅 API,每分鐘 2 毫 5,任何開發者都可以輕鬆接入。

佢直接跳過咗實驗室 demo 階段,將「殺死同傳」呢件事,做成咗一個可以大規模部署嘅平價產品。

11

仲有 Whisper

GPT-Realtime-Whisper 都順便講幾句。

Whisper 各位應該唔太陌生,OpenAI 之前已經有開源嘅語音識別模型 Whisper。但今次嘅 GPT-Realtime-Whisper 係串流版本:一邊講嘢,一邊出文字,延遲極低

適合嘅場景有邊啲呢?

實時字幕、會議實時記錄、直播實時轉寫。

如果話 GPT-Realtime-Translate 威脅嘅係同傳,咁 GPT-Realtime-Whisper 威脅嘅就係速記員

呢兩樣加埋,會議行業嘅服務商,可能要重新諗嚇生存模式喇……

12

AI 語音基礎設施

三個模型,三個場景,可以話 OpenAI 今次係直接將語音 AI 嘅基礎設施一次過鋪齊曬。

對話有 GPT-Realtime-2,翻譯有 GPT-Realtime-Translate,轉錄有 GPT-Realtime-Whisper。

而攞到呢三塊積木,可以砌出點樣嘅產品,就睇各位嘅本事喇。

◇ ◆ ◇

相關連結:

OpenAI 網誌:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

OpenAI Realtime API 文檔:https://developers.openai.com/api/docs/guides/realtime

GPT-Realtime 模型文檔:https://developers.openai.com/api/docs/models/gpt-realtime

OpenAI Realtime Translation Cookbook:https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api

剛剛,OpenAI 放出了三個全新的實時語音模型,其中一個翻譯模型,能把 70 多種語言實時翻譯成 13 種語言輸出,每分鐘成本 2 毛錢。

同聲傳譯這個行業,現在可能,要迎來它的終局了。

OpenAI GPT-Realtime-2
OpenAI GPT-Realtime-2
01

發了什麼

這次發佈的三個模型,分別對應語音交互的三大場景:對話、翻譯、轉錄。

GPT-Realtime-2,是 OpenAI 目前最強的語音模型,具備 GPT-5 級別的推理能力。它能邊聽邊想,在對話中實時解決複雜問題。可以理解為:一個能打電話的 GPT-5。

GPT-Realtime-Translate,實時語音翻譯。支持 70 多種語言輸入,翻譯成 13 種語言輸出,翻譯的同時還能保留說話者的語調和情感。

GPT-Realtime-Whisper,實時語音轉文字。一邊說話一邊出字幕,適合做實時字幕、會議記錄。

三個模型,三個場景
三個模型,三個場景

三個模型都通過 Realtime API 對外開放,開發者可以用 WebRTC、WebSocket 或 SIP 接入。

02

能幹活的嘴

GPT-Realtime-2 是 OpenAI 推出的第二代實時語音模型,也是目前 Realtime API 中推理能力最強的一個。

OpenAI 對它的定位是:讓語音 Agent 從「能聊天」變成「能幹活」

它的幾個關鍵升級:

• GPT-5 級推理:能在語音對話中處理複雜的多步推理任務,不再只是簡單的問答 

• 更好的工具調用:可以精準地調用外部工具,比如查數據庫、調 API,這意味着語音 Agent 可以真正「做事」了 

• 自然的對話處理:能處理打斷、話題切換,不會因為你插了句嘴就丟了上下文 

• 128K 上下文窗口:之前的 gpt-realtime 只有 32K,現在翻了四倍 

• 更像人的聲音:語音合成的自然度和表現力都有提升,能更好地理解和執行系統指令 

用過 ChatGPT 語音模式的應該都很有感受,相比於直接的 chat,語音版的智能很差,幾乎不怎麼思考,更不會調用工具。

因為工具調用需要時間,語音場景又對延遲極度敏感,所以之前索性就做了一個很簡單的版本。能聊天就行,幹活就別指望它了。

但現在,這個問題解決了。

GPT-Realtime-2 能邊聊邊想邊調工具了,你說出一個需求,它可以完成日曆查找、更新完 CRM,直接動嘴就把事兒辦了。

03

定價

文本 token 的價格是 $4/$16(輸入/輸出,每百萬 token)。

音頻 token 則是 $32/$64。

GPT-Realtime-Translate 的翻譯功能單獨計價,每分鐘 $0.034,大約人民幣 2 毛 5。

這個價格後面會詳細說,因為它對同傳行業,可能會是毀滅性的衝擊

04

實際案例

OpenAI 在博客裏,提到了幾個已經在用的企業:

德國電信正在基於 GPT-Realtime-Translate 打造客服系統,讓客戶用自己最舒服的語言溝通,模型負責實時翻譯。

Priceline 在做一個旅行語音助手,旅客落地後可以直接用語音管理行程,語言不通也沒關係,模型實時翻譯。

Vimeo 也在合作中,具體做的是視頻相關的實時語音場景。

05

視頻 Demo

OpenAI 同步放出了一段 4 分鐘的演示視頻,展示了翻譯和語音 Agent 兩個場景。

先看翻譯功能

Demo 裏一個人用法語發言,模型實時把法語翻譯成英語輸出,音頻直接從筆記本電腦捕獲,沒有任何後期編輯。

效果可以說是,非常驚豔。

模型會一邊聽一邊翻譯,等關鍵詞(比如動詞)出現後立即開始輸出,聽起來像兩個人在自然對話。

如果你中途突然切換成德語,模型也能無縫跟上,毫無卡頓。碰到 GPT、OpenAI、computer use 這類技術術語,也一樣能準確處理。

再看語音 Agent。

Demo 中對着手機上的個人助手說一句:

“ 我馬上有個客戶會議,能幫我看一下日程嗎?

模型會立刻查看日曆,回覆說 12 分鐘後有一個跟 Sablecrest Robotics 的 CTO Alex Kim 的會議。接着讓它更新 CRM,把今天的會議摘要和後續步驟錄入系統。

這裏有個細節:模型在執行這些操作的時候,不是沉默地處理完再一次性給結果,而是會主動跟你說「讓我拉一下最新的上下文,然後更新你的 CRM」。

這個「邊幹活邊彙報」的能力叫 preamble,是 GPT-Realtime-2 的一個關鍵設計。以前的語音 Agent 調工具的時候,用戶只能乾等着,不知道它在幹嘛。

現在它會邊推理邊跟你說話,體驗完全不一樣了。

Demo 中稱:

“ 語音,現在可以真正成為主要交互界面了。

06

殺死同傳

接下來聊聊這次發佈裏,我覺得可能最值得展開一說的部分。

GPT-Realtime-Translate 這個模型,看起來只是三個新模型中的一個,但它所指向的行業,是一個曾經站在翻譯界金字塔頂端的職業:

同聲傳譯。

07

塔尖職業

同聲傳譯,也就是「同傳」,是翻譯行業中公認難度最高、門檻最高、薪資也最高的工種。

它的工作方式上大體是這樣的:在國際會議或外交場合,譯員坐在隔音的口譯室裏,戴着耳機聽台上的發言,幾乎同時把聽到的內容翻譯成另一種語言,對着麥克風說出來。

台下的聽眾,則通過耳機接收翻譯。

注意是「幾乎同時」。

發言者說完一句話,譯員大約只落後兩三秒。

全球 95% 的高端國際會議,都採用同聲傳譯。聯合國安理會、世界經濟論壇、G20 峯會,台上領導人侃侃而談的背後,都有同傳譯員在口譯室裏高速運轉。

這個職業,日薪過萬。

北京市場上,英語同傳一天的報酬在 1.2 萬到 2.1 萬人民幣之間。一個譯員如果一年接 100 天活兒,年收入可以達到 50 萬甚至更高。

但這錢,真的不好賺。

08

20 分鐘一換

高薪的背後,同傳的精神壓力其實非常之大。大到了什麼程度呢?

同傳的高壓工作
同傳的高壓工作

一般來說,同一語言需要 2 到 3 名譯員組成一組,每 15 到 20 分鐘輪換一次。

因為人的大腦在同傳狀態下是滿負荷運行的:你要同時完成「聽、理解、記憶、翻譯、表達」這五個動作,而且不能停,不能回頭,說出去的話收不回來。

2009 年的聯合國大會上,就發生過一件著名的事。

利比亞領導人卡扎菲上台發言,原定 15 分鐘的演講,他整整講了 96 分鐘。內容天馬行空,從「新型流感是某個國家施放的細菌武器」講到怒撕《聯合國憲章》。

他的私人阿拉伯語同傳譯員在堅持了 75 分鐘後,終於心理狀態徹底崩潰,當場直接放棄了翻譯,並對着麥克風喊了一句:

“ 我受不了了。

聯合國不得不臨時調派其他譯員來接替。

這個故在翻譯界,也算是一大故事了。

09

十年磨一劍

而想成為一名合格的同傳譯員,門檻高得嚇人。

聯合國招聘同傳,要求英語、法語、俄語、西班牙語的譯員必須精通至少三門聯合國官方語言。中文和阿拉伯語譯員則必須精通英語或法語。

而且,光語言好還不夠。你還得通過聯合國的同傳考試:六場演講,沒有原文稿,涵蓋政治、經濟、人權、環境等各種議題,不同語速、不同口音、不同風格,一場一場翻過去。

有考生說,光是備考就花了七個月,每天密集練習。

國內的情況也類似。北京語言大學的同傳專業每年只招 15 人,三個學期的魔鬼訓練,第一學期給稿子翻,第二學期不給稿子翻,第三學期不給稿子也不給譯文,直接模擬現場採訪。

但,畢業了就能上崗嗎?

也未必。客戶選人看的是你參加過什麼級別的會議,新人……根本沒什麼機會。

同傳培養之路
同傳培養之路

全球專業的同聲傳譯人才總共也就 2000 多人。據不完全統計,中國的頂級同傳也就只有 30 人左右。

這些人,每一個都是十年以上的積累,每一場會議都是如履薄冰。

10

兩毛五

然後……OpenAI 發了個 API。

GPT-Realtime-Translate,每分鐘 $0.034,摺合人民幣大約 2 毛 5。

一個同傳譯員一天的報酬是 1.2 萬到 2.1 萬元。按 8 小時工作制算,每分鐘成本大約 25 到 44 元。

AI 翻譯 vs 人類同傳
AI 翻譯 vs 人類同傳

AI 翻譯的成本,是人類同傳的萬分之一。

而且 AI 不需要休息,不需要每 20 分鐘換人,不會心理崩潰,支持 70 多種輸入語言,7×24 小時待命。

更不會吼出那聲:老子不幹了!

當然了,目前的 GPT-Realtime-Translate 還算不上完美的「同聲傳譯」。

從 Demo 中來看,它已經能在說話者還在講的時候就開始翻譯,會等關鍵詞(比如動詞)出現後立即輸出。但 OpenAI 的技術文檔把它標註為 turn-based:理想狀態下說話者短暫停頓,模型處理效果最好。

實際體驗介於「逐句翻譯」和「同聲傳譯」之間。

偶爾也會出現幻覺,比如產生一些無意義的聲音,或者乾脆沉默不翻譯。

OpenAI 在技術文檔裏寫的是:

“ 隨着模型變得更快、更高效,這個延遲會顯著降低,翻譯會變得更加無縫。

而且更為關鍵的是,它在翻譯時能保留說話者的情感、語調和語速。

OpenAI 在 Cookbook 文檔聲稱:這讓它「比以往任何時候都更接近一個現場翻譯」(live interpreter)。

級聯翻譯 vs 端到端
級聯翻譯 vs 端到端

傳統的翻譯方案是級聯式的:先語音轉文字,再文字翻譯,再文字轉語音。每一步都會丟失信息,語調沒了,情感沒了,停頓節奏也沒了。

GPT-Realtime-Translate 則是端到端處理原始音頻,跳過了中間的文字步驟,自然能保留更多聲音本身的特徵。

同傳這個行業,倒不是今天才被威脅的。

字節在去年 7 月發佈的豆包同傳大模型 Seed LiveInterpret 2.0,已經在延遲和準確率上接近人類水平。科大訊飛的同傳產品也做了好幾年了。

連聯合國婦女署都已經在採購 AI 翻譯口譯軟件。

但 OpenAI 這次不一樣。它把實時翻譯做成了一個標準化的 API,每分鐘 2 毛 5,任何開發者都能輕鬆接入。

它直接跳過了實驗室 demo 階段,把「殺死同傳」這件事,做成了一個可以大規模部署的廉價產品。

11

還有 Whisper

GPT-Realtime-Whisper 也順便聊幾句。

Whisper 各位應該不太陌生了,OpenAI 之前就有開源的語音識別模型 Whisper。但這次的 GPT-Realtime-Whisper 是流式版本:一邊說話,一邊出文字,延遲極低

適合場景有哪些呢?

實時字幕、會議實時記錄、直播實時轉寫。

如果說 GPT-Realtime-Translate 威脅的是同傳,那 GPT-Realtime-Whisper 威脅的就是速記員

這倆加在一起,會議行業的服務商們,可能要重新想想生存模式了……

12

AI 語音基礎設施

三個模型,三個場景,可以說 OpenAI 這次是直接把語音 AI 的基礎設施一次性鋪齊了。

對話有 GPT-Realtime-2,翻譯有 GPT-Realtime-Translate,轉錄有 GPT-Realtime-Whisper。

而拿到這三塊積木,能搭出什麼樣的產品,就看各位的了。

◇ ◆ ◇

相關連結:

OpenAI 博客:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

OpenAI Realtime API 文檔:https://developers.openai.com/api/docs/guides/realtime

GPT-Realtime 模型文檔:https://developers.openai.com/api/docs/models/gpt-realtime

OpenAI Realtime Translation Cookbook:https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api