豆包 Seed 2.0 Lite升級:給 Agent 裝上眼睛和耳朵

作者:花叔
日期:2026年5月6日 下午12:02
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

豆包 Seed 2.0 Lite 升級,用低價全模態畀 Agent 睇片聽嘢,解決字幕痛點

整理版摘要

作者係一個成日拍 B 站視頻嘅 AI 內容創作者,最怕剪字幕,因為語音識別成日將專有名詞(例如 Claude Opus 4.7、huashu-design)認錯,搞到要逐個改。佢一直諗:如果錄之前可以話畀模型聽「我等陣會講呢啲字」,係咪就可以避免?

最近字節跳動嘅火山引擎推出咗豆包 Seed 2.0 Lite(0428版),呢個模型本來已經可以睇圖、讀視頻,今次仲補埋聽覺——真正「聽」音頻,連情緒、環境聲、多個說話人都捕捉到。更重要係,佢可以直接成段視頻分析,唔係淨係睇一幀靜態圖。作者實測用佢做字幕:畀埋背景同46個易錯術語清單,結果全部正確,成本仲低過唔畀上下文。

作者認為,呢次升級嘅核心唔係「模型識聽」,而係「模型可以喺你畀嘅上下文入面聽」。真正價值係畀 Claude Code、Cursor 呢啲 coding agent 補返對眼同對耳——將視頻、音頻直接變成結構化文本,然後再畀主 agent 處理。成個工作流唔使換工具,只係加一層前置感官。價錢方面,比 Gemini 3 Flash 平六倍,一條 4 分半鐘嘅片轉字幕唔使一分錢,真係用得落 production。

  • 結論:豆包 Seed 2.0 Lite 用超低價提供全模態感知,補齊 coding agent 嘅「視聽缺口
  • 方法:將視頻或音頻連同背景 prompt 直接餵畀模型,佢會喺畀嘅上下文入面識別,減少錯字
  • 差異:同普通語音識別唔同,佢識得睇成段視頻,分析畫面節奏、字體、動效,甚至寫分鏡表
  • 啟發:帶上下文嘅 prompt 反而更平,因為模型唔使亂估,輸出 token 少咗,成本低 20%
  • 可行動點:日常用 Claude Code 嘅人可以將豆包當成前置感官,接一層 API 就即刻有齊眼耳
整理重點

剪字幕之痛:模型冇上下文,專有名詞亂譯

作者習慣自由講嘢錄視頻,之後先上字幕。但自動字幕成日將「Claude Opus 4.7」聽成「Claude 四點七」、「Codex」變「Code X」、「huashu-design」變「花書 Diffusion」。呢啲錯誤源於語音識別模型喺錄音時冇上下文,只能揀最熟悉嘅同音組合。

自動字幕嘅通病:佢唔知我喺度錄乜,所以喺所有同音組合入面揀一個最熟嘅

作者喺 Claude Code 呢類 coding agent 入面做嘢,但呢啲工具冇原生音視頻通道,搞到每次都要跳出去用其他工具做字幕,再貼返嚟。呢個「跳出跳入」嘅過程就係「花書 Diffusion」翻車嘅原因。

整理重點

豆包 Seed 2.0 Lite:畀 Agent 裝返對眼同耳

字節跳動推出咗豆包 Seed 2.0 Lite(0428版),喺原本已經可以睇圖、讀視頻嘅基礎上,補返聽覺。佢真係「聽」音頻,連情緒、環境聲、多個說話人都捕捉到。最關鍵係佢可以直接處理成段視頻,唔係淨係靜態圖。

御三家入面暫時只有 Gemini 做到呢項能力,但佢哋實在太貴,冇咁實用

而且豆包 Seed 2.0 Lite 嘅調用方式同任何大模型 API 一樣,你可以喺 prompt 入面話畀佢知你講緊乜。作者用一段音頻做測試:畀埋1900字嘅 prompt(錄製背景、說話人風格、46個易錯術語),結果13個專有名詞全部正確;唔畀 prompt 嘅話命中率係0%。

整理重點

實戰一:帶上下文嘅字幕,成本仲要低兩成

作者將同一段音頻分別掟畀剪輯軟件自動字幕同豆包 Seed 2.0 Lite。剪輯軟件嗰邊將 GitHub 聽成 GitLab、Claude Opus 4.7 變 COS4.7、huashu-design 變花書design。豆包嗰邊全部正確。

豆包唔寫 prompt 直接跑,效果只比剪輯軟件好少少;真正嘅能力係「喺你畀嘅上下文入面聽

成本數據好反直覺:帶上下文嘅 prompt 雖然多咗1208個 prompt token,但模型唔使亂估,輸出 token 少咗763個,總成本反而平咗20%,單次唔夠一分錢。

  1. 1 唔畀上下文:關鍵術語命中率0/13,字幕72條(太碎),總成本0.0101元
  2. 2 畀術語清單+背景:13/13全中,字幕41條(適合閲讀),總成本0.0081元(平20%)
整理重點

實戰二:直接睇競品片寫分鏡,唔使再寫千字 brief

作者將 OpenAI 發佈 GPT-5.5 嘅55秒英雄動畫直接掟畀豆包 Seed 2.0 Lite,叫佢按8個維度(節奏、視覺系統、動效轉場、文案策略等)輸出結構化分析,再寫一份豆包自家發佈動畫嘅分鏡表。

佢真係畀到:5段時間碼、字體 Inter、強調色 #A855F7 紫、BPM 80-90、平均切換頻率3.5秒

作者跟住將豆包預設嘅紫色換成火山方舟品牌色(#006EFF / #00E5E5),優化咗一段全模態感官可視化嘅動畫描述,再交畀自己另一個 skill(huashu-design)寫 code 出動畫。成個流程從睇片到出 MP4,中間完全冇人寫過一份 brief。

豆包做唔到 video generation,佢只係「睇得明視頻」;但係將「睇得明」呢件事變成 API call,已經夠消滅大量 manual 工序

整理重點

佢喺工作台嘅位置:前置感官層,唔係取代主模型

作者強調,豆包 Seed 2.0 Lite 唔係用嚟取代你而家嘅主力 LLM,佢嘅輸出能力(寫 code、複雜推理)比不上 Claude Opus、GPT-5.5。但係輸入呢邊,佢提供咗一整代 coding agent 都冇嘅能力:將視頻、音頻、圖片同文本同等地位塞入同一個 API 調用。

前置感官層:視頻/音頻/截圖 → 豆包 Seed 2.0 Lite → 結構化文本 → Claude Code / Codex / OpenClaw / Trae → 代碼/文章

你唔使換工作台,繼續用 Claude CodeOpenClawTrae 都得,只要喺前面加一層豆包,你原來嘅工作流即刻有齊完整嘅眼同耳。價錢方面:同 Gemini 3 Flash 比,文本輸入平6倍,輸出平6倍。一條4分38秒嘅片轉字幕一次唔到一分錢。

最近一個月模型發佈實在太捲喇。Claude Opus 4.7、GPT-5.5、DeepSeek V4 一個接一個,我每日打開 X 都覺得自己就快俾新模型淹沒。淨係我自己,前幾個禮拜就趕住做咗三期 B 站視頻去解讀呢堆發佈。

過去半月做的三期 B 站視頻

拍過視頻嘅人應該體會到,做視頻最痛苦嘅環節之一就係剪字幕。

我錄視頻從來唔跟劇本讀。

相比對住劇本讀稿,我通常都係鍾意自由隨性咁講,會顯得更自然。然後遇到嘅情況就係:專業術語講到一半改口、數字換咗講法、諗到一個例子塞入去,呢啲就係我錄視頻嘅常態。之後剪輯嘅第一步永遠係上字幕,丟入剪輯軟件自動識別,再花一個鐘頭改返啱。

我超級討厭呢個環節。唔係麻煩。每次見到字幕入面嗰堆識別錯位嘅術語,我都會有啲恍惚,總覺得有種話我普通話、英文發音唔標準嘅彈幕喺度嘲諷咁飄過。

需要改啲咩呢?「Claude Opus 4.7」俾人聽成「Claude 四點七」,「Codex」俾人斬成「Code X」,「GPT-5.5」變咗「GBT 5.5」。剪輯軟件把 GPT-5.5 識別成 GBT5.5

呢啲都仲算好,最離譜一次:上個禮拜我錄咗一段介紹我自己開源嘅 huashu-design skill,自動字幕竟然俾我轉出一行字「花書 Diffusion」。

佢完全將 Huashu Design 重新解析成一個根本唔存在嘅 AI 模型。以下呢種錯誤都算客氣架喇。

剪輯軟件把 huashu-design 識別成花書design

我研究咗一下原因。呢個係語音識別工具通用嘅工作方式:佢聽音頻嘅時候唔知我錄緊乜,冇上下文,於是在所有可能嘅同音組合入面揀一個佢最熟嘅。「huashu-design」呢種組合從來冇喺佢訓練數據出現過。

呢件事困擾我至少三年。每次寫完劇本我都會諗:如果錄之前可以同模型講一聲「我陣間會講 Codex、Claude Opus 4.7、Hermes Agent,huashu-design 係我自己嘅開源項目」,佢會唔會就唔會犯呢種錯?

我講嚇我嘅工作枱。我大部分時間喺 Claude Code 等 Coding Agent 入面做嘢,寫文章、改代碼、做調研、整理素材都喺佢入面。佢對我嘅意義係:絕大多數任務都應該喺呢個工作枱入面自動化完成,少跳出去用其他工具,少切換上下文。

但係 Claude Code 呢個工作枱入面冇原生嘅音視頻通道。我錄嘅 B 站視頻丟唔入去(就算丟入去都只可以截圖分析),會議錄音根本冇得直接處理,人哋嘅產品發佈動畫都要手動轉寫。佢喺文字呢一層好強,但喺「眼睛+耳朵」呢一層基本係空嘅。我每次想將視頻或者音頻變成可以處理嘅文本,都要跳出工作枱,用其他工具,再將結果貼返入去。而呢個跳出去嘅環節,就係「花書 Diffusion」出事嘅地方。

呢件事其實唔係字幕工具一間嘅問題。你睇嚇國內大模型公司最近呢半年嘅發佈節奏就明,幾乎間間都跟住 Anthropic 將 coding 同 agentic 打到最盡,多模態放咗喺相對靠後嘅位置。

我明呢個選擇。coding 同 agentic 的確係模型最高價值嘅方向,亦係模型公司之間分勝負嘅地方。但係做內容呢一行,成日會卡住嘅反而係多模態:要睇競品視頻係點樣剪嘅、要將會議錄音整理成紀要、要幫自己嘅 video 做精準字幕、要從一段長視頻入面抽出 3 個關鍵片段。呢啲嘢 LLM 本身解決唔到,每次都要跳出工作枱,揾一個語音識別工具、一個抽幀腳本、一個膠水流程拼埋一齊。

最近喺火山引擎見到字節方舟發咗豆包 Seed 2.0 Lite(0428版)。見到個價錢咁低有啲心動,跟住就啟發咗幾種新嘅工作流靈感~

圖片

佢喺原本 02 月 Lite 版嘅基礎上做咗一件事:今次 Lite 都可以聽嘢喇。原本嘅 Lite 已經可以睇圖、可以讀視頻、可以處理文字,今次將聽覺補返上嚟。係真係「聽」,唔單止係將聲音轉成文字,連情緒、環境聲、多個說話人都可以一齊捕捉。

仲有一個特別值得強調嘅點係,唔好一睇「全模態」就以為佢同普通圖像理解模型差唔多。佢係可以直接讀視頻㗎,唔係淨係睇一幀靜態圖。你掟一段 60 秒嘅視頻入去,佢可以話俾你知畫面節奏、字體風格、動效轉場、音視頻係咪一致,呢啲嘢 GPT-5.5、Claude Opus 4.7 都做唔到。御三家入面暫時得 Gemini 做咗呢項能力,但佢哋實在係有啲貴,冇咁實用。

同埋,甚至以性能表現嚟講,最新嘅 Seed 2.0 Lite 唔止超過咗前一代 Seed 2.0 Pro 嘅視覺理解能力,仲喺多個維度都達到咗 SOTA 級別👇

圖片

所以嚴格嚟講,佢幫 Agent 裝上嘅唔只係耳朵,仲係一對可以讀視頻嘅眼睛。我陣間會用兩個 demo 將呢兩件事都行一次。

而且關鍵喺呢度:豆包 Seed 2.0 Lite 嘅調用方式同你調任何一個大模型 API 冇分別。即係你可以喺 prompt 入面話俾佢知你陣間會聽啲乜。

我將嗰段錄有「huashu-design」嘅音頻丟俾佢,再加一個 1900 字嘅 prompt:錄製背景、說話人風格、46 個易錯術語清單(GPT-5.5、Claude Opus 4.7、Codex、Anthropic、Apollo Research……)。叫佢輸出標準 SRT 字幕。

然後我將同一段音頻都丟入剪輯軟件自動字幕——剪輯軟件係大多數人做視頻嘅默認選擇,同佢對比最直接。結果:

剪輯軟件 vs 豆包+system prompt 字幕對比

剪輯軟件將 GitHub 聽成 GitLab、Claude Opus 4.7 變 COS4.7、GPT-5.5 變 GBT5.5、Claude 4.7 變 cloud 4.7、huashu-design 變花書design——呢個唔係剪輯軟件差,係所有自動字幕工具嘅通病:冇上下文,模型只能喺同音組合入面揀佢最熟嗰個。平時會拍 video 嘅同學應該明我講乜。

咁豆包呢邊呢?全對huashu-design、Claude Opus 4.7、GPT-5.5、GitHub、Claude 4.7,一個都冇錯。

但呢度要補一個 best practice,如果唔係你跟住試可能會失望:豆包唔寫 prompt 直接行,效果只係比剪輯軟件好少少——仍然會將一部分專有名詞認歪。佢真正嘅能力,係你將背景、術語清單、說話人風格都寫入 prompt 之後先至解鎖。今次升級真正解鎖嘅唔係「模型可以聽」,係「模型可以喺你俾嘅上下文入面聽」。

所以如果你想將佢塞入生產鏈路,prompt 上下文係必須要做嘅功課。少咗呢一步,全模態嘅能力就發揮唔出嚟。

更加出乎意料嘅係成本。一段 277 秒嘅音頻,加咗 1900 字 prompt 反而比冇加更平——prompt token 多咗 1208 個,但模型唔使亂估,輸出 token 少咗 763 個。總成本下降 20% ,單次唔夠一分錢。

事情到呢度其實未完,因為「帶上下文做字幕」只係今次 0428 升級最淺嘅一層。我之後連續做咗兩個 demo,一個係用佢去睇另一間 AI 嘅產品發佈動畫,一個係驗證佢喺真實工作流入面嘅位置。亦即係呢篇文章真正想講嗰件事:

呢一代 Agent 工具,無論係 Claude Code、Cursor 定 OpenClaw,一直缺一對可以聽音頻、可以睇視頻嘅耳朵同眼睛。豆包 Seed 2.0 Lite 0428 好難得咁補返上嚟,價錢仲好抵。


叫 AI 睇另一間 AI 嘅產品視頻

字幕呢條線我行通之後,做咗第二個實驗,更加狠啲。因為我發現 Seed 2.0 Lite 模型喺視頻理解能力上有啲勁,機會係全方位碾壓 Gemini-3-Pro 嘅水平👇

圖片

OpenAI 上個禮拜喺 X 發 GPT-5.5 嘅時候配咗一條 55 秒嘅 hero 動畫:白色底、Inter 字體、打字機標題、4 段產品演示(扭計骰、跨 Slack 改 bug、生成財務 PPT、blossom logo 收尾)。

呢種動畫係產品發佈嘅標準品,我自己做過幾次,次次都要拉競品視頻反覆睇,寫一份俾前端嘅 brief,再過一次設計稿。成個鏈路最少三日。

先睇嚇 OpenAI 嗰段原視頻係點樣:

我將呢條 55 秒視頻直接餵俾豆包 Seed 2.0 Lite,寫咗一份 prompt:你睇完呢條片,按 8 個維度(節奏、視覺系統、動效轉場、文案策略、品牌資產、音頻、鏡頭、遷移建議)俾一份結構化輸出我,最後俾一份「豆包 Seed 2.0 Lite 發佈動畫」嘅分鏡表,要具體到顏色 hex、字號、動效時序,令前端可以直接開工。

佢真係俾咗。

視頻入面幾乎所有可以觀察到嘅細節佢都認到:5 段時間碼(0-4s 標題、5-13s 扭計骰、14-34s Slack 改 bug、35-50s 生成 PPT、51-55s logo 收尾)、字體氣質(Inter 類無襯線、字重 700/400/500 三層)、強調色 #A855F7 紫色、blossom 花形符號喺扭計骰表面同結尾出現兩次、BPM 大約 80-90、平均切換頻率 3.5 秒。佢仲順便指出開場頭 3 秒嘅鈎子結構同結尾 3 秒嘅品牌定格邏輯。

豆包視頻理解能力可視化

更加有用嘅係 H 部分。佢俾我寫咗一份可執行嘅分鏡表:7 段、每段時間碼、畫面元素、文案、動效、要用嘅數據點。我將呢份表再過咗一次,將佢默認套用 OpenAI 紫色嗰部分換成火山方舟自己嘅品牌色(#006EFF / #00E5E5),將 5-13s 嗰段「全模態感官可視化」具體化(左邊波形圖、中間豆包 logo 脈衝、右邊抽幀縮略圖三欄匯聚),加咗 SFX 節拍同字體規範,整成一份最終藍本。

然後呢份藍本交俾我自己另一個 skill huashu-design(專門做 HTML 動畫嘅),叫佢根據藍本寫代碼、Playwright 錄屏、ffmpeg 出 MP4。最後產出係咁樣:

成個鏈路由睇片到拎到 MP4,冇人寫過一份 brief。

我以前做產品視頻係咁樣:睇 5 個競品 → 寫 8 千字 brief → 揾設計師 → 改 3 輪。而家變成:將 1 個競品丟入 LLM → LLM 寫 brief → 另一個 LLM 寫代碼出動畫。中間嗰 8 千字嘅 brief,係今次升級入面第一個被消滅嘅環節。

呢個 demo 唔係想證明豆包可以做到 video,佢做唔到,佢只係睇得明 video。叫 AI 睇 video 呢件事嘅價值,係將「拆解參考」呢道工序由手動變成 API 調用。

數據對比:同一段音頻,兩個 prompt

返去字幕嗰條線,我將對比數據完整列一列,方便你睇清楚 prompt 上下文到底改變咗啲乜。

維度
唔俾上下文
俾術語清單+背景
關鍵術語命中率
0/13 = 0%
13/13 = 100%
Claude Opus 4.7
Claude 四點七
Codex
Code X(斷成兩段)
GPT-5.5
GPT 5.5(冇咗連字符)
huashu-design
花書 Diffusion
29% / 22.1%
百分之二十九
字幕條數
72 條(碎)
41 條(適合閲讀)
SRT 時間戳格式合規
後段 5 處錯(句點)
全合規
總 token 成本
0.0101 元
0.0081 元(平 20%)

最反直覺嘅係最後一行。帶上下文嘅 prompt 多咗 1208 個 prompt token,你直覺以為會更貴,但 completion 嗰邊模型唔使亂估,反而少咗 763 個 token。講多啲嘢,等模型講少啲廢話。呢個係今次升級入面第二個被消滅嘅環節:模型亂估嘅成本。

佢喺工作枱入面嘅位置

將呢兩個 demo 連埋一齊睇,論點其實好簡單。

豆包 Seed 2.0 Lite 0428 唔係嚟取代你而家用緊嘅 LLM 嘅。佢嘅輸出能力,寫代碼、複雜推理、長鏈路 Agent,一定唔及 Claude Opus、GPT-5.5 呢啲旗艦。我唔會用佢去寫 1 萬行代碼。

輸入呢一邊,佢提供嘅係 Claude Code、Cursor、Codex、OpenClaw 呢一整代 coding agent 都冇嘅能力:令你可以直接將 video、音頻、圖片同文本以同等地位塞入同一個 API 調用,令 prompt 入面嘅上下文直接作用喺感知層。

呢個係「前置感官層」嘅意思,係佢喺你工作流入面嘅位置:

coding agent 的前置感官層
視頻/音頻/截圖 → [豆包 Seed 2.0 Lite 0428] → 結構化文本 → Claude Code / Codex / OpenClaw / Trae → 代碼/文章
                  眼睛 + 耳朵                   

重點喺呢度:你唔使換工作枱。 日常用 Claude Code、Codex、龍蝦 OpenClaw、Hermes Agent,或者字節自家嘅 Trae 都得——將豆包 Seed 2.0 Lite 當成前置感官接一層入去,你原本嘅工作流即刻就有齊全嘅眼睛同耳朵。唔使遷移、唔使學新工具,只係幫現有嘅 coding agent 補返佢原本冇嗰部分感知。

呢個月頭我出咗一本 Hermes Agent 嘅橙皮書,講長鏈路 Agent 點樣將多步驟任務串埋。當時書入面有一節專門講 Agent 工作流嘅「輸入側瓶頸」:絕大多數任務卡喺「點樣將現實世界嘅 video/音頻/會議錄屏餵俾 Agent」呢一步。

呢本書寫完之後我自己喺工作流入面都未真正解決呢個問題,繞路用 Whisper + 手動改字幕、用 Gemini 處理 video、用一堆膠水腳本拼埋。豆包 Seed 2.0 Lite 0428 係我見到嘅第一個用一次 API 調用就將呢兩件事都解決嘅全模態輕量模型。

價錢都係呢個論點嘅支撐。我只係同同檔嘅全模態輕量模型對比,旗艦模型唔係同一個檔次,冇必要拉入嚟。

模型
輸入(元/Mtok)
輸出(元/Mtok)
音頻輸入
Doubao Seed 2.0 Lite
0.6
3.6
9 元/Mtok
Gemini 3 Flash
3.6
21.6
7.2 元/Mtok

同同尺寸嘅 Gemini 3 Flash 比,文本輸入平 6 倍,輸出平 6 倍。呢個價錢意味住你可以真係將佢塞入生產鏈路,唔係淨係做 demo。我嗰段 4 分 38 秒 video 轉字幕一次唔夠一分錢,即係我每日錄嘅幾個 video 片段全部行一次語音識別都係幾毫子。當成本低到「唔使考慮成本」嘅時候,調用頻率就會升一個量級,工作流嘅形態都會跟住變。

下次開 Claude Code 嘅時候,你可以試嚇將嗰段唔想手動轉錄嘅會議錄屏丟俾佢喇。

你都係時候幫你嘅龍蝦裝返對真嘅耳朵同眼睛喇。


最近一個月模型發佈太捲了。Claude Opus 4.7、GPT-5.5、DeepSeek V4 一個接一個,我每天打開 X 都覺得自己快被新模型淹沒。光是我自己,前幾周就趕着做了三期 B 站視頻去解讀這些發佈。

過去半月做的三期 B 站視頻

錄過視頻的人應該有體會,做視頻最痛苦的環節之一,是剪字幕。

我錄視頻從來不按腳本念。

相比看着腳本讀稿,我通常還是更喜歡自由隨性點講,會顯得更有認為。然後遇到的情況就是:專業術語念一半改口、數字換種說法、想到一個例子塞進去,這是我錄視頻的常態。然後剪輯的第一步永遠是上字幕,丟進剪輯軟件自動識別,再花一個鐘頭改回來。

我特別討厭這個環節。倒不是麻煩。每次看到字幕裏那一堆識別錯位的術語,我都會有點恍惚,總覺得有種說我普通話、英語發音不標準的彈幕在壞壞的飄過。

需要改寫什麼呢?「Claude Opus 4.7」被聽成「Claude 四點七」,「Codex」被切成「Code X」,「GPT-5.5」變成「GBT 5.5」。剪輯軟件把 GPT-5.5 識別成 GBT5.5

這些都還好,最離譜的一次:上週我錄了一段介紹我自己開源的 huashu-design skill,自動字幕給我轉出來一行字「花書 Diffusion」。

它完全把 Huashu Design 重新解析成了一個根本不存在的 AI 模型。下面這種錯誤都算客氣了。

剪輯軟件把 huashu-design 識別成花書design

我研究了一下原因。這是語音識別工具通用的工作方式:它在聽音頻的時候不知道我在錄什麼,沒有上下文,於是在所有可能的同音組合裏挑一個它最熟悉的。「huashu-design」這種組合從來沒在它訓練數據裏出現過。

這件事困擾我至少三年。每次寫完腳本我都會想:要是錄之前能跟模型說一聲「我接下來要講 Codex、Claude Opus 4.7、Hermes Agent,huashu-design 是我自己的開源項目」,它會不會就不犯這種錯?

我說一下我的工作台。我大部分時間在 Claude Code 等Coding Agent裏幹活,寫文章、改代碼、做調研、整理素材都在它裏面。它對我的意義是:絕大多數任務都應該在這個工作台內自動化完成,少跳出去用別的工具,少切換上下文。

但 Claude Code 這個工作台裏沒有原生的音視頻通道。我錄的 B 站視頻丟不進去(即便丟進去也只能截圖分析),會議錄音根本沒法直接處理,別人家的產品發佈動畫也得手動轉寫。它在文字這一層非常強,在「眼睛+耳朵」這一層基本是空的。我每次想把視頻或者音頻變成可以處理的文本,都得跳出工作台,去用別的工具,再把結果粘回來。而這個跳出去的環節,就是「花書 Diffusion」翻車的地方。

這事兒其實不是字幕工具一家的問題。你看國內大模型公司最近這半年的發佈節奏就明白了,幾乎所有家都跟着 Anthropic 把 coding 和 agentic 捲到極致,多模態放在了相對靠後的位置。

我能理解這個選擇。coding 和 agentic 確實是模型最高價值的方向,也是模型公司之間分勝負的地方。但做內容這一行,經常會卡住的反而是多模態:要看競品視頻是怎麼剪的、要把會議錄音整理成紀要、要給自己的視頻做精準字幕、要從一段長視頻裏撈出 3 個關鍵片段。這些事 LLM 本身解決不了,每次都要跳出工作台,找一個語音識別工具、一個抽幀腳本、一個膠水流程拼起來。

最近在火山引擎看到字節方舟發了豆包 Seed 2.0 Lite(0428版)。看到價格這超低的價格有點心動,然後,正好啓發了幾種新的工作流靈感~

圖片

它在原來 02 月 Lite 版的基礎上做了一件事:這次 Lite 也能聽了。原來的 Lite 已經能看圖、能讀視頻、能處理文字,這次把聽覺補上了。是真的「聽」,不只是把聲音轉成文字,連情緒、環境聲、多說話人都能一起捕捉。

以及有個特別值得強調的點是,別一看「全模態」就以為它跟普通圖像理解模型差不多。它是能直接讀視頻的,不是隻能看一幀靜態圖。你扔一段 60 秒的視頻進去,它能告訴你畫面節奏、字體風格、動效轉場、音視頻是否一致,這件事 GPT-5.5、Claude Opus 4.7 都做不到。御三家裏暫時只有Gemini做了這項能力,但是他們實在是特麼有點貴了,沒那麼實用。

以及,甚至從性能表現來說,最新的Seed 2.0 Lite不止超過了前一代的Seed 2.0 Pro的視覺理解能力,甚至在多個維度上都達到了SOTA級別👇

圖片

所以嚴格來說,它給 Agent 裝上的不只是耳朵,還是一雙能讀視頻的眼睛。我接下來會用兩個 demo 把這兩件事都跑一遍。

而且關鍵點在這裏:豆包 Seed 2.0 Lite 的調用方式跟你調任何一個大模型 API 沒區別。這意味着你可以在 prompt 裏告訴它你接下來要聽的是什麼。

我把那段錄有「huashu-design」的音頻丟給它,附上一個 1900 字的 prompt:錄製背景、說話人風格、46 個易錯術語清單(GPT-5.5、Claude Opus 4.7、Codex、Anthropic、Apollo Research……)。讓它輸出標準 SRT 字幕。

然後我把同一段音頻也丟進剪輯軟件自動字幕——剪輯軟件是大多數人做視頻的默認選擇,對比它最直觀。結果:

剪輯軟件 vs 豆包+system prompt 字幕對比

剪輯軟件這邊把 GitHub 聽成了 GitLab、Claude Opus 4.7 變 COS4.7、GPT-5.5 變 GBT5.5、Claude 4.7 變 cloud 4.7、huashu-design 變花書design——這不是剪輯軟件爛,是所有自動字幕工具的通病:沒有上下文,模型只能在同音組合裏挑它最熟的那個。平時會拍視頻的同學應該懂我在說什麼。

豆包這邊呢?全對。huashu-design、Claude Opus 4.7、GPT-5.5、GitHub、Claude 4.7,一個不錯。

但這裏要補一個 best practice,不然你照着去試可能會失望:豆包不寫 prompt 直接跑,效果只比剪輯軟件好一點——還是會把一部分專有名詞識別歪。它真正的能力,是你把背景、術語清單、說話人風格都寫進 prompt 之後才解鎖的。這次升級真正解鎖的不是「模型能聽」,是「模型能在你給的上下文裏聽」。

所以如果你要把它塞進生產鏈路,prompt 上下文是必須做的功課。少了這一步,全模態的能力就發揮不出來。

更出乎意料的是成本。一段 277 秒的音頻,加了 1900 字 prompt 反而比不加便宜——prompt token 多了 1208 個,但模型不用瞎猜了,輸出 token 少了 763 個。總成本下降 20% ,單次不到一分錢。

事情到這裏其實沒完,因為「帶上下文做字幕」只是這次0428升級最淺的一層。我接下來連做了兩個 demo,一個是用它去看另一支 AI 的產品發佈動畫,一個是驗證它在真實工作流裏的位置。也就是這篇文章真正想說的那件事:

這一代 Agent 工具,不管是 Claude Code、Cursor 還是 OpenClaw,一直缺一雙能聽音頻、能看視頻的耳朵和眼睛。豆包 Seed 2.0 Lite 0428 非常難得給補上了,價格還很實惠。


讓 AI 看另一支 AI 的產品視頻

字幕這條線我跑通之後,做了第二個實驗,更狠一點。因為我發現Seed 2.0 Lite模型在視頻理解能力上有點猛,機會是全方面碾壓Gemini-3-Pro的水平👇

圖片

OpenAI 上週在 X 上發 GPT-5.5 的時候配了一支 55 秒的 hero 動畫:白底、Inter 字體、打字機標題、4 段產品演示(解魔方、跨 Slack 修 bug、生成財務 PPT、blossom logo 收尾)。

這種動畫是產品發佈的標準品,我自己做過幾次,每次都得拉競品視頻反覆看,寫一份給前端的 brief,再過一遍設計稿。整個鏈路三天起步。

先看看 OpenAI 那段原視頻長什麼樣:

我把這支 55 秒視頻直接餵給豆包 Seed 2.0 Lite,寫了一份 prompt:你看完這個視頻,按 8 個維度(節奏、視覺系統、動效轉場、文案策略、品牌資產、音頻、鏡頭、遷移建議)給我一份結構化輸出,最後給我一份「豆包 Seed 2.0 Lite 發佈動畫」的分鏡表,要具體到顏色 hex、字號、動效時序,讓前端能直接動手。

它真給了。

視頻裏幾乎所有可觀測的細節它都識別到了:5 段時間碼(0-4s 標題、5-13s 解魔方、14-34s Slack 修 bug、35-50s 生成 PPT、51-55s logo 收尾)、字體氣質(Inter 類無襯線、字重 700/400/500 三層)、強調色 #A855F7 紫、blossom 花形符號在魔方表面和結尾出現兩次、BPM 估值 80-90、平均切換頻率 3.5 秒。它還順手指出了開場前 3 秒的鈎子結構和結尾 3 秒的品牌定格邏輯。

豆包視頻理解能力可視化

更有用的是 H 部分。它給我寫了一份可執行的分鏡表:7 段、每段時間碼、畫面元素、文案、動效、要用的數據點。我把這份表又過了一遍,把它默認套用 OpenAI 紫色那部分換成火山方舟自己的品牌色(#006EFF / #00E5E5),把 5-13s 那段「全模態感官可視化」具象化(左側波形圖、中間豆包 logo 脈衝、右側抽幀縮略圖三欄匯聚),加了 SFX 節拍和字體規範,整成一份最終藍本。

然後這份藍本交給我自己另一個 skill huashu-design(專門做 HTML 動畫的),讓它按藍本寫代碼、Playwright 錄屏、ffmpeg 出 MP4。最後產出長這樣:

整個鏈路從看視頻到拿到 MP4,沒有人寫一份 brief。

我以前做產品視頻是這樣的:看 5 個競品 → 寫 8 千字 brief → 找設計師 → 改 3 輪。現在變成:把 1 個競品丟進 LLM → LLM 寫 brief → 另一個 LLM 寫代碼出動畫。中間那 8 千字的 brief,是這次升級裏第一個被吃掉的環節。

這個 demo 不是為了證明豆包能做視頻,它做不了,它只是看懂了視頻。讓 AI 看視頻這件事的價值,是把「拆解參考」這道工序從手動變成 API 調用。

數據對比:同一段音頻,兩個 prompt

回到字幕那條線,我把對比數據完整列一下,方便你看清楚 prompt 上下文到底改變了什麼。

維度
不給上下文
給術語清單+背景
關鍵術語命中率
0/13 = 0%
13/13 = 100%
Claude Opus 4.7
Claude 四點七
Codex
Code X(斷成兩段)
GPT-5.5
GPT 5.5(丟連字符)
huashu-design
花書 Diffusion
29% / 22.1%
百分之二十九
字幕條數
72 條(碎)
41 條(適合閲讀)
SRT 時間戳格式合規
後段 5 處錯(句點)
全合規
總 token 成本
0.0101 元
0.0081 元(便宜 20%)

最反直覺的是最後一行。帶上下文的 prompt 多 1208 個 prompt token,你直覺以為更貴,但 completion 那一邊模型不用瞎猜了,反而少 763 個 token。多說一點話,讓模型少說一點廢話。這是這次升級裏第二個被吃掉的環節:模型瞎猜的成本。

它在工作台裏的位置

把這兩個 demo 串起來看,論點其實很簡單。

豆包 Seed 2.0 Lite 0428 不是來替換你正在用的 LLM 的。它的輸出能力,寫代碼、複雜推理、長鏈路 Agent,肯定比不過 Claude Opus、GPT-5.5 這種旗艦。我也不會用它去寫 1 萬行代碼。

輸入這一側,它提供的是 Claude Code、Cursor、Codex、OpenClaw 這一整代 coding agent 都沒有的能力:讓你直接把視頻、音頻、圖片以和文本同等地位塞進同一個 API 調用,讓 prompt 裏的上下文直接作用在感知層。

這是「前置感官層」的意思,是它在你工作流裏的位置:

coding agent 的前置感官層
視頻/音頻/截圖 → [豆包 Seed 2.0 Lite 0428] → 結構化文本 → Claude Code / Codex / OpenClaw / Trae → 代碼/文章
                  眼睛 + 耳朵                   

重點在這裏:你不用換工作台。 日常用 Claude Code、Codex、龍蝦 OpenClaw、Hermes Agent,或者字節自家的 Trae 都行——把豆包 Seed 2.0 Lite 當成前置感官接一層進去,你原來的工作流立刻就有了完整的眼睛和耳朵。不用遷移、不用學新工具,只是給現有的 coding agent 補上它原來缺的那部分感知。

這個月初我發了一本 Hermes Agent 的橙皮書,講長鏈路 Agent 怎麼把多步驟任務串起來。當時書裏有一節專門講 Agent 工作流的「輸入側瓶頸」:絕大多數任務卡在「怎麼把現實世界的視頻/音頻/會議錄屏餵給 Agent」這一步。

這本書寫完之後我自己在工作流裏也沒真正解決這個問題,繞過去用 Whisper + 手動改字幕、用 Gemini 處理視頻、用一堆膠水腳本拼。豆包 Seed 2.0 Lite 0428 是我看到的第一個用一次 API 調用就把這兩件事都解決的全模態輕量模型。

價格也是這個論點的支撐。我只跟同檔的全模態輕量模型對比,旗艦模型不是同一個段位,沒必要拉進來。

模型
輸入(元/Mtok)
輸出(元/Mtok)
音頻輸入
Doubao Seed 2.0 Lite
0.6
3.6
9 元/Mtok
Gemini 3 Flash
3.6
21.6
7.2 元/Mtok

跟同尺寸的 Gemini 3 Flash 比,文本輸入便宜 6 倍,輸出便宜 6 倍。這個價格意味着你可以把它真的塞進生產鏈路,不只是做 demo。我那段 4 分 38 秒視頻轉字幕一次不到一分錢,意味着我每天錄的幾個視頻片段全跑一遍語音識別也只要幾毛錢。當成本低到「不用考慮成本」的時候,調用頻率就會漲一個量級,工作流的形態會跟着變。

下一次開 Claude Code 的時候,你可以試着把那段不願意手動轉錄的會議錄屏丟給它了。

你也是時候給你的龍蝦裝上真正的耳朵和眼睛了。