Anthropic 內部是怎麼用 Claude Fable 5 的?

作者:空格的鍵盤
日期:2026年6月12日 上午8:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Anthropic 內部使用 Claude Fable 5 嘅真實體感:協作模式從工具變成全權隊友

整理版摘要

呢篇文係一期播客《AI & I》嘅整理,嘉賓係 Anthropic Labs 嘅負責人 Mike Krieger,佢亦係 Instagram 嘅聯合創始人。錄製時間喺 Claude Fable 5 發佈前一日,佢內部用咗呢個模型兩個月。文章想帶出嘅係團隊日日用新模型之後沉澱落嚟嘅真實體感:邊啲嘢真係變咗,邊啲嘢其實冇變。

舊嘅使用方法喺新模型面前完全冇用。Mike 發現自己拆解任務嘅方式、寫 prompt 嘅習慣全部過時。正確做法係將完整意圖一次性交代清楚,然後放手。佢而家嘅日常係夜晚交帶複雜任務,第二朝起身就搞掂。模型仲會主動處理異常,例如遠程服務死咗,佢會自己寫臨時後端頂上。呢種協作模式已經從工具變成可以託付完整任務嘅隊友。

軟件工程未結束但已經面目全非。敲代碼嘅部分基本翻篇,但人腦入面嘅上下文同產品意圖仍然係 AI 攞唔走嘅。驗證責任成為核心,內部要求每個 PR 附截圖或錄屏,人最終要為交付嘅嘢負責。模型每升級一代,舊用法就會過時,連 Labs 負責人都覺得自己係新手,所以普通用戶唔適應好正常。

  • 舊用法失效:將完整意圖一次性交代比小步快走更有效,模型可以深夜完成任務。
  • 模型展現系統感:主動提醒生產環境問題、code review 堅持己見、週末出錯先臨時解決再異步修復。
  • 一步到位嘅 APP 製作:非技術同事都能用內部工具搭建系統,Agent 甚至能修改產品本身。
  • 軟件工程已改變:敲代碼部分翻篇,人需要管理多個 AI 工作同承擔驗證責任。
  • 驗證責任上升:每個 PR 必須附截圖/錄屏,最終為結果負責,冇得外判。
整理重點

舊用法失效:由小步快走變成一次性交代

Mike 第一次內部用 Fable 5 時,覺得自己好似一個徹頭徹尾嘅 AI 新手。過去佢習慣小步快走,同模型協作係逐步拆解任務。但而家咁樣用反而浪費,正確姿勢係將完整意圖一次過交代清楚,然後放手。

小步快走

完整意圖

放手

整理重點

一步到位嘅 APP 製作與 agent-native 架構

Mike 示範咗一個週末整嘅個人媒體追蹤器,成本極低,喺帶仔嘅空隙就搞掂。佢仲提到 App 有個隱藏入口,長按可以修改軟件本身,例如覺得按鈕太低,直接同 App 講一聲,Agent 就改好。

成本

agent-native 架構

修改產品本身

Anthropic 內部有位做招聘嘅同事,完全非技術背景,用內部工具搭咗自己嘅工作系統之後話:呢個係佢人生第一次感覺到,腦入面諗嘅嘢同世界存在嘅嘢,捱得咁近。

整理重點

軟件工程未結束但已面目全非

敲代碼嘅部分基本翻篇,但人腦入面嘅上下文同產品意圖仍然係 AI 攞唔走嘅。Anthropic 內部每塊業務依然有明確嘅 DRI(直接負責人),因為只有人知道產品真正嘅意圖同其他產品線嘅交集。

DRI

上下文

儀表盤

  • 每個人手下跑着幾個 Claude,但每塊業務有明確 DRI
  • 工程師自己搭儀表盤,睇住幾個 Claude 跑到邊度、邊個 PR 等緊自己。
  • 管理 AI 嘅工作,本身成為咗一項工作。
  • 原型仍然贏得爭論,但動手嘅門檻唔再屬於某個工種,PM 都可以自己做原型。
整理重點

Fable 5 嘅判斷力同驗證責任

MikeFable 5 最令人驚訝嘅係佢有系統感。寫完代碼會主動提醒生產環境要改嘅嘢,仲會喺 code review 入面堅持己見。週末出咗內存泄漏,佢識得先重啟服務頂住,再開 PR 異步修復,完全係老練 SRE 嘅判斷。

系統感

code review 堅持己見

老練 SRE

人嘅驗證責任上升。Mike 而家規定每個 PR 要附截圖或錄屏,甚至試緊畀模型睇界面錄屏,等佢逐幀檢查動畫有冇卡頓。

逐幀檢查

圖片

今日睇咗一期 Every 嘅播客 AI & I。呢期嘅嘉賓份量好足,係 Anthropic Labs 嘅負責人 Mike Krieger。

Feishu Docs - Image

youtube.com/watch?v=XWpTgCvgYaE

好多人對呢個名更熟悉嘅身份可能係 Instagram 聯合創始人。佢喺 Anthropic 做咗幾年 CPO,最近轉咗去帶 Labs 團隊,重新返到一線動手做嘢嘅狀態。

錄製嘅時間點都好微妙,就係 Claude Fable 5 發佈嘅前一日。Mike 內部用呢個模型已經兩個月喇。所以呢期傾嘅係一個團隊日日用佢做嘢之後,沉澱落嚟嘅真實體感。

邊啲事真係變咗,邊啲事其實冇變。呢種資訊比跑分有用得多。

01

舊嘅使用方法喺新模型面前冇用喇。

Mike 話佢第一次內部用呢個模型嘅時候,有一個幾奇怪嘅感受。佢覺得自己好似個徹頭徹尾嘅 AI 使用新手,舊嘅使用方法喺新模型面前冇用喇。

要知道呢個人寫咗十幾年 code,做過億級用戶嘅產品,喺 Anthropic 日日浸喺最前線嘅模型入面。但佢發現,自己拆解任務嘅方式、寫 prompt 嘅習慣,喺新模型面前全部過時喇。

以前同模型協作,節奏係小步快走。我有個功能嘅諗法,你幫我做第一步先。而家咁用反而係浪費,正確嘅姿勢係將完整嘅意圖一次過交代清楚,然後放手。

佢而家嘅日常係咁嘅。夜晚同 Claude 講聲晚安,將一個幾複雜嘅任務交代落去,第二日朝早起身,嘢已經做曬。通常凌晨兩點就搞掂,剩低四個鐘模型大概喺度乾等。

仲有意思嘅係中間出問題嘅處理方式。

有一次任務跑到一半,依賴嘅某個遠程服務死咗。模型冇停落嚟等人,而係自己寫咗個臨時嘅後端 scaffold 頂住,記低呢件事,等服務恢復返之後再回頭修。整個過程有文件,有交代。

呢個背後其實係協作模式嘅轉變。由工具,到副駕駛,到而家更加似一個可以託付完整任務嘅隊友。變嘅係你敢將幾大件事交畀佢,然後去瞓覺。

02

一步到位嘅 App 製作。

節目入面 Mike 演示咗一個佢週末整嘅小嘢,一個個人媒體追蹤器。記錄自己玩緊咩遊戲、睇緊咩劇、收咗咩推薦。

聽落平平無奇,呢啲嘢二十年前就做到。但有兩個細節值得仔細睇。

第一個細節係成本。

Mike 回憶 Instagram 第一版,佢自己當年算係幾打得嘅 programmer,前後端全包,Kevin 做 filter,連續捱五個通宵先上線。而呢個媒體追蹤器,係佢喺一個排滿咗湊仔行程嘅週末入面,揾窿罅整出嚟嘅。出發去爬山前將任務派落去,爬完山返嚟收嘢。

第二個細節仲有意思。呢個 App 可以從內部修改佢自己。

界面上有一個聊天入口,平時用嚟加內容,同 Claude 講一句嘢,佢去做聯網搜索然後將條目加落嚟,再唔使喺菜單度㩒嚟㩒去。但長按呢個入口,佢會變成另一個嘢:一個改軟件本身嘅入口。

Mike 有一日喺手機上覺得浮動掣嘅位置太低,直接喺 App 入面講咗一句,後台嘅 Agent 接到請求,改 code,畀佢一個預覽,確認後生效。軟件嘅使用者、需求方同開發團隊,第一次喺同一個界面入面閉環咗。

佢叫呢個做 agent-native 架構嘅極致形態。

  • 第一個階段係產品入面每個功能都可以俾 Agent 調用。
  • 第二個階段係 Agent 可以修改產品本身。

仲有一個故事我印象好深。Anthropic 內部一位做招聘嘅同事,完全唔係技術背景,用內部工具整咗自己嘅工作系統之後同 Mike 講,呢個係佢人生中第一次感覺到,腦入面諗嘅嘢同世界上存在嘅嘢,捱得咁近。

放喺四五年前,呢個人想要一個內部工具,一係就湊合,一係就去排一個手上壓住五十個需求嘅內部工具工程師嘅隊。

03

軟件工程完咗未?

主持人 Dan 將呢個問題直接拋咗出嚟。Mike 嘅回答係,未完,但已經面目全非。

如果喺 Instagram 時代問佢咩係軟件工程.

佢會話:諗清楚難題,設計架構,然後喺編輯器入面浸好長時間將 code 敲出嚟,上線後修 Bug。呢度屬於敲 code 嘅嗰部分,基本上已經成為過去式喇。

佢冇迴避呢度嘅失落感。佢話好多優秀嘅工程師會發關於 code 嘅夢,半夜夢見一個優雅嘅解法,朝早起身興奮咁去實現。呢種體驗正在消失。

身邊最好嘅嗰班工程師,一邊為失去呢種手藝感到難過,一邊又為自己做得到嘅嘢嘅量級翻咗幾番而興奮。兩種情緒同時裝喺腦入面,佢覺得呢個好正常。

咁 Anthropic 內部而家點做嘢?幾個細節拼埋一齊都幾有畫面感。

每個人手下跑緊好幾個 Claude,但每塊業務依然有明確嘅人嚟負責,佢哋叫 DRI。原因好簡單,有些上下文只係喺人腦入面:呢個產品真正嘅意圖係咩,其他產品線喺度醖釀緊咩大招,呢兩件事會點交匯。呢部分 AI 拎唔走。

幾乎每個工程師都俾自己整咗一個 dashboard,睇自己嘅幾個 Claude 都跑到邊度,邊個 PR 喺度等自己。管理 AI 嘅工作,本身變成一項工作。

最妙嘅係一個舊觀念嘅翻新。硅谷有句老話叫 code wins arguments,code 贏得爭論。Mike 話佢一直唔係好鍾意呢句話,因為呢個等於話識寫 code 嘅人天然應該贏。但而家團隊入面爭論產品方向,成日係 PM 先動手,隨手碌一句:我試咗一版,有八個地方好粗糙,但你哋睇,呢個思路係行得通嘅。

原型依然贏得爭論,只係動手嘅門檻唔再屬於某個工種喇。

04

Fable 5 帶嚟嘅兩個新特點。

整期聽落嚟,如果話構建呢件事嘅難度喺度坍塌,咁有兩樣嘢嘅權重明顯上升緊。

一個係模型自己生出來嘅判斷力。

Mike 話 Fable 5 最令佢驚訝嘅係佢有咗系統感。寫完一段 code 會主動提醒,呢個嘢上咗生產環境要改,你嗰個 feature flag 仲未開,唔開係行唔到嘅。隔咗幾日嘅對話入面仲會追住問,你到底開咗未。

仲絕嘅係 code review 環節。收到 review 意見,以前嘅模型係膝跳反應式嘅,係係係我即刻改。而家佢會諗一陣,然後話:我理解你嘅意思,但我諗過,唔同意,理由如下。

評審佢嘅往往都係另一個 Fable。兩個模型喺 PR 下面有理有據咁對峙,呢個畫面諗嚇都幾科幻。

週末線上出咗 memory leak,佢嘅處理係:而家係週末,先將服務 reboot 咗頂住,長期修復我開個 PR 異步做。呢個係一個老練 SRE 嘅判斷,唔係一個執行器嘅判斷。

另一個權重上升嘅嘢,係人嘅驗證責任。

Mike 而家俾自己立嘅規矩係,Claude 提交嘅每個 PR 必須附上截圖或者錄屏。模型做咗兩個鐘頭嘢返嚟話做曬,齋話做曬冇用,要俾一整套界面截圖,人掃一眼就發現,呢個報錯狀態嘅設計我唔鍾意,改。

佢仲喺度試驗俾模型睇片。等 Claude 睇返自己整出嚟嘅界面嘅錄屏,配埋 ffmpeg,佢自己逐幀檢查,然後話呢個動畫有啲卡頓,我去修。呢類問題截圖永遠捉唔到。

但驗證嘅盡頭係一條冇辦法外包嘅線:你最終要為交付嘅嘢負責。

Mike 描述咗一個內部已經開始出現嘅新尷尬。開會時有人話我呢個 PR 準備好咗,隔籬人問咗句,咁你處理咗 X 情況未。嗰個人窒咗一下話,我真係唔確定,merge 前我去確認嚇。

code 可能係 Claude 寫嘅,但企喺會議室入面回答問題嘅,依然係人。點樣同呢種新常態相處,所有團隊都喺度摸索緊。

最後講下我自己嘅感受。

呢期播客入面最有價值嘅係 Mike 反覆講嘅嘢:模型使用嘅方法變咗。

由點樣做出嚟,移到咗交代清楚意圖、設計好驗證、並為結果負責。

模型每升級一代,就有一班人發現自己嘅舊用法過時咗。

連 Anthropic Labs 嘅負責人都會喺新模型面前覺得自己係新手,咁我哋普通用戶覺得唔適應,太正常喇。

唔適應唔係問題,用舊姿勢用新模型先係問題。


圖片

今天看了一期 Every 的播客 AI & I。這期的嘉賓分量很足,是 Anthropic Labs 的負責人 Mike Krieger。

Feishu Docs - Image

youtube.com/watch?v=XWpTgCvgYaE

很多人對這個名字更熟悉的身份可能是 Instagram 聯合創始人。他在 Anthropic 當了幾年 CPO,最近轉去帶 Labs 團隊,重新回到了一線動手做東西的狀態。

錄製的時間點也很微妙,就在 Claude Fable 5 發佈的前一天。Mike 內部用這個模型已經兩個月了。所以這期聊是一個團隊天天用它幹活之後,沉澱下來的真實體感。

哪些事真的變了,哪些事其實沒變。這種信息比跑分有用得多。

01

舊的使用方法在新模型面前沒用了。

Mike 說他第一次內部用上這個模型的時候,有一個挺奇怪的感受。他覺得自己像個徹頭徹尾的 AI 使用新手,舊的使用方法在新模型面前沒用了。

要知道這個人寫了十幾年代碼,做過億級用戶的產品,在 Anthropic 天天泡在最前沿的模型裏。但他發現,自己拆解任務的方式、寫提示詞的習慣,在新模型面前全過時了。

過去跟模型協作,節奏是小步快走。我有個功能的想法,你先幫我做第一步。現在這麼用反而是浪費,正確的姿勢是把完整的意圖一次性交代清楚,然後放手。

他現在的日常是這樣的。晚上跟 Claude 道一聲晚安,把一個相當複雜的任務交代下去,第二天早上醒來,活已經幹完了。通常凌晨兩點就完事了,剩下四個小時模型大概在乾等着。

更有意思的是中間出岔子的處理方式。

有一次任務跑到一半,依賴的某個遠程服務掛了。模型沒有停下來等人,而是自己寫了一個臨時的後端腳手架頂上,記下這件事,等服務恢復了再回頭修。整個過程有文檔,有交代。

這背後其實是協作模式的遷移。從工具,到副駕駛,到現在更像一個可以託付完整任務的隊友。變的是你敢把多大的事交給它,然後去睡覺。

02

一步到位的 APP 製作。

節目裏 Mike 演示了一個他週末搭的小東西,一個個人媒體追蹤器。記錄自己在玩什麼遊戲、看什麼劇、收到了什麼推薦。

聽起來平平無奇,這種東西二十年前就能做。但有兩個細節值得細看。

第一個細節是成本。

Mike 回憶 Instagram 第一版,他自己當年算是相當能打的程序員了,前後端全包,Kevin 做濾鏡,連幹五個通宵才上線。而這個媒體追蹤器,是他在一個排滿了帶娃行程的週末裏,見縫插針做出來的。出發去爬山前把任務派下去,爬完山回來收活。

第二個細節更有意思。這個 App 能從內部修改它自己。

界面上有個聊天入口,平時用來加內容,跟 Claude 說一句話,它去做聯網搜索然後把條目加進來,再也不用在菜單裏點來點去。但長按這個入口,它會變成另一個東西:一個改軟件本身的入口。

Mike 有天在手機上覺得懸浮按鈕的位置太低了,直接在 App 裏說了一句,後台的 Agent 接到請求,改代碼,給他一個預覽,確認後生效。軟件的使用者、需求方和開發團隊,第一次在同一個界面裏閉環了。

他管這個叫 agent-native 架構的極致形態。

  • 第一階段是產品裏每個功能都能被 Agent 調用。
  • 第二階段是 Agent 能修改產品本身。

還有一個故事我印象很深。Anthropic 內部一位做招聘的同事,完全不是技術背景,用內部工具搭了自己的工作系統之後跟 Mike 說,這是她人生中第一次感覺到,腦子裏想的東西和世界上存在的東西,捱得這麼近。

放在四五年前,這個人想要一個內部工具,要麼湊合,要麼去排一個手上壓着五十個需求的內部工具工程師的隊。

03

軟件工程結束了嗎?

主持人 Dan 把這個問題直接拋了出來。Mike 的回答是,沒結束,但已經面目全非。

如果在 Instagram 時代問他什麼是軟件工程.

他會說:想清楚難題,設計架構,然後在編輯器裏泡很長時間把代碼敲出來,上線後修 Bug。這裏面屬於敲代碼的那部分,基本已經翻篇了。

他沒有迴避這裏面的失落感。他說很多優秀的工程師會做關於代碼的夢,半夜夢見一個優雅的解法,早上醒來興奮地去實現。這種體驗正在消失。

身邊最好的那批工程師,一邊為失去這種手藝感到難過,一邊又為自己能幹的活的量級翻了幾番而興奮。兩種情緒同時裝在腦子裏,他覺得這很正常。

那 Anthropic 內部現在怎麼幹活?幾個細節拼起來挺有畫面感的。

每個人手下跑着好幾個 Claude,但每塊業務依然有明確的人來負責,他們叫 DRI。原因很簡單,有些上下文只在人腦子裏:這個產品真正的意圖是什麼,別的產品線在憋什麼大招,這兩件事會怎麼交匯。這部分 AI 拿不走。

幾乎每個工程師都給自己搭了一個儀表盤,看自己的幾個 Claude 都跑到哪了,哪個 PR 在等自己。管理 AI 的工作,本身成了一項工作。

最妙的是一個老觀念的翻新。硅谷有句老話叫 code wins arguments,代碼贏得爭論。Mike 說他一直不太喜歡這句話,因為這等於說會寫代碼的人天然該贏。但現在團隊裏吵產品方向,經常是 PM 先動手,扔出來一句:我試了一版,有八個地方很糙,但你們看,這個思路是跑得通的。

原型還是贏得爭論,只是動手的門檻不再屬於某個工種了。

04

Fable 5 帶來的兩個新特點。

整期聽下來,如果說構建這件事的難度在坍塌,那有兩樣東西的權重在明顯上升。

一個是模型自己長出來的判斷力。

Mike 說 Fable 5 最讓他驚訝的它有了系統感。寫完一段代碼會主動提醒,這個東西上了生產環境得改,你那個 feature flag 還沒開,不開是跑不起來的。隔了幾天的會話裏還會追着問,你到底開了沒有。

更絕的是 code review 環節。收到評審意見,以前的模型是膝跳反應式的,對對對我馬上改。現在它會想一會兒,然後說:我理解你的意思,但我想了想,不同意,理由如下。

評審它的往往也是另一個 Fable。兩個模型在 PR 下面有理有據地對峙,這畫面想想挺科幻的。

週末線上出了內存泄漏,它的處理是:現在是週末,先把服務重啓了頂住,長期修復我開個 PR 異步做。這是一個老練 SRE 的判斷,不是一個執行器的判斷。

另一個權重上升的東西,是人的驗證責任。

Mike 現在給自己立的規矩是,Claude 提交的每個 PR 必須附上截圖或者錄屏。模型幹了兩個小時活回來說做完了,光說做完了沒用,要給一整套界面截圖,人掃一眼就能發現,這個報錯狀態的設計我不喜歡,改。

他還在試驗給模型喂視頻。讓 Claude 看自己做出來的界面的錄屏,配上 ffmpeg,它自己逐幀檢查,然後說這個動畫有點卡頓,我去修。這種問題截圖永遠抓不到。

但驗證的盡頭是一條沒法外包的線:你最終要為交付的東西負責。

Mike 描述了一個內部已經開始出現的新尷尬。開會時有人說我這個 PR 準備好了,旁邊人問了句,那你處理 X 情況了嗎。那個人愣了一下說,我還真不確定,合併前我去確認一下。

代碼可能是 Claude 寫的,但站在會議室裏回答問題的,還是人。怎麼跟這種新常態相處,所有團隊都在摸索。

最後說個我自己的感受。

這期播客裏最有價值的是 Mike 反覆說的個:模型使用的方法變了。

從怎麼做出來,挪到了交代清楚意圖、設計好驗證、併為結果負責。

模型每升級一代,就有一批人發現自己的老用法過時了。

連 Anthropic Labs 的負責人都會在新模型面前覺得自己是新手,那我們普通用戶感到不適應,太正常了。

不適應不是問題,拿舊姿勢用新模型才是。