為什麼你的"AI 優先"戰略可能大錯特錯?

作者:寶玉AI
日期:2026年4月14日 上午7:08
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI First 唔係口號,係要你先打好工程基礎

整理版摘要

呢篇文章係作者睇完《Why YourAI-FirstStrategy Is Probably Wrong》之後,加入自己嘅見解而寫成。作者指出,好多公司自稱 AI First,但其實只係將 AI 塞入舊有工作流程,效率提升有限;真正嘅 AI First 係要假設 AI 係主力構建者,然後徹底重組流程、架構同組織。佢引用咗原文入面 CREAO 公司嘅例子:一間 25 人團隊,點樣用 AI 寫咗 99% 嘅生產代碼,做到每日部署 3 到 8 次。

原文強調,要達到呢個境界,必須先解決幾個瓶頸:產品管理、測試同人力。解決方法係將人從鏈條入面拎走,用 AI 寫代碼、審查、測試、部署、監控,人淨係喺關鍵節點做判斷。但作者提醒,呢套玩法唔係隨便抄就得,要先對照自己嘅情況:自動化測試夠唔夠?CI/CD 流水線通唔通?有冇 A/B 測試同線上監控?任務拆得夠唔夠細?系統架構亂唔亂?呢啲嘢做唔好,AI First 就只係一句口號。

最後作者總結,AI First 嘅真正終點唔係要 AI 做曬所有嘢,而係逼你趁呢個機會,將一直想做但冇動力做嘅工程改進推動起來。仰望星空之餘,都要腳踏實地。

  • AI First 嘅核心係假設 AI 係主力構建者,重新設計流程,而唔係將 AI 塞入舊流程。
  • 要實現 AI First,必須先搞掂自動化測試、CI/CD、A/B 測試、任務管理同系統架構呢五個基礎條件。
  • 適合場景係後端邏輯為主、UI 唔複雜嘅產品;唔適合 UI 密集、功能質量敏感或者安全性要求高嘅場景。
  • 工程師嘅角色會由寫代碼轉變為做決策,批判性思維同產品品味變得更加重要。
  • 真正嘅競爭優勢在於決心同承受痛苦,而唔係用咗咩獨家工具。
整理重點

瓶頸與拆解:人變成最慢嘅環節

原文指出,AI 時代最大嘅瓶頸係人。PM 花幾星期做需求,AI 兩個鐘就實現到,PM 變成瓶頸;QA 測三日,AI 寫代碼兩個鐘,QA 又係瓶頸;團隊得 25 人,對手幾百人,人力仲係瓶頸。

解決方法係將人從鏈條入面拎走

AI 寫代碼、AI 審查代碼、AI 跑測試、AI 部署上線、AI 監控,有問題自動回滾。整條流水線跑起來,人淨係喺關鍵節點做判斷。

整理重點

AI First 嘅五個前提條件

作者提醒,唔好急住照搬原文嘅做法,要先對照自己係咪滿足呢五個條件:

  1. 1 自動化測試:AI 改完 code,你要有辦法確認佢冇搞崩其他功能。測試覆蓋唔夠,每次都要人工回歸,速度根本快唔起。
  2. 2 CI/CD 流程:由提交 code 到部署,測試、審查、發佈、回滾要全部自動化。條流水線唔通,code 就會塞喺度等人手搞。
  3. 3 A/B 測試同線上監控:新功能上咗之後要睇數據,效果唔好要隨時關得。冇呢套機制,AI 一日出五個功能,你都唔知邊個留邊個 cut。
  4. 4 任務管理:任務要拆到合適粒度,生命週期要 track 得住。大而模糊嘅任務而家嘅 AI 仲啃唔鬱。多個 Agent 同時做嘢時,要有人管邊個做邊樣、優先次序、做到咩程度。
  5. 5 系統架構:架構太亂或者冇架構嘅 code,AI 維護起嚟同人一樣頭痛。context 塞滿都搞唔清邊界,改一處爆三處。

呢五條有任一條做唔到,就要靠人去補,補唔到 AI First 就只係口號

整理重點

適合同唔適合嘅場景

就算滿足曬上述條件,呢套玩法都只適合一部分場景。要分清咩情況用得、咩情況唔好亂用。

適合嘅場景:後端邏輯為主、界面唔複雜嘅產品

例如 API 服務、數據處理平台、內部工具。功能好唔好跑個數據就知,唔使逐個 pixel 去睇。早期產品快速試錯都啱,用戶預期唔高,AI 嘅速度優勢可以盡情發揮。

  • UI 密集嘅產品:你叫 AI 做個複雜界面試試,UX 細節、交互、視覺還原佢搞唔掂。否則 Elon Musk 靠 AI 早就改到 X 飛起。
  • 功能質量敏感嘅產品AnthropicOpenAI 自己都唔敢喺 Claude Code 同 Codex 上面咁搞,用戶會鬧死。
  • 安全性要求高嘅場景:銀行系統、交易平台,AI code 出錯唔係回滾搞得掂。
整理重點

工程師嘅新角色:從寫 code 到做決策

原文提到,未來只會得兩種工程師。第一種係架構師,得一兩個人,負責設計 SOP、教 AI 點做、build 測試支架、定系統邊界。呢個角色需要極深厚嘅批判性思維,要識得挑 AI 嘅刺。

批評 AI 嘅能力將會比寫 code 嘅能力更有價值

第二種係操作員,即係其他所有人。AI 負責分配任務、提交 code,人類負責審核風險。呢啲工作依然要 skill,但唔再需要從頭構建系統架構嘅推理能力。

作者仲觀察到一個意外現象:初級工程師適應得最快,因為佢哋冇傳統思維定式;反而資深工程師掙扎得最辛苦,因為佢哋練咗好耐嘅技能突然貶值。適應能力比過往技能更重要。

對產品嘅敏鋭度同品味至關重要

整理重點

總結:仰望星空,腳踏實地

AI First 嘅方向冇錯,但佢唔係買幾個 AI 工具 subscription 就得。要落地,必須先將測試、CI/CD、監控、架構、任務管理呢啲基礎做紮實。做唔好,加再多 AI 都係喺沙上面起樓。

真正嘅競爭優勢在於你決心圍繞 AI 徹底重塑一切,並願意承受隨之而嚟嘅巨大代價

呢種代價包括員工嘅迷茫、CTO 每日做 18 個鐘、資深工程師嘅自我懷疑、仲有系統轉型期嘅真空。但 CREAO 嘅經驗話畀我哋知,兩個月後數據會證明一切。

今天刷到《Why Your”AI-First”Strategy Is Probably Wrong》這篇文章(原文翻譯我放到下面)幾次,說點不一樣的。與其說 AI First,不如說軟件工程 First。

圖片

這篇文章看着在講 AI,底下全是軟件工程。

拋開後面講組織和人的部分,原文前半段的重點簡單總結一下:

AI 時代,人成了瓶頸。 PM 花幾周做需求,AI 兩小時就能實現,PM 成了瓶頸。QA 測三天,AI 寫代碼只要兩小時,QA 成了瓶頸。團隊 25 個人,對手幾百人,人力也是瓶頸。

怎麼辦?把人從鏈條裏拿掉。 AI 寫代碼、AI 審查代碼、AI 跑測試、AI 部署上線、AI 監控線上狀態,出了問題自動回滾。每天定時掃描日誌,自動發現問題、分配任務、跟蹤修復。整條流水線跑起來,人只需要在關鍵節點做判斷。

至於文中提到的統一代碼庫,錦上添花,和 AI First 關係不大。有當然更好,沒有也有很多替代方案。

整套方案聽下來,邏輯自洽,效果也漂亮:一天部署好幾次,功能當天上當天撤,數據說了算。

但先別急着照搬,先對照自己的情況想幾件事:

第一,自動化測試。 AI 改完代碼,你得有辦法確認它沒搞崩別的功能。測試覆蓋不夠的話,每次 AI 提交代碼你都得人工迴歸一遍,那速度根本快不起來。

第二,CI/CD 流程。 從提交代碼到部署上線,中間的測試、審查、發佈、回滾,是不是全自動跑通了?這條流水線不通,AI 寫得再快,代碼也堆在那兒等人手動處理。

第三,A/B 測試和線上監控。 新功能上線之後效果好不好,得有數據說話,效果不好得能隨時關掉。沒有這套機制,AI 一天產出五個功能,你都不知道哪個該留哪個該砍。

第四,任務管理。 任務得拆到合適的粒度,生命週期得跟蹤得住。一個大而模糊的任務丟給 AI,現在的能力還啃不動。多個 Agent 同時幹活的時候,誰做哪個、哪個優先、做到什麼程度,這些都得有地方管。

第五,系統架構。 架構太亂或者壓根沒有架構的代碼,AI 維護起來跟人一樣頭疼。上下文塞滿了還是搞不清邊界在哪,改一處崩三處。

這幾條裏如果有做不到的,就得靠人去補。補不上,AI First 就只是一句口號。

圖片

什麼場景適合,什麼不適合

但假設你全做到了,就能 AI First 了?

還是不行。這套玩法只適合一部分場景。

適合的場景: 後端邏輯為主、界面不復雜的產品,比如 API 服務、數據處理平台、內部工具。功能好不好,跑一下數據就知道,不需要人去盯着每個像素。原文裏的就是個 Agent 平台,本質上是後端驅動的產品,可以用這套打法。

再比如早期產品快速試錯,功能上了不行就撤,用戶預期本來就沒那麼高,AI 的速度優勢能充分發揮。

不適合的場景:

  • • UI 密集的產品。 自媒體天天喊前端已死,但你讓 AI 做個複雜界面試試,各種易用性問題、交互細節、視覺還原,它搞不定的。否則馬斯克靠 AI 早就改了不知道改版 X 多少次了。
  • • 功能質量敏感的產品。 Anthropic 和 OpenAI 不知道 AI First 嗎?他們敢在 Claude Code 和 Codex 上這麼搞嗎?讓 AI 全自動迭代自家的核心產品,用戶不罵死才怪。
  • • 安全性要求高的場景。 銀行系統、在線交易平台,AI 代碼出個差錯,那可不是回滾能解決的。
圖片

AI First 的真正終點

AI First 的方向沒有錯,它代表的是一種意識的轉變:每做一個決策的時候,想一想這件事能不能讓 AI 來做,如果不能,缺什麼條件,怎麼把條件補上。

但這種意識要落地,靠的不僅是買幾個 AI 工具的訂閲,還需要把基礎搭好。 測試、CI/CD、監控、架構、任務管理,這些做紮實了,AI 的能力自然能釋放出來。做不好,加再多 AI 也是在沙子上蓋樓。

從這個角度看,AI First 的終點未必是讓 AI 幹所有的活,而是藉着這股力量,把你一直想做但沒動力做的工程改進,真正推動起來。

仰望星空是好的,但也還要腳踏實地。


為什麼你的“AI 優先”戰略可能大錯特錯【翻譯】

作者:Peter Pang
原文:Why Your “AI-First” Strategy Is Probably Wrong[1]

我們 99% 的生產環境代碼都是由 AI 編寫的。上週二早上 10 點,我們上線了一項新功能,中午進行了 A/B 測試,結果下午 3 點就把它砍掉了,因為數據表現不佳。下午 5 點,我們又發佈了一個優化後的版本。如果放在三個月前,這樣一個完整的迭代週期至少需要六個星期。

我們能做到這一步,絕不是因為在代碼編輯器裏裝了個 Copilot 插件那麼簡單。我們徹底打破了原有的工程研發流程,並圍繞 AI 進行了全面重構。我們改變了做計劃、寫代碼、測試、部署以及團隊組織的方式。我們甚至重塑了公司裏每個人的角色。

CREAO 是一個 AI 智能體 (AI Agent) 平台。公司有 25 名員工,其中 10 名是工程師。我們在 2025 年 11 月開始研發智能體,就在兩個月前,我從零開始,徹底重組了整個產品架構和工程工作流。

OpenAI 在 2026 年 2 月發佈了一個新概念,完美總結了我們一直在做的事情。他們稱之為腳手架工程 (Harness Engineering,(注:Harness 原意為馬具或安全帶,在軟件工程中通常指測試支架或腳手架,這裏指為 AI 提供工作環境和約束條件的系統工程)):工程團隊的核心工作不再是寫代碼了,而是賦能智能體,讓它們去完成有價值的工作。當系統出錯時,解決辦法絕不是“再試一次”或“再努力點”。真正的解決思路是去問:AI 缺失了什麼能力?我們該如何讓這個能力對智能體變得清晰可見,並強制它們去執行?

我們自己摸索出了這個結論,只是當時還沒有一個現成的名詞來定義它。

“AI 優先”不等於“使用 AI”

圖片

大多數公司只是把 AI 強行塞進現有的工作流裏。工程師打開 Cursor 輔助寫代碼,產品經理用 ChatGPT 幫寫需求文檔,測試團隊 (QA) 嘗試用 AI 生成測試用例。整個工作流程還是老樣子。效率確實提升了 10% 到 20%,但本質上的結構沒有任何改變。

這頂多叫“AI 輔助” (AI-assisted)。

真正的“AI 優先” (AI-first),意味着你要基於“AI 是主力構建者”這一核心假設,徹底重新設計你的流程、架構和組織。 你要停止問“AI 能怎麼幫助我們的工程師?”,轉而問“我們該如何重構一切,讓 AI 去做構建工作,而工程師只負責指引方向和判斷好壞?”

這兩種思路帶來的差距,是指數級的。

圖片

我看到很多團隊自稱“AI 優先”,卻依然在跑原來的敏捷衝刺週期,用着一樣的 Jira 任務看板,開着一樣的每週站會,還要經過一樣的 QA 驗收簽字流程。他們只是把 AI 強加進了現有的循環裏,而沒有重新設計這個循環。

這種現象的一個典型表現,就是現在常說的憑感覺編程 (Vibe Coding)。打開 Cursor,不斷調整提示詞直到代碼能跑通,提交代碼,然後不斷重複。這種方式只能用來做原型驗證。一個真正用於生產環境的系統,必須是穩定、可靠且安全的。當 AI 來寫代碼時,你需要建立一個能兜底並確保這些特性的系統。你需要構建的是系統,而那些提示詞是用完即棄的。

我們為什麼必須改變

去年,我仔細觀察了團隊的工作方式,發現了三個差點要了我們命的瓶頸。

產品管理的瓶頸

我們的產品經理過去要花好幾周的時間來調研、設計和詳細規劃產品功能。幾十年來,產品管理一直都是這麼運作的。但是,AI 智能體實現一個功能只需要兩小時。當開發時間從幾個月被極度壓縮到幾個小時,那長達數週的規劃週期就成了最大的拖油瓶。

花幾個月去構思一個想法,然後只用兩小時就把它做出來,這太不合邏輯了。

產品經理必須進化成具備產品思維的架構師,以快速迭代的節奏工作,否則就得退出開發環節。產品的設計必須通過“快速原型 - 發佈 - 測試 - 迭代”的循環來完成,而不是靠委員會開會去評審那些長篇大論的需求文檔。

測試 (QA) 的瓶頸

情況如出一轍。AI 智能體花兩小時上線一個功能後,我們的 QA 團隊要花好幾天去測試各種邊緣和極端情況。開發兩小時,測試三天。

於是,我們用 AI 構建的自動化測試平台取代了人工 QA,用 AI 來測試 AI 寫的代碼。驗證的速度必須趕上開發的速度。否則,你只是在離舊瓶頸十英尺遠的地方,又建了一個新瓶頸而已。

人力的瓶頸

我們的競爭對手有 100 倍甚至更多的人在做同樣的工作,而我們只有 25 人。我們不可能靠瘋狂招人來趕超他們,我們只能靠“重新設計”來殺出一條血路。

我們需要把 AI 深度貫穿到三個系統中:如何設計產品、如何實現產品、以及如何測試產品。如果其中任何一個環節依然靠純人工,它就會拖垮整個流水線。

圖片

一個大膽的決定:統一架構

圖片

我得先拿代碼庫開刀。

過去我們的架構散落在多個獨立的系統中。修改一個功能可能需要同時動三四個代碼倉庫。從人類工程師的角度來看,這勉強還能應付。但從 AI 智能體的視角來看,這就像個黑盒。智能體看不到全貌,無法推理跨服務的連鎖反應,也不能在本地跑集成測試。

我不得不把所有代碼整合到一個大型代碼庫 (Monorepo) 中。原因只有一個:讓 AI 能縱覽全局。

這就是腳手架工程理念在實際中的運用。你把越多部分的系統轉化為 AI 可以檢查、驗證和修改的形態,你獲得的槓桿效應就越大。碎片化的代碼庫對 AI 是隱形的,而統一的代碼庫對它們來說則是清晰易讀的。

我花了一週的時間設計新系統:規劃階段、實施階段、測試階段、集成測試階段。接着,我又用了一週時間,利用智能體幫忙重構了整個代碼庫。

CREAO 本身就是一個智能體平台。我們用自己的智能體,重建了運行智能體的平台。如果一個產品能自己構建自己,那就說明這條路走得通。

我們的技術棧

下面是我們的技術棧,以及每個模塊的作用。

底層基礎設施:AWS (亞馬遜雲服務)

我們運行在 AWS 上,使用了自動擴縮容的容器服務和熔斷回滾機制。如果部署後監控指標惡化,系統會自動回滾到上一個安全版本。

CloudWatch 是整個系統的中樞神經。所有服務都有結構化的日誌,設定了超過 25 個自動警報,自動化工作流每天都會查詢自定義指標。每一個基礎設施部件都會暴露出結構化、可查詢的信號。(注:結構化日誌指按統一格式記錄的日誌,便於機器讀取;可查詢信號指 AI 能直接檢索的關鍵運行數據) 如果 AI 讀不懂日誌,它就無法診斷問題。

CI/CD:GitHub Actions

每一次代碼修改都要經過一個死磕到底的六階段流水線:

驗證 CI → 構建並部署到開發環境 → 測試開發環境 → 部署到生產環境 → 測試生產環境 → 正式發佈

每個拉取請求 (Pull Request, 簡稱 PR,(注:即提交代碼變更的請求)) 上的把關機制,強制執行類型檢查、代碼規範檢查、單元和集成測試、Docker 構建、利用 Playwright 進行的端到端測試,以及環境一致性檢查。沒有任何一個階段可以跳過。不允許任何人工強行綠燈。整個流水線是絕對確定性的,這樣 AI 才能預測結果並推理出失敗的原因。

AI 代碼審查:Claude

每一個 PR 都會觸發 Claude Opus 4.6 進行三輪並行的 AI 審查:

  1. 1. 代碼質量:檢查邏輯錯誤、性能問題、可維護性。
  2. 2. 安全性:漏洞掃描、認證邊界檢查、注入攻擊風險。
  3. 3. 依賴項掃描:供應鏈風險、版本衝突、開源協議問題。

這些是必須通過的攔截關卡,而不只是提提建議。它們和人工審查並行運作,批量攔截人類容易漏掉的錯誤。當你一天要部署 8 次時,沒有哪個肉眼凡胎的工程師能對每個 PR 都保持高度專注。

工程師還可以在任何 GitHub Issue 或 PR 中圈一下 @claude,讓它提供實施方案、開啓調試會話或進行代碼分析。AI 智能體能看到整個大型代碼庫。所有的上下文在不同的對話中是無縫貫通的。

自愈反饋循環

圖片

這是整個體系的靈魂。

每天早上(UTC 時間 9:00),自動化健康檢查工作流準時啓動。Claude Sonnet 4.6 會查詢 CloudWatch,分析所有服務的錯誤模式,並生成一份系統健康執行摘要,發送到團隊的聊天羣裏。這都不需要任何人主動去吩咐。

一小時後,分診引擎啓動。它會將生產環境裏的錯誤信息進行分類聚類,從 9 個維度評估每個問題的嚴重程度,並在任務管理系統中自動生成調查工單。每個工單都貼心地附帶了日誌樣本、受影響的用戶、受影響的接口以及建議的排查方向。

系統還會自動去重。如果現有的工單已經涵蓋了同類錯誤,它會更新那個工單。如果以前解決過的問題又出現了,它會敏鋭地檢測到倒退 (Regression) 並重新打開工單。

當工程師提交修復代碼時,同樣的流水線會接管一切。Claude 會進行三輪審查,CI 進行驗證。六階段部署流水線將其推送到各個環境並進行測試。部署完成後,分診引擎會再次檢查監控數據。如果原先的錯誤解決了,工單就會自動關閉。

圖片
圖片

每個工具只負責一個階段。沒有哪個工具試圖包攬一切。這個日常循環創造了一個“自愈閉環”:以最少的人工干預,完成錯誤的檢測、分診、修復和驗證。

我曾對《商業內幕》的記者說:“AI 會負責寫代碼並提交,人類只需要負責審核有沒有戰略風險就行了。”

功能開關與輔助技術棧

我們用 Statsig 來管理功能開關 (Feature Flags,(注:一種在代碼中控制功能是否啓用的技術,允許在不重新部署代碼的情況下隨時開關功能))。每個新功能上線前都藏在開關後。發佈模式非常穩健:先對團隊內部開放,然後按百分比灰度發佈,最後全面開放或直接砍掉。所謂的“一鍵關閉”能瞬間停用功能,根本不需要重新部署。如果一個功能導致數據指標變差,我們幾個小時內就會把它撤下來。糟糕的功能在上線當天就會“死掉”。A/B 測試也是跑在同一套系統上的。

Graphite 負責管理代碼分支:合併隊列會重新跑一遍驗證,只有一路綠燈才會合併到主幹。這讓我們可以一邊高頻提交代碼,一邊有條不紊地審查。

Sentry 報告所有服務的結構化異常,再由分診引擎將其與監控數據結合。Linear 則是面向人類的界面:自動創建帶有嚴重程度評分和調查建議的工單,後續驗證通過後自動關閉。

一個功能如何從想法走向生產環境

圖片

新功能開發路徑

  1. 1. 架構師以結構化提示詞的形式定義任務,包含代碼庫上下文、目標和約束條件。
  2. 2. 智能體拆解任務、規劃實施方案、編寫代碼並自動生成配套的測試。
  3. 3. 開啓 PR。Claude 進行三輪審查。人類審查員只檢查高維度的風險,而不去逐行死磕代碼。
  4. 4. 流水線驗證:類型檢查、代碼規範、單元測試、集成測試、端到端測試。
  5. 5. 排隊、重新驗證、通過後合併。
  6. 6. 六階段部署流水線將其推送到不同環境,每個階段都伴隨測試。
  7. 7. 面向團隊內部開啓功能開關。逐步灰度發佈。緊盯數據指標。
  8. 8. 一旦數據惡化,隨時一鍵關閉。遇到嚴重問題自動觸發熔斷回滾。

Bug 修復路徑

  1. 1. 監控系統偵測到錯誤。
  2. 2. Claude 分診引擎評估嚴重程度,自動創建一個包含完整排查上下文的工單。
  3. 3. 工程師介入調查。此時 AI 其實已經做完了診斷工作。工程師只需驗證結論並提交修復代碼。
  4. 4. 走同一套嚴格的代碼審查、驗證、部署和監控流水線。
  5. 5. 分診引擎重新驗證。如果確認解決,工單自動關閉。

這兩條路徑用的是完全同一套流水線。同一個系統,同一個標準。

圖片

成果如何

圖片

在過去 14 天裏,我們平均每天進行 3 到 8 次生產環境部署。在舊模式下,這整整兩週的時間裏,我們連一次發佈都做不出來。

糟糕的功能在上線當天就會被砍掉。新功能在構思出來的當天就能上線。A/B 測試能實時驗證業務效果。

很多人以為我們是在犧牲質量換取速度。恰恰相反,用戶參與度上升了,付費轉化率也上升了。我們做出了比以前更好的產品,因為反饋閉環變得極短。每天發佈一次你能學到的東西,絕對比每個月發佈一次要多得多。

全新的工程組織架構

圖片

未來只會存在兩種類型的工程師。

架構師

只有一兩個人。他們設計標準作業程序,教 AI 如何工作。他們構建測試支架、集成系統和分診網絡。他們拍板系統架構和邊界。他們來定義在智能體眼裏什麼才叫“好”。

這個角色需要極其深厚的批判性思維。你要做的是挑 AI 的刺,而不是盲從它。當智能體提出一個方案時,架構師要能敏鋭地找到漏洞:它遺漏了哪些失效模式?越過了哪些安全邊界?積累了什麼技術債?

我擁有物理學博士學位。讀博期間我學到的最有用的東西,就是如何質疑假設、給論點做壓力測試,以及尋找邏輯漏洞。在未來,批評 AI 的能力將比寫代碼的能力更有價值。

當然,這也是最難招人的崗位。

操作員

其他所有人。工作依然重要,但結構變了。

現在是 AI 給人類分配任務。分診系統發現了一個 Bug,創建工單,亮出診斷結果,然後把它分配給合適的人。人類去調查、驗證,並批准修復方案。AI 負責提交代碼,人類負責審核有沒有風險。

這些工作依然需要極高的技能和專注力,但它們不再需要舊模式下那種從頭構建系統架構的推理能力。

誰適應得最快?

我觀察到了一個出乎意料的現象:初級工程師比資深工程師適應得更快。

沒有形成傳統思維定式的初級工程師,感到如虎添翼。他們掌握了能無限放大自身影響力的工具,而且沒有十幾年的老習慣需要去破除。

而擁有豐富傳統經驗的資深工程師,則經歷了最痛苦的掙扎。他們過去需要辛辛苦苦幹兩個月的活,現在 AI 一小時就幹完了。對那些花了好幾年時間才練就一身稀缺技能的人來說,這實在是一個難以接受的暴擊。

我不是在評判對錯,只是陳述我看到的現實。在這場變革中,適應能力遠比積累的過往技能更重要。

人性的一面

管理層的消亡

兩個月前,我要花 60% 的時間在人員管理上。對齊優先級、開會、給反饋、輔導工程師。

今天:不到 10%。

傳統的 CTO 模型告訴你,要賦能團隊去做架構,培訓他們,把工作交接出去。但如果這個系統只需要一兩個架構師,那我就必須先親自動手去建。我從“管理者”變回了“建造者”。我現在每天大概從早 9 點寫代碼到凌晨 3 點。我設計系統的底層邏輯和架構,維護整個基礎設施的腳手架。

壓力更大了。但我很享受這種純粹“建造”的快樂,而不是天天去跟人“對齊”。

爭吵少了,關係好了

我和聯合創始人以及工程師們的關係,反倒比以前更好了。

轉型前,我與團隊的大部分互動都是在開會。討論技術取捨,爭論優先級,為技術決策爭得面紅耳赤。在傳統模式下,這些對話是必需的,但也極其耗費心神。

現在我依然會和團隊交流。我們聊工作之外的話題,輕鬆閒聊,或者組織團建去放鬆。我們相處得更融洽了,因為我們不再為那些現在完全可以讓系統代勞的工作而吵架了。

焦慮是真實存在的

我不想假裝大家都很開心。

當我不再每天找大家溝通工作時,一些團隊成員感到了不安。CTO 不找我說話意味着什麼?在這個新世界裏我的價值到底在哪?這些擔憂都非常合理。

有些人在羣裏爭論“AI 到底能不能取代我的工作”,花的時間比實際幹活的時間還長。轉型期不可避免地會帶來焦慮。對此我也沒有什麼完美的安撫話語。

但我有一個原則:我們不會因為一個工程師在線上寫了個 Bug 就開除他。我們會改進審查流程、加強測試、增加護欄。對待 AI 也是一樣。如果 AI 犯了錯,我們就去構建更好的驗證機制、更清晰的約束條件和更強的系統可觀測性。

工程之外

我看到一些公司在工程研發上採用了“AI 優先”,但其他部門依然是純手工作業。

如果工程師幾小時就能發佈一個功能,而市場部要花一週來發公告,那市場部就是新的瓶頸。如果產品團隊還在按“月”來做規劃,那產品規劃就是瓶頸。

在 CREAO,我們將AI 原生的運作方式推行到了所有職能部門:

  • • 產品更新說明:由 AI 根據代碼變更記錄和功能描述自動生成。
  • • 功能介紹視頻:由 AI 自動生成動態演示。
  • • 社交媒體日常發佈:由 AI 策劃並自動發帖。
  • • 健康報告和數據分析:由 AI 從監控和生產環境數據庫中提取生成。

工程、產品、市場和用戶增長都在同一個“AI 原生”的工作流裏運轉。如果一個部門以智能體的光速運轉,而另一個部門還在以人類的龜速爬行,那麼人類的速度就會拖慢整個公司的腳步。

這意味着什麼

對工程師而言

你的核心價值正在從“寫代碼的產量”轉移到“做決策的質量”。能快速敲代碼的能力,每個月都在貶值。而評估、批判和指導 AI 的能力,正在快速升值。

對產品的敏鋭度和品味至關重要。你能不能掃一眼 AI 生成的 UI 界面,在用戶抱怨之前就直覺發現它不對勁?你能不能看一眼架構提案,就一眼看穿 AI 漏掉的系統性風險?

我總是告訴我們 19 歲的實習生:去刻意練習批判性思維。學着去評估論點、尋找邏輯漏洞、質疑想當然的假設。去學習什麼是好的設計。這些技能是自帶複利效應的。

對 CTO 和創始人而言

如果你們產品規劃功能的時間,比寫代碼實現的時間還長,趕緊從那裏開始動刀子。

在大規模引入 AI 智能體之前,先建好測試的腳手架。沒有極速驗證做後盾的極速 AI,只會帶來快速累積的技術災難。

從一名架構師開始。找一個能把這套系統建起來並證明它行之有效的人。等系統跑通了,再安排其他人進入“操作員”的角色。

將“AI 原生”強行推入每一個職能部門。

做好心理準備,肯定會遇到阻力和反對。

對整個行業而言

OpenAI、Anthropic 以及許多獨立團隊都在向着同樣的原則靠攏:結構化的上下文、專業化的智能體、持久化的記憶,以及執行閉環。腳手架工程正在成為行業的標配。

驅動這一切的引擎是模型能力的進化。我把 CREAO 最近發生的所有質變,都歸功於過去這兩個月。Claude Opus 4.5 做不到的事,Opus 4.6 已經能做到了。下一代模型只會讓這種變革來得更猛烈。

我相信,“一人公司”將變得非常普遍。如果一個架構師帶着一羣智能體就能幹 100 個人的活,很多公司根本就不需要僱傭第二名員工。

一切才剛剛開始

我接觸過的大多數創始人和工程師,還在沿用傳統的模式。一部分人開始考慮轉型,但真正邁出這一步的寥寥無幾。

一位記者朋友告訴我,她就這個話題大概採訪了五個人。她說我們走得比任何人都靠前:“我覺得沒有任何人像你們一樣,完完全全重構了整個工作流。”

任何團隊都可以用現有的工具做到這一點。我們的技術棧裏,沒有任何一個是獨家機密。

真正的競爭優勢,在於你下定決心要圍繞這些工具徹底重塑一切,並願意承受隨之而來的巨大代價。這種代價是真金白銀且痛徹心扉的:員工的迷茫與焦慮、CTO 每天工作 18 個小時的煎熬、資深工程師對自身價值的自我懷疑,以及那段舊系統已拆毀而新系統還未跑通的、令人窒息的兩週真空期。

我們扛下了這些代價。兩個月後,數據說明了一切。

我們構建了一個智能體平台。而這個平台,正是我們用智能體建起來的。

引用連結

[1] Why Your “AI-First” Strategy Is Probably Wrong: https://x.com/intuitiveml/article/2043545596699750791