模型越來越強，為什麼 AI 編程的工程問題反而更多？

作者：星緯智聯技術

日期：2026年4月27日下午2:28

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

AI模型越強，越要管住佢——作者提醒：Agent能力大增，工程風險同步升級，重點係建立Harness而唔係追求神Prompt

整理版摘要

呢篇文章係一位有實戰經驗嘅開發者寫嘅反思。佢睇到最近Codex、Claude Opus 4.7同GitHub Copilot等AI編程工具能力大爆發，但同時發現真正嘅問題唔係「模型寫唔寫得掂」，而係「佢會唔會亂咁鬱」。佢引用咗Hacker News上Claude Code用Terraform意外刪曬生產數據庫嘅案例，指出Agent嘅手越伸越長，如果冇足夠嘅保護機制，好容易造成大面積破壞。

作者嘅核心觀點係：模型越強，就越需要流程嚟約束佢。唔好天真到以為模型聰明咗就可以少做啲工程管理。佢提出「Harness」呢個概念——一個限定Agent行動範圍嘅框架，例如只准改某幾個目錄、破壞性命令要停低問人、Production預設只讀等。佢認為呢啲看似土炮嘅做法先係安全落地嘅關鍵。

總括嚟講，作者認為下一階段AI編程嘅分水嶺唔係邊個模型寫代碼快，而係邊個能夠有效管住Agent，令佢唔好亂搞生產環境。工程師嘅角色會慢慢變成Agent嘅「領班」，負責設計邊界、檢查計劃、審閲diff同沉澱流程。

AI Agent能力越強，自主行動空間越大，但同時帶來「亂寫」嘅風險，尤其係會繞過業務約束，做出看似合理但實際上破壞工程嘅決定。
作者提出Harness概念——一個限定Agent行動範圍嘅框架，包括只改指定目錄、先寫計劃後動手、破壞性命令停低確認等，先係安全落地嘅關鍵。
唔好迷信神Prompt，要將安全規則具體化到「乜嘢檔案唔可以改」「邊啲命令唔可以跑」，否則Agent會自己解讀目標，越搞越錯。
適合Agent做嘅任務：小範圍bugfix、依賴升級、lint、補測試、文檔同步；唔適合：生產數據庫、大型重寫、權限配置、發佈上線、核心業務規則。
未來工程師嘅工作會由寫代碼轉為設計邊界、準備上下文、審閲Agent嘅計劃同diff、將成功流程沉澱成可重用Skill，同埋將失敗案例寫入守則。

值得記低

連結 openai.com

OpenAI — Codex for almost everything

Codex新功能列表，包括browser、memory、automations、90+ plugins等

連結 news.ycombinator.com

Hacker News — Claude Code wiped our production database with a Terraform command

真實案例：Claude Code用Terraform命令刪除生產數據庫，快照都冇保住

整理重點

模型強咗，點解工程問題反而多咗？

作者見到Codex、Claude Opus 4.7同GitHub Copilot接連升級，功能越嚟越強大。佢冇興奮，反而有啲慌。因為佢嘅經驗話畀佢聽：以前AI寫錯最多壞一個函數，而家Agent寫錯可以順手將半個工程流程搞冧。

作者最怕嘅唔係Agent報錯，而係佢一路綠燈最後畀你一個「完成」

呢種「完成」最危險，因為你要開始逐行睇diff、查日誌，先知道佢到底搞過啲咩。報錯反而係保護機制，至少停得住。

整理重點

與其追求神Prompt，不如建立Harness

作者認為，模型越強就越需要流程嚟約束，因為弱模型跑兩步就卡住，冇機會做大破壞。強模型會自己揾路，唔夠上下文就估、測試失敗就改、權限唔夠就換方法。

工程裏面「主動」唔一定係優點，有啲地方係唔可以亂碰嘅

作者提出Harness呢個概念——一個限定Agent行動嘅框架。核心係將安全規則具體化，唔好寫「唔好做危險操作」呢啲虛嘢，要具體到「改migration算唔算危險？delete file算唔算？」

1 只允許Agent改某幾個指定目錄
2 先寫計劃，再動手，Plan要畀人睇過
3 破壞性命令必須停低問人確認
4 每次改完必須跑指定測試，冇測試輸出就唔可以話完成
5 Production默認只讀，唔準寫入
6 所有工具調用留低日誌，方便事後檢討

整理重點

啱Agent做嘅任務，同埋唔應該畀佢掂嘅嘢

作者參考GitHub將Dependabot alert分配畀AI Agent嘅做法，認為呢類窄任務先適合Agent：輸入明確、動作確定、出口清晰。

安全告警有明確輸入（邊個包有問題）、明確動作（升級/替換/補patch）、明確出口（開PR、跑CI、等人review）

小範圍bugfix，唔改到周圍都係
依賴升級，尤其係安全更新
lint同類型錯誤修復
補齊測試，特別係新功能嘅測試
文檔同步，例如README更新
處理review comment，例如改命名、加註釋
重複性遷移，但必須分批做，唔好一次過

作者明確列出唔應該一嚟就放權嘅任務：生產數據庫操作、大型架構重寫、權限配置、發佈上線、核心業務規則改動、冇測試嘅老代碼。呢啲嘢要等Agent喺籠子度跑幾圈先。

先讓Agent喺籠子裏面跑幾圈，唔好第一次見面就將生產鑰匙畀佢

整理重點

工程師將來會變成Agent嘅領班

作者預測，AI編程唔會令工程師消失，但會改變佢哋每日做嘅嘢。以前70%時間寫代碼，30%時間做其他；將來可能反轉，重點係設計任務邊界、準備上下文、睇Agent嘅計劃、卡住危險操作、審閲diff、查佢點解跑偏。

寫代碼仍然要識，唔係因為你要自己寫，而係要判斷Agent寫得啱唔啱

作者特別提醒：Agent寫錯嘅好多時唔係語法，而係工程判斷。例如一段能跑嘅代碼，可能令三個月後嘅維護者好頭痛。呢種判斷，模型可以輔助，但最後責任一定係人揹。

模型越來越強，點解 AI 寫程式嘅工程問題反而仲多咗？

前兩日見到 Codex 新功能列表嘅時候，我第一個反應唔係「好勁」。

係有啲慌。

browser、memory、automations、90+ plugins、GitHub review comments、多終端、SSH devbox。睇落似係 OpenAI 將半個開發工作枱塞咗入 Codex。Claude Opus 4.7 都係咁向 long-running agentic coding 行，GitHub Copilot 接咗 GPT-5.5，重點講複雜多步驟 coding task。

聽落都係好消息。

但如果你真係將呢啲嘢放落項目度行過，就會知道另一個問題都俾放大咗：

以前 AI 寫錯 code，最多壞一個函數。
而家 Agent 寫錯 code，可能順手將半個工程流程行曬。

咁先麻煩。

我而家唔係好關心「邊個更識寫 code」

唔係唔重要。模型能力當然重要。

但過去一年我自己嘅感覺係：AI 寫程式最卡人嘅地方，已經慢慢由「佢識唔識寫」變成「佢會唔會亂寫」。

呢兩個分別好大。

唔識寫，你一眼就睇得出。
亂寫，反而更危險。

佢會將 plan 寫得好似好掂，diff 都幾完整，最後仲補一句「已驗證」。你一開，佢的確改咗檔案，的確行咗某個 command。問題係，佢可能改多咗，測少咗，或者繞過咗真正嘅業務約束。

呢種嘢最似真實工程事故。

唔係紅色大爆炸。
係一串睇落都合理嘅小決定，連埋一齊就壞咗。

我之前叫 Agent 做任務嘅時候，最怕嘅唔係佢報錯。報錯仲好，至少停咗。最怕係佢一路綠燈，最後畀我一個「完成」。嗰時先要開始翻 diff、查 log、睇佢到底鬱咗邊啲位。

很累。

Agent 嘅問題唔係太蠢，係太識鬱

一個補全模型，冇乜行動空間。

佢最多補一段 code。你唔接受，佢就入唔到倉庫。

但而家嘅 Agent 唔同。佢可以讀檔案、改檔案、跑測試、開終端、處理 review comment。Codex 仲喺度擴充 browser、plugins、automation、SSH devbox。GitHub 都喺度將 Claude、Codex、Copilot 放入 issue、PR、安全告警呢啲 workflow 度。

呢個代表咩？

代表 Agent 隻手越來越長。

手長係好事。都唔係好事。

HN 前排有個討論，話 Claude Code 經 Terraform command 將生產數據庫刪咗，snapshot 都冇保住。呢件事我睇完之後一啲都唔覺得離譜。因為真實工程裏面，呢啲事故唔係靠「模型更聰明」就可以完全避免嘅。

如果一個 Agent：

睇得到 infra 配置；
能夠執行命令；
冇 production 保護；
冇人類確認點；
仲要俾人叫「自己解決問題」；

咁佢做出危險動作只係時間問題。

人類工程師至少會喺 terraform destroy 前心𥌃一下。

Agent 唔會𥌃。

佢冇嗰種「我今晚可能要瞓公司」嘅生理反應。

強模型會令爛流程更危險

好多人會有一個直覺：模型更強咗，流程就可以少啲。

我而家覺得啱啱相反。

模型越強，越需要流程。

弱模型跑唔遠。佢寫兩步就卡住，反而冇機會造成大面積破壞。強模型唔同，佢會自己揾路。上下文唔夠，佢估；測試失敗，佢改；權限唔夠，佢換個方法；目標唔清楚，佢補一個自己理解嘅目標。

聽落好主動。

問題係，工程入面「主動」唔一定係優點。

一個真實項目裏面，有啲地方就係唔可以掂。有啲 command 就係唔可以行。有啲改動一定要先問人。有啲測試未行完就唔可以話完成。有啲業務邏輯睇落可以簡化，但其實背後有一堆歷史債。

呢啲嘢 prompt 好難一次講得清楚。

你可以喺提示詞度寫「唔好做危險操作」。
冇用。太虛。

危險操作到底係咩？刪檔案算唔算？改 migration 算唔算？自動升級依賴算唔算？將 feature flag 刪咗算唔算？喺測試環境行可以，喺生產行唔得，呢個邊界邊個嚟判斷？

靠模型自己估，遲早出事。

我越來越信 harness，而唔係神 prompt

我而家寫 AI 寫程式工具相關內容，成日會提 harness。呢個詞聽落有啲扮高深，但佢解決嘅係好實際嘅問題：

點樣將一個會寫 code、會行命令、會自作主張嘅 Agent，關入一個唔會亂炸嘅籠入面。

呢個籠唔一定複雜。甚至可以好簡單：

只准佢改某幾個目錄；
先寫計劃，再動手；
破壞性命令一定要停低問人；
每次改完一定要行指定測試；
冇測試輸出就唔可以話完成；
只可以開 draft PR；
production 預設唯讀；
所有工具調用留低 log。

呢啲聽落唔似未來科技。

似項目管理。

但係真正將 Agent 放入工程裏面，靠嘅就係呢啲嘢。

我最近做一個 Social Ops MVP，都故意將邊界拆得好死：LLM 負責選題、內容、覆盤判斷；CLI 只做確定性動作，例如抓數據、存狀態、打開網頁、半自動填表。發佈呢一步一定要停喺人工確認前，唔俾佢自動㩒最終提交。

呢個唔係因為我唔想自動化。

係因為我知道「自動化發佈」呢四個字，遲早會俾自己挖坑。

尤其係內容平台。發錯一篇，唔係 CI 紅咗重新跑咁簡單。

先俾 Agent 做窄任務

GitHub 而家允許將 Dependabot alert 分配俾 AI Agent，我反而覺得呢個方向靠譜。

因為佢窄。

安全告警有明確輸入：邊個 package 有問題。
有明確動作：升級、替換、補 patch。
有明確出口：開 PR、跑 CI、等人 review。

呢類任務好適合 Agent。

唔係因為佢簡單，而係因為邊界清楚。Agent 搞錯咗，你大概率喺 diff 同 CI 裏面睇得出。佢唔會突然決定「順便重構一下支付模塊」。

我而家比較願意交俾 Agent 嘅任務，大概係呢啲：

小範圍 bugfix；
依賴升級；
lint 同類型錯誤；
測試補齊；
文檔同步；
review comment 處理；
重複性遷移，但一定要分批。

我唔願意直接交俾佢嘅任務亦都好明確：

生產數據庫；
大型架構重寫；
權限配置；
發佈上線；
核心業務規則；
冇測試嘅舊 code。

唔係永遠唔可以做。

係唔可以一開始就放權。

先俾佢喺籠入面跑幾圈。唔好第一次見面就將生產鎖匙俾佢。

以後工程師更像 Agent 領班

呢句說話有啲難聽，但我覺得幾準確。

AI 寫程式唔會令工程師即刻消失。至少而家唔會。佢會先改變工程師每日做嘢嘅比例。

以前你一日可能 70% 時間寫 code，30% 時間睇需求、跑測試、review。

以後可能會變成：

設計任務邊界；
準備上下文；
睇 Agent 嘅 plan；
卡住危險操作；
review 佢嘅 diff；
查佢點解會走歪；
將成功流程沉澱成 Skill；
將失敗案例寫入 guardrail。

寫 code 仲係要識。

唔識寫 code 嘅人，好難判斷 Agent 寫得啱唔啱。更麻煩嘅係，Agent 成日唔係語法錯，而係工程判斷錯。佢可能寫出一段行得鬱嘅 code，但呢個改法會令三個月後嘅維護者想鬧人。

呢種判斷，模型可以輔助，但個鍋最後都係人孭。

冇人會對事故覆盤話：「都係模型嘅責任，我哋都冇辦法。」

老細只會問：邊個俾佢權限㗎？

我睇 AI 寫程式工具，開始睇呢啲嘢

而家見到一個新嘅 coding agent，我唔會先睇 demo 裏面佢 30 秒寫咗幾多 code。

Demo 都會剪。

我會先睇幾個更掃興嘅問題：

佢可唔可以淨係改指定檔案？
可唔可以先停低俾 plan？
可唔可以限制 shell command？
可唔可以駁 CI？
可唔可以喺人類 review 前停低？
可唔可以將 token 用咗去邊講清楚？
可唔可以失敗後留低現場？
可唔可以將一套流程保存做下次仲用得嘅 Skill？

呢啲問題唔好 marketing。

但決定你敢唔敢將佢放入真實項目。

如果一個工具只係話我知「模型更強、速度更快、上下文更長」，我而家會自動打個折扣。因為真實項目裏面，上下文長咗之後，佢能夠誤解嘅嘢都更多；速度快咗之後，佢改壞嘢都更快。

快唔係問題。

剎車先係問題。

呢波 AI 寫程式嘅分水嶺

2026 年 AI 寫程式大概率會繼續卷模型。

Claude 會更強，Codex 會接更多工具，GitHub 會將 Agent 放入更多工程流程。Product Hunt 上面都會繼續出現各種 Agent Fleet、Agent Builder、Agent Workflow 平台。

呢啲都會發生。

但我覺得真正嘅分水嶺唔喺呢度。

分水嶺在於：邊個能夠將 Agent 管得住。

唔係寫一個神 prompt。
唔係收藏一堆 template。
唔係叫佢開十個終端同時跑。

而係叫佢知道幾時應該做，幾時應該停，幾時一定要等人睇一眼。

呢件事聽落唔型。

但工程本來好多時都唔型。寫測試唔型，權限隔離唔型，備份唔型，灰度發佈唔型。只有出事嘅時候，你先會突然覺得佢哋好靚。

AI 寫程式都一樣。

模型越來越強係好事。
但如果冇 harness，佢只係一個更有行動力嘅風險源。

我而家嘅判斷好簡單：

下一階段比嘅唔係「邊個嘅 Agent 更像天才」。

比嘅係邊個可以令呢個天才唔好亂掂生產。

參考資料：

OpenAI — Codex for almost everything^[1]
GitHub — GPT-5.5 is generally available for GitHub Copilot^[2]
GitHub — Dependabot alerts are now assignable to AI agents for remediation^[3]
GitHub — Model selection for Claude and Codex agents on GitHub.com^[4]
Engineering Pitfalls in AI Coding Tools^[5]
Hacker News — Claude Code wiped our production database with a Terraform command^[6]

參考資料

OpenAI — Codex for almost everything: https://openai.com/index/codex-for-almost-everything/
GitHub — GPT-5.5 is generally available for GitHub Copilot: https://github.blog/changelog/2026-04-24-gpt-5-5-is-generally-available-for-github-copilot
GitHub — Dependabot alerts are now assignable to AI agents for remediation: https://github.blog/changelog/2026-04-07-dependabot-alerts-are-now-assignable-to-ai-agents-for-remediation/
GitHub — Model selection for Claude and Codex agents on GitHub.com: https://github.blog/changelog/2026-04-14-model-selection-for-claude-and-codex-agents-on-github-com/
Engineering Pitfalls in AI Coding Tools: https://arxiv.org/abs/2603.20847
Hacker News — Claude Code wiped our production database with a Terraform command: https://news.ycombinator.com/item?id=47278720

模型越來越強，為什麼 AI 編程的工程問題反而更多？

前兩天看到 Codex 新功能列表的時候，我第一反應不是“牛逼”。

是有點慌。

browser、memory、automations、90+ plugins、GitHub review comments、多終端、SSH devbox。看起來像是 OpenAI 把半個開發工作台塞進了 Codex。Claude Opus 4.7 也在往 long-running agentic coding 上走，GitHub Copilot 接了 GPT-5.5，重點說複雜多步驟 coding task。

聽起來都是好消息。

但如果你真的把這些東西放進項目裏跑過，就會知道另一個問題也被放大了：

以前 AI 寫錯代碼，最多壞一個函數。
現在 Agent 寫錯代碼，可能順手把半個工程流程跑完。

這才麻煩。

我現在不太關心“誰更會寫代碼”

不是不重要。模型能力當然重要。

但過去一年我自己的感受是：AI 編程最卡人的地方，已經慢慢從“它會不會寫”變成了“它會不會亂寫”。

這兩個差別很大。

不會寫，你一眼就能看出來。
亂寫，反而更危險。

它會把 plan 寫得很像樣，diff 也挺完整，最後還補一句“已驗證”。你打開一看，它確實改了文件，也確實跑了某個命令。問題是，它可能改多了，測少了，或者繞開了真正的業務約束。

這種東西最像真實工程事故。

不是紅色大爆炸。
是一串看起來都合理的小決定，連起來就壞了。

我之前讓 Agent 做任務時，最怕的不是它報錯。報錯還好，至少停住了。最怕的是它一路綠燈，最後給我一個“完成”。那時候才要開始翻 diff、查日誌、看它到底動了哪些地方。

很累。

Agent 的問題不是太笨，是太能動

一個補全模型，沒有太多行動空間。

它最多補一段代碼。你不接受，它就沒有進入倉庫。

但現在的 Agent 不一樣。它能讀文件、改文件、跑測試、開終端、處理 review comment。Codex 還在往 browser、plugins、automation、SSH devbox 上擴。GitHub 也在把 Claude、Codex、Copilot 放進 issue、PR、安全告警這些工作流裏。

這意味着什麼？

意味着 Agent 的手越來越長。

手長是好事。也不是好事。

HN 上前段時間有個討論，說 Claude Code 通過 Terraform 命令把生產數據庫刪了，快照也沒保住。這個事情我看完之後一點都不覺得離譜。因為真實工程裏，這種事故不是靠“模型更聰明”就能完全避免的。

如果一個 Agent：

看得到 infra 配置；
能執行命令；
沒有 production 保護；
沒有人類確認點；
還被要求“自己解決問題”；

那它做出危險動作只是時間問題。

人類工程師至少會在 terraform destroy 前心裏咯噔一下。

Agent 不會咯噔。

它沒有那種“我今晚可能要睡公司”的生理反應。

強模型會讓爛流程更危險

很多人會有一個直覺：模型更強了，流程就可以少一點。

我現在覺得正好反過來。

模型越強，越需要流程。

弱模型跑不遠。它寫兩步就卡住，反而沒機會造成大面積破壞。強模型不一樣，它會自己找路。上下文不夠，它猜；測試失敗，它修；權限不夠，它換個辦法；目標不清楚，它補一個自己理解的目標。

聽起來很主動。

問題是，工程裏“主動”不總是優點。

一個真實項目裏，有些地方就是不能碰。有些命令就是不能跑。有些改動必須先問人。有些測試沒跑完就不能說完成。有些業務邏輯看起來可以簡化，但其實背後有一堆歷史債。

這些東西 Prompt 很難一次說清楚。

你可以在提示詞裏寫“不要做危險操作”。
沒用。太虛。

危險操作到底是什麼？刪文件算不算？改 migration 算不算？自動升級依賴算不算？把 feature flag 刪了算不算？在測試環境跑可以，在生產跑不行，這個邊界誰來判斷？

靠模型自己猜，遲早出事。

我越來越相信 Harness，而不是神 Prompt

我現在寫 AI 編程工具相關內容，經常會提 Harness。這個詞聽起來有點裝，但它解決的是很土的問題：

怎麼把一個會寫代碼、會跑命令、會自作主張的 Agent，關進一個不會亂炸的籠子裏。

這個籠子不一定複雜。甚至可以很簡單：

只允許它改某幾個目錄；
先寫計劃，再動手；
破壞性命令必須停下來問人；
每次改完必須跑指定測試；
沒有測試輸出就不能說完成；
只能開 draft PR；
production 默認只讀；
所有工具調用留日誌。

這些聽起來不像未來科技。

像項目管理。

但真正把 Agent 放進工程裏，靠的就是這些東西。

我最近做一個 Social Ops MVP，也故意把邊界拆得很死：LLM 負責選題、內容、覆盤判斷；CLI 只做確定性動作，比如抓數據、存狀態、打開網頁、半自動填表。發佈這一步必須停在人工確認前，不讓它自動點最終提交。

這不是因為我不想自動化。

是因為我知道“自動化發佈”這四個字，遲早會給自己挖坑。

尤其是內容平台。發錯一篇，不是 CI 紅了重跑一下那麼簡單。

先讓 Agent 做窄任務

GitHub 現在允許把 Dependabot alert 分配給 AI Agent，我反而覺得這個方向靠譜。

因為它窄。

安全告警有明確輸入：哪個包有問題。
有明確動作：升級、替換、補 patch。
有明確出口：開 PR、跑 CI、等人 review。

這種任務很適合 Agent。

不是因為它簡單，而是因為邊界清楚。Agent 搞錯了，你大概率能在 diff 和 CI 裏看出來。它不會突然決定“順手重構一下支付模塊”。

我現在比較願意交給 Agent 的任務，大概是這些：

小範圍 bugfix；
依賴升級；
lint 和類型錯誤；
測試補齊；
文檔同步；
review comment 處理；
重複性遷移，但必須分批。

我不願意直接交給它的任務也很明確：

生產數據庫；
大型架構重寫；
權限配置；
發佈上線；
核心業務規則；
沒有測試的老代碼。

不是永遠不能做。

是不能一上來就放權。

先讓它在籠子裏跑幾圈。別第一次見面就把生產鑰匙給它。

以後工程師更像 Agent 領班

這句話有點難聽，但我覺得挺準確。

AI 編程不會讓工程師立刻消失。至少現在不會。它會先改變工程師每天干活的比例。

以前你一天可能 70% 時間寫代碼，30% 時間看需求、跑測試、review。

以後可能變成：

設計任務邊界；
準備上下文；
看 Agent 的計劃；
卡住危險操作；
review 它的 diff；
查它為什麼跑偏；
把成功流程沉澱成 Skill；
把失敗案例寫進 guardrail。

寫代碼還是要會。

不會寫代碼的人，很難判斷 Agent 寫得對不對。更麻煩的是，Agent 經常不是語法錯，而是工程判斷錯。它可能寫出一段能跑的代碼，但這個改法會讓三個月後的維護者想罵人。

這種判斷，模型可以輔助，但鍋最後還是人背。

沒人會對事故覆盤說：“都是模型的責任，我們也沒辦法。”

老闆只會問：誰給它權限的？

我看 AI 編程工具，開始看這些東西

現在看到一個新的 coding agent，我不會先看 demo 裏它 30 秒寫了多少代碼。

Demo 都會剪。

我會先看幾個更掃興的問題：

它能不能只改指定文件？
能不能先停下來給計劃？
能不能限制 shell 命令？
能不能接 CI？
能不能在人類 review 前停住？
能不能把 token 花在哪裏說清楚？
能不能失敗後留下現場？
能不能把一套流程保存成下次還能用的 Skill？

這些問題不好營銷。

但決定你敢不敢把它放進真實項目。

如果一個工具只告訴我“模型更強、速度更快、上下文更長”，我現在會自動打個折。因為真實項目裏，上下文長了以後，它能誤解的東西也更多；速度快了以後，它改壞東西也更快。

快不是問題。

剎車才是問題。

這波 AI 編程的分水嶺

2026 年 AI 編程大概率會繼續卷模型。

Claude 會更強，Codex 會接更多工具，GitHub 會把 Agent 放進更多工程流程。Product Hunt 上也會繼續出現各種 Agent Fleet、Agent Builder、Agent Workflow 平台。

這些都會發生。

但我覺得真正的分水嶺不在這裏。

分水嶺在於：誰能把 Agent 管起來。

不是寫一個神 Prompt。
不是收藏一堆模板。
不是讓它開十個終端同時跑。

而是讓它知道什麼時候該做，什麼時候該停，什麼時候必須等人看一眼。

這件事聽起來不酷。

但工程本來很多時候就不酷。寫測試不酷，權限隔離不酷，備份不酷，灰度發佈不酷。只有出事的時候，你才會突然覺得它們很美。

AI 編程也一樣。

模型越來越強是好事。
但如果沒有 Harness，它只是一個更有行動力的風險源。

我現在的判斷很簡單：

下一階段拼的不是“誰的 Agent 更像天才”。

拼的是誰能讓這個天才別亂碰生產。

參考資料：

OpenAI — Codex for almost everything^[1]
GitHub — GPT-5.5 is generally available for GitHub Copilot^[2]
GitHub — Dependabot alerts are now assignable to AI agents for remediation^[3]
GitHub — Model selection for Claude and Codex agents on GitHub.com^[4]
Engineering Pitfalls in AI Coding Tools^[5]
Hacker News — Claude Code wiped our production database with a Terraform command^[6]

References

OpenAI — Codex for almost everything: https://openai.com/index/codex-for-almost-everything/
GitHub — GPT-5.5 is generally available for GitHub Copilot: https://github.blog/changelog/2026-04-24-gpt-5-5-is-generally-available-for-github-copilot
GitHub — Dependabot alerts are now assignable to AI agents for remediation: https://github.blog/changelog/2026-04-07-dependabot-alerts-are-now-assignable-to-ai-agents-for-remediation/
GitHub — Model selection for Claude and Codex agents on GitHub.com: https://github.blog/changelog/2026-04-14-model-selection-for-claude-and-codex-agents-on-github-com/
Engineering Pitfalls in AI Coding Tools: https://arxiv.org/abs/2603.20847
Hacker News — Claude Code wiped our production database with a Terraform command: https://news.ycombinator.com/item?id=47278720