為什麼你用 SDLC 做 AI Agent 項目,註定會失敗

作者:竇竇的AI工具庫
日期:2026年5月19日 下午3:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

用傳統SDLC開發AI Agent註定失敗,應採用專為動態系統設計的ADLC框架

整理版摘要

呢篇文章出自開發者社區,針對AI Agent項目屢屢失敗嘅現象,指出根本原因唔係技術問題,而係用錯咗開發流程。傳統軟件開發嘅SDLC(設計、開發、測試、部署、維護)假設「同樣輸入永遠得到同樣輸出」,但Agent嘅行為取決於prompt、上下文、模型版本、外部工具等多個變數,每次跑嘅結果都可能唔同。作者認為,拎SDLC嗰套「寫好測試用例、pass/fail就完事」嘅邏輯去管Agent,就好似用尺量水——工具本身已經錯咗。

開發者社區為此提出咗ADLCAgentic Development Life Cycle),將軟件視為一個活嘅系統,而唔係靜態產品。ADLC共有七個階段,每個階段對應SDLC嘅某個環節,但做法完全唔同。作者強調,做Agent最貴嘅唔係開發成本,而係用錯流程之後嘅返工成本。ADLC嘅核心係「先諗清楚佢點樣生存,再決定點樣造」。

文章詳細拆解咗ADLC七個階段:準備同假設、範圍同問題識別、設計同架構、仿真同價值驗證、實現、測試、部署。每個階段都有具體做法同常見陷阱,目的係幫助開發者由頭到尾系統性咁建構Agent,避免「開咗code先發現Agent行為不可控」呢類典型問題。整體結論係:Agent開發必須採用專為動態系統設計嘅ADLC框架,先可以降低風險、提升成功率。

  • 傳統SDLC假設固定輸入輸出,唔適合Agent嘅不確定性行為,係失敗嘅根本原因。
  • ADLC將軟件視為活系統,七階段對應SDLC但做法完全不同,核心係「先諗清楚點樣生存」。
  • ADLC第一階段係準備同假設,要先搞清用戶交互同自動化範圍,跳過呢步好易自動化錯流程。
  • ADLC測試唔係pass/fail,而係評估準確率分佈、幻覺率、成本等連續指標。
  • 部署只係開始,Agent需要持續學習同監控,反饋循環係永不停止嘅改進過程。
整理重點

SDLC vs ADLC:核心差異

傳統SDLC假設輸入決定輸出,適合靜態軟件;但Agent嘅輸出受prompt、上下文、模型版本、外部工具影響,每次跑都可能唔同。用SDLC管Agent就等於用尺量水——工具本身已經錯咗。

整理重點

ADLC 七階段關鍵做法

  1. 1 準備同假設:先唔好畫架構圖,而係瞭解用戶點樣同Agent交互、邊啲環節係重複勞動、Agent具體解決咩問題。最好開 planning mode 用Agent自己梳理行為模型。
  2. 2 範圍同問題識別:定義清楚人同Agent嘅責任邊界——邊個審核、邊個決策、邊個背鍋。同時定死KPI:時間、成本、延遲、可行性。
  3. 3 設計同架構:揀Agent模式(ReActPlan-and-Act、多Agent),規劃數據流,算token經濟賬。仲要喺寫code前定義「成功係點樣」,方便用TDD開發。
  4. 4 仿真同價值驗證:用真實數據跑原型,驗證假設。呢步失敗成本最低——如果原型跑唔通,就唔好再做呢個Agent,拖到上線再崩代價大十倍。
  5. 5 實現SDLC邏輯住喺code同配置,ADLC邏輯分散喺code、prompt、模型、工具、外部服務五層。context management係生死線,太多無關信息會稀釋注意力。開發同測試唔可以分開,每改一樣就要驗證。
  6. 6 測試:唔係pass/fail,而係評估準確率分佈、幻覺率、單次交互成本。功能測試、非功能測試、結構測試、壓力測試全部要跑。
  7. 7 部署SDLC嘅部署係「開發結束,進入穩定」;ADLC嘅部署係「主動監控同控制嘅開始」。先灰度發佈俾細批用戶,觀察真實表現再逐步放量。之後仲要持續學習、監控安全護欄同成本。

ADLC 測試變成對推理能力、安全性和工具使用的持續評估

整理重點

常見陷阱同避坑建議

好多開發者跳過準備階段直接寫code,結果自動化咗錯誤嘅流程,越做越亂。另外,context management 係生死線——就算有100萬token窗口,塞太多無關信息落去,Agent注意力會被稀釋,輸出質量直線下降。

  • 唔好喺冇明確定義責任邊界之前就開工,否則出事先揾人孭鑊。
  • agent 模式揀錯會令系統行為失控,要提前做 trade-off 分析(延遲 vs 準確率 vs 幻覺率)。
  • 仿真階段一定要用真實數據,否則假設驗證唔到,上線先發現問題就太遲。

做 AI Agent 嘅人,十個有九個係直接開寫 code 嘅。

結果呢?寫到一半先發現 Agent 行為唔受控,測試冇辦法測,上線之後一大堆幽靈 bug。問題唔係技術唔掂,而係成個開發流程都用錯咗。

傳統軟件開發有個經典流程叫 SDLC——設計、開發、測試、部署、維護,逐個步驟做。呢套嘢用咗幾十年,核心假設係:同樣嘅輸入,永遠俾返同樣嘅輸出。

圖片

但 Agent 唔係咁玩㗎。

Agent 嘅輸出取決於 prompt、上下文、模型版本、外部工具調用……每次執行嘅結果都可能唔同。用 SDLC 嗰套「寫好測試用例、pass/fail 就搞掂」嘅邏輯去管 Agent,就好似用間尺度水咁——工具本身已經唔啱。

所以開發者社區搞咗個新框架:ADLC(Agentic Development Life Cycle)

分別係:SDLC 將軟件當成靜態產品,ADLC 將軟件當成有生命嘅系統。

圖片

ADLC 總共有 7 個階段,每個都對應 SDLC 嘅某個環節,但做法完全唔同。

階段一:準備同假設

唔係一嚟就畫架構圖。而係要先搞清楚:用戶會點樣同呢個 Agent 互動?邊啲環節係而家人手重複做緊?Agent 到底解決邊個具體問題?

有個陷阱好多人中: skip 咗呢步直接開工,結果自動化咗錯誤嘅流程,越搞越亂。

老實講,呢步最好嘅做法係開 planning mode,等 Agent 自己幫你梳理行為模型,唔好諗 code,淨係諗流程。

階段二:範圍同問題識別

確定 Agent 做到啲咩、做唔到啲咩。關鍵動作係定義清楚人同 Agent 嘅責任邊界——邊個審核、邊個決策、邊個孭鑊。

以前唔需要咁做,因為冇 AI 參與決策。而家唔畫清楚,出事你都唔知揾邊個。

同時定死 KPI:時間、成本、延遲、可行性,全部寫低。

圖片


階段三:設計同架構

揀 Agent 模式(ReAct、Plan-and-Act、多 Agent),規劃數據流,計 token 經濟賬,揀模型同編排框架。

仲要狠啲:未寫第一行 code 之前,就要定義好「成功係點樣」。咁先可以用 TDD 嘅方式開發 Agent。延遲、準確率、幻覺率——呢啲取捨一定要預先諗定。

階段四:仿真同價值驗證

用真實數據運行原型,驗證之前嘅假設。

呢步嘅核心邏輯係:而家失敗嘅成本最低。如果原型行唔通,即係呢個 Agent 唔應該做——越早發現越好,拖到上線先冧,代價大十倍。

驗證啲咩?幻覺率、回應質素、數據質素、成本基準。運行完拎到嘅數據就係之後迴歸測試嘅 ground truth。

階段五:實現

終於到寫 code。但呢度有個關鍵分別:SDLC 嘅邏輯喺 code 同配置入面,ADLC 嘅邏輯分散喺 code、prompt、模型、工具、外部服務呢五層。任何一層變咗,成個系統行為都可能變。

仲有一點:context management 係生死線。就算你用 100 萬 token 嘅上下文窗口,塞太多無關資訊入去,Agent 嘅注意力會被稀釋,輸出品質直線下降。

喺呢個階段,開發同測試唔可以分開。每次改一樣嘢就要驗證一次,因為 Agent 系統入面一個細微改動可能引發連鎖反應。

階段六:測試

唔係傳統嘅 pass/fail。Agent 嘅測試指標係準確率分佈、幻覺率、每次交互成本。

因為 Agent 唔會行兩次完全相同嘅路徑,所以測試變成對推理能力、安全性同工具使用嘅持續評估。功能測試、非功能測試、結構測試、壓力測試,全部都要行。

圖片


階段七:部署

喺 SDLC 入面,部署即係「開發結束,進入穩定運行」。

喺 ADLC 入面,部署即係「主動監控同控制嘅開始」。模型會更新,上下文會漂移,環境會變化——呢啲嘢唔會因為你上咗線就停。

實際操作係先灰度發佈俾一細批用戶,觀察 Agent 喺真實場景下嘅表現,然後逐步放量。

圖片

部署之後仲未完。

Agent 需要持續學習。用戶嘅 👍👎 反饋、定期更新嘅數據源同 embedding、安全護欄嘅有效性監控、成本管理——呢啲全部都係長期工程。

傳統軟件嘅反饋循環係「用戶報 bug → 開發修」。Agent 嘅反饋循環係永不停止嘅持續改進過程。

圖片

做 Agent 最貴嘅唔係開發成本,係用錯流程之後嘅返工成本。ADLC 嘅核心:先諗清楚佢點樣生存,再決定點樣造。

做 AI Agent 的人,十個裏有九個是直接開寫代碼的。

結果呢?寫到一半發現 Agent 行為不可控,測試沒法測,上線後一堆幽靈 bug。問題不是技術不行,是整個開發流程就用錯了。

傳統軟件開發有個經典流程叫 SDLC——設計、開發、測試、部署、維護,一步一步來。這套東西用了幾十年,核心假設是:同樣的輸入,永遠給你同樣的輸出。

圖片

但 Agent 不是這麼玩的。

Agent 的輸出取決於 prompt、上下文、模型版本、外部工具調用……每次跑的結果都可能不一樣。用 SDLC 那套"寫好測試用例、pass/fail 就完事"的邏輯去管 Agent,就像拿尺子量水——工具本身就不對。

所以開發者社區搞了個新框架:ADLC(Agentic Development Life Cycle)

區別就是:SDLC 把軟件當靜態產品,ADLC 把軟件當活的系統。

圖片

ADLC 一共 7 個階段,每個都對應 SDLC 的某個環節,但做法完全不同。

階段一:準備和假設

不是上來就畫架構圖。而是先搞清楚:用戶會怎麼跟這個 Agent 交互?哪些環節現在是人在重複勞動?Agent 到底解決的是哪個具體問題?

有個坑很多人踩:跳過這步直接幹,結果自動化了錯誤的流程,越做越亂。

說實話,這步最好的做法是開 planning mode,讓 Agent 自己幫你梳理行為模型,不要想代碼,只想流程。

階段二:範圍和問題識別

確定 Agent 能幹什麼、不能幹什麼。關鍵動作是定義清楚人和 Agent 的責任邊界——誰審核、誰決策、誰背鍋。

這個以前不需要,因為沒有 AI 參與決策。現在不畫清楚,出了事你都不知道該找誰。

同時把 KPI 定死:時間、成本、延遲、可行性,全寫下來。

圖片


階段三:設計和架構

選 Agent 模式(ReAct、Plan-and-Act、多 Agent),規劃數據流,算 token 經濟賬,選模型和編排框架。

更狠的是:在寫第一行代碼之前,就要定義好"成功長什麼樣"。這樣才能用 TDD 的方式來開發 Agent。延遲、準確率、幻覺率——這些 trade-off 必須提前想好。

階段四:仿真和價值驗證

用真實數據跑原型,驗證之前的假設。

這步的核心邏輯是:現在失敗的成本最低。如果原型跑不通,說明這個 Agent 不該做——越早發現越好,拖到上線再崩,代價大十倍。

驗證什麼?幻覺率、響應質量、數據質量、成本基線。跑完拿到的數據就是後面迴歸測試的 ground truth。

階段五:實現

終於到寫代碼了。但這裏有個關鍵區別:SDLC 的邏輯住在代碼和配置裏,ADLC 的邏輯分散在代碼、prompt、模型、工具、外部服務這五層裏。任何一層變了,整個系統行為都可能變。

還有一個點:context management 是生死線。就算你用 100 萬 token 的上下文窗口,塞太多無關信息進去,Agent 的注意力會被稀釋,輸出質量直線下降。

在這個階段,開發和測試不能分開。每改一個東西就要驗證一次,因為 Agent 系統裏一個小改動可能引發連鎖反應。

階段六:測試

不是傳統的 pass/fail。Agent 的測試指標是準確率分佈、幻覺率、單次交互成本。

因為 Agent 不會走兩次完全相同的路徑,所以測試變成了對推理能力、安全性和工具使用的持續評估。功能測試、非功能測試、結構測試、壓力測試,全都要跑。

圖片


階段七:部署

在 SDLC 裏,部署意味着"開發結束,進入穩定運行"。

在 ADLC 裏,部署意味着"主動監控和控制的開始"。模型會更新,上下文會漂移,環境會變化——這些事不會因為你上線了就停下來。

實際操作是先灰度發佈給一小批用戶,觀察 Agent 在真實場景下的表現,然後逐步放量。

圖片

部署之後還沒完。

Agent 需要持續學習。用戶的 👍👎 反饋、定期更新的數據源和 embedding、安全護欄的有效性監控、成本管理——這些全是長期工程。

傳統軟件的反饋循環是"用戶報 bug → 開發修"。Agent 的反饋循環是永不停止的持續改進過程。

圖片

做 Agent 最貴的不是開發成本,是用錯流程之後的返工成本。ADLC 的核心:先想清楚它怎麼活,再決定怎麼造。