設個目標讓 AI 自己跑一夜,Codex 和 Claude Code 的 /goal 到底怎麼用

作者:AI智聞說
日期:2026年6月11日 下午10:08
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

用 /goal 畀 AI 自己跑一夜CodexClaude Code 點樣實現,點樣先用得靚

整理版摘要

呢篇文章係講 AI 編程工具嘅 /goal 命令,作者係一個技術寫手,想解答嘅問題係:點樣用一條命令就令 AI 自己不斷重複做嘢直到完成目標,而唔使下下等用人手確認。文章比較咗 CodexClaude Code 兩間公司嘅實現方案,指出雖然功能名一樣,但底層邏輯同實際表現有好大分別。整體結論係:/goal 令 AI 編程從「你講一步佢做一步」進化到「你講個目標就離手」,但要寫得靚嘅終止條件、識得揀啱時機用,否則好易燒好多 token 又做唔到嘢。

Codex 嘅做法係畀模型自己判斷任務完唔完成,透過一個 update_goal(complete) 工具,配合空轉檢測同原生 token 預算控制,唔畀模型自己暫停。Claude Code 就請咗個獨立裁判——每輪完結後用 Haiku 評估條件係咪達到,好處係幹活同判別分開,減少自己呃自己,但缺點係模型成日彈問題問你,令你走唔開。Ralph Loop 呢個 bash while-true 循環係靈感來源,而家已經俾 Anthropic 收編做官方 plugin。

實際使用上,寫條件要有可測量嘅終態、驗證方式同約束,例如「npm test exits 0」。用之前最好手動跑一轉確認可行,配合 auto mode 避免卡喺工具調用,同埋拆成多個細 goal 會更穩定。跑長時間任務消耗唔細,要設預算上限。Codex 適合 6 小時以上埋頭苦幹型任務,Claude Code

  • /goal 令 AI 編程從逐輪確認變為目標驅動,省卻中間反覆指示,但要寫好終止條件先得。
  • Codex 靠模型自己調用 update_goal(complete) 判斷完成,加上空轉檢測同 token 預算,表現係埋頭苦幹唔問人。
  • Claude Code 用獨立小模型 Haiku 做裁判,每輪評估條件,但模型成日彈問題打斷自動流程,並有上下文壓縮後遺忘問題。
  • 寫條件要包括可測量終態、驗證方式同約束,例如「npm test exits 0」;避免「make the code better」呢類模糊目標。
  • 實際操作建議:先手動跑通,開 auto mode,一個 goal 一個終態,設 token 上限或輪次限制,按任務長短揀工具。
整理重點

/goal 係咩玩法?由 Ralph Loop 講起

/goal 命令嘅核心係改變咗人同 AI 嘅合作模式:以往你講一句佢做一步,而家你畀個終點線,佢自己一輪一輪跑到完先交返控制權。呢個概念嘅前身係 Ralph Loop,一個簡單到好笑嘅 bash while-true 循環,由澳洲開發者 Geoffrey Huntley 喺 2025 年底整出嚟。

Ralph Loop 個邏輯就係反覆將同一段 prompt 餵畀 AI,等佢睇住上一輪改過嘅文件繼續做,直至任務完成。

Huntley 原話:「Ralph is a Bash loop.」但就係咁簡單嘅嘢,有人喺 Y Combinator hackathon 一夜跑出 6 個倉庫,亦有人用 297 美元 token 費完成咗 5 萬美元嘅合同。而家 Anthropic 已經將 Ralph 收編做 Claude Code 官方 plugin。

整理重點

Codex 同 Claude Code 實現大不同

兩家雖然都叫 /goal,但底層思路完全唔同。Codex 嘅做法係將判斷權交畀模型本身:模型有一個叫 update_goal(complete) 嘅工具,佢覺得做曬就 call 呢個工具標記完成。系統仲設計咗限制——模型唔可以暫停或恢復 goal,全部由系統控制;另外如果某一輪模型淨係 chat 冇 call 任何工具,系統會抑制下一次自動續跑,避免空轉燒 token。

Codex 呢種設計係有意唔畀模型自己話「太難我歇嚇

Claude Code 就請咗個獨立裁判:每輪完結後,系統將你設嘅條件同當前對話 pack 畀一個小快模型(預設係 Haiku),由佢判斷係咪達到條件。如果未達到,就將判斷理由作為下一輪引導;達到就清除 goal。好處係幹活同判別分開,唔會出現自己做完順手打勾嘅情況。

Claude CodeHaiku 做評估,等於請咗個唔識偷懶嘅監工

其他分別仲包括CodexSQLite 做持久化,斷咗線可以續返;Claude Code 係 session 級,恢復時輪次同 token 統計會重置。Codex 有原生 token_budget 字段做預算控制,Claude Code 就要喺條件文字入面自己寫「30 輪後停止」。

  • Codex:上線 2026-04-30(0.128.0),由模型判斷完成,持久化強,有空轉檢測
  • Claude Code:上線 2026-05-12(2.1.139),由獨立小模型評估,持久化弱,易請示
  • Codex 預算控制原生,Claude Code 要靠文字約束
整理重點

點樣寫條件先跑到終點?同埋注意啲咩

/goal 成唔成功,條件寫得好唔好佔一大半。好條件通常有呢三個要素:一個可測量嘅終態(例如測試全過、構建退出碼為 0)、一個明確嘅驗證方式(AI 點樣證明做到,例如「運行 npm test 且退出碼為 0」)、同埋約束(過程中唔準改啲咩文件)。

好例子:/goal npm test exits 0 with no skipped tests

壞例子就好似「make the code better」,呢啲模糊目標評估模型根本睇唔明,結果永遠唔停或者隨便停。實用技巧係喺條件加個剎車,例如「stop after 30 turns」,咁就唔怕燒到天光。

  1. 1 記得搭 auto mode:/goal 只免除輪與輪之間嘅確認,但每一輪入面嘅工具調用仲要彈框,唔開 auto mode 一樣卡住。
  2. 2 一個 goal 一個終態:塞太多條件(例如「測試通過 AND 覆蓋率 > 80% AND 文檔更新」)會令模型卡死循環,拆成幾個細 goal 更穩。
  3. 3 對花費有預期:跑幾個鐘嘅 goal 消耗幾十美元好正常,Codex 可以用 token_budget 設硬上限,Claude Code 建議喺條件寫明輪次上限。

實際跑嘅體驗方面,Codex 埋頭幹唔問人,上下文壓縮後恢復得唔錯;Claude Code 開局雖然有宏觀規劃,但跑一陣就會彈問題問你,有時仲會主動話目標太大然後 fail。呢啲分別同兩家嘅工程方案同模型行為模式有關,揀邊隻用要睇任務性質。

兩間幾乎同一時間加入咗 /goal 指令,但係工程方案完全唔同——一個俾模型自己判斷完成,另一個就專登請咗個裁判。

以前用 AI 寫 code,你講一句,佢做一步,你再講一句,佢再做一步。每輪都要你確認、要你催促。

而家變咗。Codex 4 月底加咗 /goal,Claude Code 5 月中都加咗。你俾佢設定一個終點線,行開,佢自己一輪一輪繼續跑,直到條件滿足先停低還返控制權俾你。

功能一樣,但實際跑起上嚟差距大到令人懷疑兩間公司做嘅係咪同一樣嘢。

/goal 做啲乜嘢

傳統模式之下,AI 每完成一輪就會停低等你下一句指令。/goal 改咗呢個規則:

你設定一個終止條件,AI 每輪結束之後自己判斷條件係咪滿足。唔滿足嘅話,自動開始下一輪;滿足咗,就停。

適合嘅任務有個共通點——最終狀態可以驗證:


將一個模組嘅所有 API 呼叫搬去新版本,直到編譯通過、測試通過

按照設計文件實現功能,直到所有驗收條件滿足

拆大檔案做細模組,直到每個檔案都喺預算之內

清曬 issue 積壓,直到隊列變空

唔適合嘅:需要成日人工判斷方向嘅探索性工作,或者 5 分鐘搞得掂嘅小嘢。

前身:Ralph Loop

/goal 嘅精神前身叫 Ralph Loop,個名嚟自《阿森一族》入面嘅角色 Ralph Wiggum。

2025 年底,澳洲開發者 Geoffrey Huntley 整咗呢個嘢。核心邏輯簡單得有啲掃興——就係一個 bash 嘅 while-true loop,重複將同一個 prompt 檔案餵俾 AI agent,等佢睇到自己上一輪改過嘅檔案,繼續做,直到任務完成。Huntley 原話:"Ralph is a Bash loop."

社區有人用佢做咗唔少嘢。根據 Ralph 官方 plugin 文件記載:Y Combinator hackathon 上面有人一晚跑出 6 個 repo;有個價值 5 萬美金嘅合約,最終 API 使費得 297 美金。Huntley 自己用咗 3 個月整咗一門實驗性編程語言(佢自己叫佢做"cursed")。

而家 Anthropic 已經將 Ralph 吸納做官方 Claude Code plugin,放咗喺 plugins/ralph-loop/ 目錄下面。

/goal 喺 Ralph 嘅基礎上主要加咗三樣嘢:


自動終止判斷——唔再係死 loop,有條件判斷幾時應該停

預算控制——Codex 有原生嘅 token 預算字段,set 咗上限就會自動停;Claude Code 就需要你喺條件文字入面手寫"30 輪後停止"呢類約束

斷點續跑——Codex 係 SQLite 級別嘅完整持久化,中斷咗重新入 thread 就會繼續跑;Claude Code 恢復時條件仲喺度,但係輪次計數同 token 統計會重置,相當於由頭計起

兩間係點實現嘅

同樣叫 /goal,底層思路唔一樣。

Codex:模型自己判斷完成。

Codex 俾模型暴露咗一個工具叫做 update_goal(complete)——模型覺得做完咗,就 call 呢個工具將 goal 標記為完成。但係模型唔可以暫停或者恢復 goal,呢啲由系統控制(例如你撳 Ctrl+C 就暫停,重新入 thread 就自動恢復)。呢個係刻意咁樣設計——唔俾模型自己決定"太難啦我唞一陣"。

防空轉都做咗:如果某一輪自動續跑期間 AI 無 call 任何工具,只係傾偈,系統就會抑制下一次自動續跑,避免原地打圈燒 token。

Claude Code:請咗個獨立裁判。

Claude Code 嘅做法唔一樣。每輪結束之後,系統將你設定嘅條件同當前對話 send 俾一個快啲嘅細模型(預設係 Haiku),由佢判斷條件係咪滿足。回"否"就同 Claude 講繼續做,將判斷理由做下一輪嘅引導;回"是"就清除 goal。

好處係"做嘢嘅"同"判完未"嘅唔係同一個模型——唔會自己做完成就順便俾自己打剔。Codex 嗰邊靠工程約束(模型唔可以暫停自己 + 空轉檢測)嚟制衡,思路唔同但都唔係完全無剎車。

核心差異一覽:

維度
Codex
Claude Code
上線
2026-04-30(0.128.0),05-21 轉正
2026-05-12(2.1.139),直接穩定版
邊個判斷完成
模型自己 call update_goal(complete)
獨立細模型(Haiku)做評估
持久化
SQLite thread 級,斷咗可以續
Session 級,恢復時計數重置
預算控制
原生 token_budget 字段
條件入面寫文字約束,由評估模型判斷
暫停/恢復
Ctrl+C 暫停,resume 自動激活
/goal clear
 清除
防空轉
連續空轉自動停
文件未明確提及類似機制
默認上下文窗口
400K(GPT-5.5)
1M


條件要點樣寫先至跑到終點

/goal 能否跑到終點,條件寫得好唔好佔咗一大半。

好條件通常有三個要素:

1
一個可以量度嘅最終狀態——測試全部通過、build 嘅 exit code 係 0、某個 queue 係空
2
一個明確嘅驗證方式——AI 點樣證明做到咗,例如"執行" npm test 而且 exit code 係 0"
3
約束——過程中乜嘢唔鬱得,例如"唔改 src/auth/ 以外嘅檔案"

好例子:




/goal npm test exits 0 with no skipped tests, and eslint reports zero errors. Do not modify any file outside src/auth/

壞例子:




/goal make the code better

"better"無辦法判斷。評估模型睇唔明乜嘢叫"更好",結果一係永遠唔停,一係隨便停。

仲有個實用技巧——喺條件入面加個剎車:




/goal all acceptance criteria in DESIGN.md are met, or stop after 30 turns

咁樣就算任務比預期複雜,都唔會無限燒 token。

跑 /goal 嘅幾個注意事項

用過一段時間之後,有幾個容易中招嘅地方:

1. 記得搭配 auto mode。

/goal 免除嘅係"輪與輪之間"嘅手動確認。但係每一輪入面,AI 要讀檔案、寫檔案、執行指令,呢啲工具 call 預設係要彈確認框嘅。如果你唔開 auto mode(或者 Codex 嘅 full-auto),goal 跑跑嚇彈個"允許寫呢個檔案嗎"——一樣會卡住等你。

所以實際操作上 /goal 基本上都係配合自動批准權限一齊用。

2. 先手動跑通一次先 set goal。

唔好第一次做某個任務就直接 /goal。先手動跑一輪,確認 AI 理解到任務、路徑可行、唔會喺第一步就卡死。跑通咗之後再 set goal 等佢重複或者擴展,成功率高好多。

3. 一個 goal 一個最終狀態,唔好塞太多目標。

"測試通過 AND 覆蓋率 > 80% AND 文檔更新 AND 類型檢查通過"——塞太多條件,模型容易喺中間某步反覆卡死 loop。拆成多次 /goal 更穩陣:先跑通測試,再跑覆蓋率,再跑文檔。

4. 對使費要有個預期。

長時間 /goal 嘅 token 消耗唔低。一個跑幾個鐘嘅 goal,消耗幾十美金好正常。Codex 可以 set token_budget 硬上限;Claude Code 建議喺條件入面寫明輪次上限,避免唔記得之後賬單嚇親。

實際跑出嚟係點樣

下面呢啲體驗主要嚟自社區入面幾個長期跑 /goal 嘅開發者實測,唔係官方數據,之後嘅版本可能會變——但係暫時大家反饋嘅感覺都幾一致:

Codex 跑起上嚟嘅表現:埋頭做,唔問人,唔放棄。

跑 /goal 嘅時候,Codex 幾乎唔會 interrupt 你。唔會彈出嚟問"你想要方案 A 定係方案 B",自己判斷繼續行。

上下文壓縮之後恢復得唔錯。長任務跑得耐,對話歷史越來越長,差唔多塞爆上下文窗口時,系統會自動壓縮舊內容騰出空間。壓縮完 Codex 基本上可以接返上一輪嘅狀態繼續推進,唔會突然唔記得之前做緊乜。

卡住咗會轉角度。遇到一個方向行唔通,佢唔會直接報告"目標無法實現",而係轉個思路再試,直到 token 預算燒曬先停。有人測試過成晚跑三個獨立 /goal session,朝早起身大部分仲喺度正常推進。

Claude Code 跑起上嚟嘅表現:開局華麗,但係鍾意請示。

Claude Code 一開始 /goal 就睇得出佢思路更宏觀——先列計劃,將大任務拆成細塊分配俾並行嘅子助手一齊做,做全局協調。開局睇落確實好勁。

但係跑跑嚇問題就嚟啦。

佢會彈出嚟問你揀。"呢個 interface 有兩種實現方式,你傾向邊個?"平時呢個係優點,表示佢喺度對齊你嘅意圖。但係喺 /goal 模式下呢個變咗障礙——你 set goal 嘅目的就係行開唔理,佢一彈問題你就返嚟睇住。

佢有時跑咗冇耐就主動話你知"呢個目標太大,當前 session 完成唔到",然後真係 fail 咗。

上下文壓縮之後資訊流失比較明顯。之前列嘅計劃、已經排除嘅方案,壓縮完佢可能會唔記得,要重新摸索。不過 Claude Code 嘅默認上下文窗口係 1M,比 Codex 默認嘅 400K 大唔少,壓縮觸發頻率本身就低啲。

補充返個背景:Claude Code 嘅部分"惰性"同 Opus 4.7 嘅一個已知 regression 有關。2026 年 4 月 16 日 Opus 4.7 發佈時,Anthropic 喺系統 prompt 入面加咗"reduce verbosity"指令,無意中拖累咗編碼質量,4 日後回滾咗,但係社區反饋未有完全恢復。所以上面呢啲感受唔一定係永久嘅。

場景選擇:


6 個鐘以上嘅長跑任務,目標明確,唔需要成日判斷方向 → Codex

1-2 個鐘嘅任務,需要架構判斷力同跨模組協調 → Claude Code(每 30-60 分鐘睇一次)

單個需要全局視野嘅難題 → Claude Code 普通模式,唔用 /goal

上手指南

兩間嘅用法幾乎一樣:入 interactive mode 之後打 /goal 加上終止條件就得。Codex 要求 0.133.0 以上版本(呢個版本 /goal 正式轉正),Claude Code 要求 2.1.139 以上。




# Codex
/goal all tests pass and coverage is above 80%
 
# Claude Code
/goal CHANGELOG.md has an entry for every PR merged this week

Claude Code 仲可以睇當前 goal 狀態(/goal 唔帶參數)同提前結束(/goal clear)。

兩間都支援 headless mode,適合背景跑或者接 CI:




codex -p "/goal migrate all axios calls to fetch until no import of axios remains"
claude -p "/goal all TypeScript errors resolved and tsc exits 0"
圖片
圖片

寫喺最後

/goal 令 AI 編程由"你講一句佢做一步"變成咗"你講清楚目標就行開"。2025 年底有人用 bash while-true loop 證明咗呢條路行得通,半年之後兩間正式做咗產品級功能。

兩間跑出嚟嘅效果唔一樣,同底層工程方案有關,亦同模型本身嘅行為模式有關。你手頭上嘅任務係邊種性質,就揀邊間跑。

Claude Code 免費白嫖,參閲下面文章

Claude Code 接入免費 Qwen3.6,唔使花一分錢,Token 任你用

兩家幾乎同時加了 /goal 命令,工程方案卻完全不同——一個讓模型自己判斷完成,另一個專門請了個裁判。

以前用 AI 寫代碼,你說一句,它幹一步,你再說一句,它再幹一步。每一輪都要你確認、要你催。

現在變了。Codex 4 月底加了 /goal,Claude Code 5 月中也加了。你給它設一個終點線,走開,它自己一輪一輪往下跑,直到條件滿足才停下來還你控制權。

功能一樣,實際跑起來差距大到讓人懷疑兩家做的是不是一回事。

/goal 乾的是什麼事

傳統模式下,AI 每完成一輪就停下來等你的下一條指令。/goal 改了這個規則:

你設一個終止條件,AI 每輪結束後自己判斷條件是否滿足。不滿足,自動開下一輪;滿足了,停。

適合的任務有個共同點——終態可驗證:


把一個模塊的所有 API 調用遷移到新版,直到編譯通過、測試通過

按設計文檔實現功能,直到所有驗收條件滿足

拆大文件成小模塊,直到每個文件都在預算內

清 issue 積壓,直到隊列為空

不適合的:需要頻繁人工判斷方向的探索性工作,或者 5 分鐘能搞定的小活。

前身:Ralph Loop

/goal 的精神前身叫 Ralph Loop,名字來自辛普森動畫裏的角色 Ralph Wiggum。

2025 年底,澳洲開發者 Geoffrey Huntley 搞了這麼個東西。核心邏輯簡單得有點掃興——就是一個 bash 的 while-true 循環,反覆把同一個 prompt 文件餵給 AI agent,讓它看到自己上一輪改過的文件,接着幹,直到任務完成。Huntley 原話:"Ralph is a Bash loop."

社區有人拿它幹了不少活。據 Ralph 官方 plugin 文檔記載:Y Combinator hackathon 上有人一夜跑出 6 個倉庫;有個價值 5 萬美元的合同最終 API 花費只有 297 美元。Huntley 自己花 3 個月造了一門實驗性編程語言(他自己稱之為"cursed")。

現在 Anthropic 已經把 Ralph 吸收為官方 Claude Code plugin,放在 plugins/ralph-loop/ 目錄下。

/goal 在 Ralph 的基礎上主要加了三樣東西:


自動終止判斷——不再是死循環,有條件判斷什麼時候該停

預算控制——Codex 有原生的 token 預算字段,設了上限就自動停;Claude Code 需要你在條件文字裏手寫"30 輪後停止"這種約束

斷點續跑——Codex 是 SQLite 級的完整持久化,中斷了重新進線程就接着跑;Claude Code 恢復時條件還在,但輪次計數和 token 統計會重置,相當於從頭算起

兩家怎麼實現的

同樣叫 /goal,底層思路不一樣。

Codex:模型自己判斷完成。

Codex 給模型暴露了一個工具叫 update_goal(complete)——模型覺得幹完了,就調這個工具把 goal 標記為完成。但模型不能暫停或恢復 goal,這些由系統控制(比如你按 Ctrl+C 就暫停,重新進線程就自動恢復)。這是故意這麼設計的——不讓模型自己決定"太難了我歇一會兒"。

防空轉也做了:如果某一輪自動續跑中 AI 沒調用任何工具,只是在聊天,系統就抑制下一次自動續跑,避免原地打轉燒 token。

Claude Code:請了個獨立裁判。

Claude Code 的做法不一樣。每輪結束後,系統把你設的條件和當前對話發給一個小快模型(默認是 Haiku),由它來判斷條件是否滿足。返回"否"就告訴 Claude 繼續幹,把判斷理由作為下一輪引導;返回"是"就清除 goal。

好處是"幹活的"和"判完沒"的不是同一個模型——不會自己幹完就順手給自己打勾。Codex 那邊靠工程約束(模型不能暫停自己 + 空轉檢測)來制衡,思路不同但也不是完全沒有剎車。

核心差異一覽:

維度
Codex
Claude Code
上線
2026-04-30(0.128.0),05-21 轉正
2026-05-12(2.1.139),直接穩定版
誰判斷完成
模型自己調 update_goal(complete)
獨立小模型(Haiku)做評估
持久化
SQLite 線程級,斷了能續
Session 級,恢復時計數重置
預算控制
原生 token_budget 字段
條件裏寫文字約束,由評估模型判斷
暫停/恢復
Ctrl+C 暫停,resume 自動激活
/goal clear
 清除
防空轉
連續空轉自動停
文檔未明確提及類似機制
默認上下文窗口
400K(GPT-5.5)
1M


條件怎麼寫才能跑到終點

/goal 能不能跑到終點,條件寫得好不好佔了一大半。

好條件通常有三個要素:

1
一個可測量的終態——測試全過、構建退出碼為 0、某個隊列為空
2
一個明確的驗證方式——AI 怎麼證明做到了,比如"運行 npm test 且退出碼為 0"
3
約束——過程中什麼不能動,比如"不改 src/auth/ 以外的文件"

好例子:




/goal npm test exits 0 with no skipped tests, and eslint reports zero errors. Do not modify any file outside src/auth/

壞例子:




/goal make the code better

"better"沒法判斷。評估模型看不懂什麼叫"更好",結果要麼永遠不停,要麼隨便停。

還有個實用技巧——在條件里加個剎車:




/goal all acceptance criteria in DESIGN.md are met, or stop after 30 turns

這樣即使任務比預期複雜,也不會無限燒 token。

跑 /goal 的幾個注意事項

用過一段時間之後,有幾個容易踩到的地方:

1. 記得搭配 auto mode。

/goal 免除的是"輪與輪之間"的手動確認。但每一輪裏面,AI 要讀文件、寫文件、跑命令,這些工具調用默認還是要彈確認框的。如果你不開 auto mode(或者 Codex 的 full-auto),goal 跑着跑着彈個"允許寫這個文件嗎"——照樣卡住等你。

所以實操中 /goal 基本都是配合自動批准權限一起用的。

2. 先手動跑通一次再設 goal。

不要第一次幹某個任務就直接 /goal。先手動跑一輪,確認 AI 能理解任務、路徑可行、不會在第一步就卡死。跑通了之後再設 goal 讓它重複或擴展,成功率高很多。

3. 一個 goal 一個終態,別塞太多目標。

"測試通過 AND 覆蓋率 > 80% AND 文檔更新 AND 類型檢查通過"——塞太多條件,模型容易在中間某步反覆卡死循環。拆成多次 /goal 更穩:先跑通測試,再跑覆蓋率,再跑文檔。

4. 對花費有個預期。

長時間 /goal 的 token 消耗不低。一個跑幾小時的 goal,消耗幾十美元很正常。Codex 可以設 token_budget 硬上限;Claude Code 建議在條件裏寫明輪次上限,避免忘了之後賬單嚇一跳。

實際跑出來什麼樣

下面這些體驗主要來自社區裏幾個長期跑 /goal 的開發者的實測,不是官方數據,後續版本可能會變——但目前大家反饋的感覺挺一致:

Codex 跑起來的表現:埋頭幹,不問人,不放棄。

跑 /goal 的時候,Codex 幾乎不中斷你。不會彈出來問"你想要方案 A 還是方案 B",自己做判斷往下走。

上下文壓縮後恢復得不錯。長任務跑久了,對話歷史越來越長,快把上下文窗口撐滿時,系統會自動壓縮舊內容騰空間。壓縮完 Codex 基本能接着上一輪的狀態繼續推進,不會突然忘了之前在幹什麼。

卡住了會換角度。碰到一個方向走不通,它不會直接報告"目標無法實現",而是換個思路再試,直到 token 預算燒完才停。有人測試過整夜跑三個獨立 /goal session,早上起來大部分還在正常推進。

Claude Code 跑起來的表現:開局華麗,但愛請示。

Claude Code 一啓動 /goal 就能看出它思路更宏觀——先列計劃,把大任務拆成小塊分配給並行的子助手同時幹,做全局協調。開局看着確實猛。

但跑着跑着問題來了。

它會彈出來問你做選擇。"這個接口有兩種實現方式,你傾向哪個?"平時這是優點,說明它在對齊你的意圖。但在 /goal 模式下這變成了障礙——你設 goal 的目的就是走開不管,它一彈問題你就得回來盯着。

它有時候跑了沒多久就主動告訴你"這個目標太大了,當前 session 完成不了",然後真的 fail 了。

上下文壓縮後信息丟失比較明顯。之前列的計劃、已經排除的方案,壓縮完它可能就忘了,要重新摸索。不過 Claude Code 的默認上下文窗口是 1M,比 Codex 默認的 400K 大不少,壓縮觸發頻率本身就低一些。

補充一個背景:Claude Code 的部分"惰性"跟 Opus 4.7 的一個已知迴歸有關。2026 年 4 月 16 日 Opus 4.7 發佈時,Anthropic 在系統提示詞里加了"reduce verbosity"指令,無意中拖累了編碼質量,4 天后回滾了,但社區反饋沒完全恢復。所以上面這些感受不一定是永久的。

場景選擇:


6 小時以上的長跑任務,目標明確,不需要頻繁判斷方向 → Codex

1-2 小時的任務,需要架構判斷力和跨模塊協調 → Claude Code(每 30-60 分鐘看一眼)

單個需要全局視野的難題 → Claude Code 普通模式,不用 /goal

上手指南

兩家的用法幾乎一樣:進交互模式後敲 /goal 加上終止條件就行。Codex 要求 0.133.0 以上版本(這個版本 /goal 正式轉正),Claude Code 要求 2.1.139 以上。




# Codex
/goal all tests pass and coverage is above 80%
 
# Claude Code
/goal CHANGELOG.md has an entry for every PR merged this week

Claude Code 還能查看當前 goal 狀態(/goal 不帶參數)和提前結束(/goal clear)。

兩家都支持無頭模式,適合後台跑或接 CI:




codex -p "/goal migrate all axios calls to fetch until no import of axios remains"
claude -p "/goal all TypeScript errors resolved and tsc exits 0"
圖片
圖片

寫在最後

/goal 讓 AI 編程從"你說一句它幹一步"變成了"你說清目標就走開"。2025 年底有人用 bash while-true 循環證明了這條路走得通,半年後兩家正式做成了產品級功能。

兩家跑出來的效果不一樣,跟底層工程方案有關,也跟模型本身的行為模式有關。你手上的任務是哪種性質,就選哪家跑。

Claude Code免費白嫖,參見下方文章

Claude Code 接入免費 Qwen3.6,不花一分錢,Token 隨便造