設個目標讓 AI 自己跑一夜，Codex 和 Claude Code 的 /goal 到底怎麼用

作者：AI智聞說

日期：2026年6月11日下午10:08

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

用 /goal 畀 AI 自己跑一夜：Codex 同 Claude Code 點樣實現，點樣先用得靚

整理版摘要

呢篇文章係講 AI 編程工具嘅 /goal 命令，作者係一個技術寫手，想解答嘅問題係：點樣用一條命令就令 AI 自己不斷重複做嘢直到完成目標，而唔使下下等用人手確認。文章比較咗 Codex 同 Claude Code 兩間公司嘅實現方案，指出雖然功能名一樣，但底層邏輯同實際表現有好大分別。整體結論係：/goal 令 AI 編程從「你講一步佢做一步」進化到「你講個目標就離手」，但要寫得靚嘅終止條件、識得揀啱時機用，否則好易燒好多 token 又做唔到嘢。

Codex 嘅做法係畀模型自己判斷任務完唔完成，透過一個 update_goal(complete) 工具，配合空轉檢測同原生 token 預算控制，唔畀模型自己暫停。Claude Code 就請咗個獨立裁判——每輪完結後用 Haiku 評估條件係咪達到，好處係幹活同判別分開，減少自己呃自己，但缺點係模型成日彈問題問你，令你走唔開。Ralph Loop 呢個 bash while-true 循環係靈感來源，而家已經俾 Anthropic 收編做官方 plugin。

實際使用上，寫條件要有可測量嘅終態、驗證方式同約束，例如「npm test exits 0」。用之前最好手動跑一轉確認可行，配合 auto mode 避免卡喺工具調用，同埋拆成多個細 goal 會更穩定。跑長時間任務消耗唔細，要設預算上限。Codex 適合 6 小時以上埋頭苦幹型任務，Claude Code…

/goal 令 AI 編程從逐輪確認變為目標驅動，省卻中間反覆指示，但要寫好終止條件先得。
Codex 靠模型自己調用 update_goal(complete) 判斷完成，加上空轉檢測同 token 預算，表現係埋頭苦幹唔問人。
Claude Code 用獨立小模型 Haiku 做裁判，每輪評估條件，但模型成日彈問題打斷自動流程，並有上下文壓縮後遺忘問題。
寫條件要包括可測量終態、驗證方式同約束，例如「npm test exits 0」；避免「make the code better」呢類模糊目標。
實際操作建議：先手動跑通，開 auto mode，一個 goal 一個終態，設 token 上限或輪次限制，按任務長短揀工具。

整理重點

/goal 係咩玩法？由 Ralph Loop 講起

/goal 命令嘅核心係改變咗人同 AI 嘅合作模式：以往你講一句佢做一步，而家你畀個終點線，佢自己一輪一輪跑到完先交返控制權。呢個概念嘅前身係 Ralph Loop，一個簡單到好笑嘅 bash while-true 循環，由澳洲開發者 Geoffrey Huntley 喺 2025 年底整出嚟。

Ralph Loop 個邏輯就係反覆將同一段 prompt 餵畀 AI，等佢睇住上一輪改過嘅文件繼續做，直至任務完成。

Huntley 原話：「Ralph is a Bash loop.」但就係咁簡單嘅嘢，有人喺 Y Combinator hackathon 一夜跑出 6 個倉庫，亦有人用 297 美元 token 費完成咗 5 萬美元嘅合同。而家 Anthropic 已經將 Ralph 收編做 Claude Code 官方 plugin。

整理重點

Codex 同 Claude Code 實現大不同

兩家雖然都叫 /goal，但底層思路完全唔同。Codex 嘅做法係將判斷權交畀模型本身：模型有一個叫 update_goal(complete) 嘅工具，佢覺得做曬就 call 呢個工具標記完成。系統仲設計咗限制——模型唔可以暫停或恢復 goal，全部由系統控制；另外如果某一輪模型淨係 chat 冇 call 任何工具，系統會抑制下一次自動續跑，避免空轉燒 token。

Codex 呢種設計係有意唔畀模型自己話「太難我歇嚇」

Claude Code 就請咗個獨立裁判：每輪完結後，系統將你設嘅條件同當前對話 pack 畀一個小快模型（預設係 Haiku），由佢判斷係咪達到條件。如果未達到，就將判斷理由作為下一輪引導；達到就清除 goal。好處係幹活同判別分開，唔會出現自己做完順手打勾嘅情況。

Claude Code 用 Haiku 做評估，等於請咗個唔識偷懶嘅監工

其他分別仲包括：Codex 用 SQLite 做持久化，斷咗線可以續返；Claude Code 係 session 級，恢復時輪次同 token 統計會重置。Codex 有原生 token_budget 字段做預算控制，Claude Code 就要喺條件文字入面自己寫「30 輪後停止」。

Codex：上線 2026-04-30（0.128.0），由模型判斷完成，持久化強，有空轉檢測
Claude Code：上線 2026-05-12（2.1.139），由獨立小模型評估，持久化弱，易請示
Codex 預算控制原生，Claude Code 要靠文字約束

整理重點

點樣寫條件先跑到終點？同埋注意啲咩

/goal 成唔成功，條件寫得好唔好佔一大半。好條件通常有呢三個要素：一個可測量嘅終態（例如測試全過、構建退出碼為 0）、一個明確嘅驗證方式（AI 點樣證明做到，例如「運行 npm test 且退出碼為 0」）、同埋約束（過程中唔準改啲咩文件）。

好例子：/goal npm test exits 0 with no skipped tests

壞例子就好似「make the code better」，呢啲模糊目標評估模型根本睇唔明，結果永遠唔停或者隨便停。實用技巧係喺條件加個剎車，例如「stop after 30 turns」，咁就唔怕燒到天光。

1 記得搭 auto mode：/goal 只免除輪與輪之間嘅確認，但每一輪入面嘅工具調用仲要彈框，唔開 auto mode 一樣卡住。
2 一個 goal 一個終態：塞太多條件（例如「測試通過 AND 覆蓋率 > 80% AND 文檔更新」）會令模型卡死循環，拆成幾個細 goal 更穩。
3 對花費有預期：跑幾個鐘嘅 goal 消耗幾十美元好正常，Codex 可以用 token_budget 設硬上限，Claude Code 建議喺條件寫明輪次上限。

實際跑嘅體驗方面，Codex 埋頭幹唔問人，上下文壓縮後恢復得唔錯；Claude Code 開局雖然有宏觀規劃，但跑一陣就會彈問題問你，有時仲會主動話目標太大然後 fail。呢啲分別同兩家嘅工程方案同模型行為模式有關，揀邊隻用要睇任務性質。

兩間幾乎同一時間加入咗 /goal 指令，但係工程方案完全唔同——一個俾模型自己判斷完成，另一個就專登請咗個裁判。

以前用 AI 寫 code，你講一句，佢做一步，你再講一句，佢再做一步。每輪都要你確認、要你催促。

而家變咗。Codex 4 月底加咗 /goal，Claude Code 5 月中都加咗。你俾佢設定一個終點線，行開，佢自己一輪一輪繼續跑，直到條件滿足先停低還返控制權俾你。

功能一樣，但實際跑起上嚟差距大到令人懷疑兩間公司做嘅係咪同一樣嘢。

/goal 做啲乜嘢

傳統模式之下，AI 每完成一輪就會停低等你下一句指令。/goal 改咗呢個規則：

你設定一個終止條件，AI 每輪結束之後自己判斷條件係咪滿足。唔滿足嘅話，自動開始下一輪；滿足咗，就停。

適合嘅任務有個共通點——最終狀態可以驗證：

將一個模組嘅所有 API 呼叫搬去新版本，直到編譯通過、測試通過

按照設計文件實現功能，直到所有驗收條件滿足

拆大檔案做細模組，直到每個檔案都喺預算之內

清曬 issue 積壓，直到隊列變空

唔適合嘅：需要成日人工判斷方向嘅探索性工作，或者 5 分鐘搞得掂嘅小嘢。

前身：Ralph Loop

/goal 嘅精神前身叫 Ralph Loop，個名嚟自《阿森一族》入面嘅角色 Ralph Wiggum。

2025 年底，澳洲開發者 Geoffrey Huntley 整咗呢個嘢。核心邏輯簡單得有啲掃興——就係一個 bash 嘅 while-true loop，重複將同一個 prompt 檔案餵俾 AI agent，等佢睇到自己上一輪改過嘅檔案，繼續做，直到任務完成。Huntley 原話："Ralph is a Bash loop."

社區有人用佢做咗唔少嘢。根據 Ralph 官方 plugin 文件記載：Y Combinator hackathon 上面有人一晚跑出 6 個 repo；有個價值 5 萬美金嘅合約，最終 API 使費得 297 美金。Huntley 自己用咗 3 個月整咗一門實驗性編程語言（佢自己叫佢做"cursed"）。

而家 Anthropic 已經將 Ralph 吸納做官方 Claude Code plugin，放咗喺 plugins/ralph-loop/ 目錄下面。

/goal 喺 Ralph 嘅基礎上主要加咗三樣嘢：

自動終止判斷——唔再係死 loop，有條件判斷幾時應該停

預算控制——Codex 有原生嘅 token 預算字段，set 咗上限就會自動停；Claude Code 就需要你喺條件文字入面手寫"30 輪後停止"呢類約束

斷點續跑——Codex 係 SQLite 級別嘅完整持久化，中斷咗重新入 thread 就會繼續跑；Claude Code 恢復時條件仲喺度，但係輪次計數同 token 統計會重置，相當於由頭計起

兩間係點實現嘅

同樣叫 /goal，底層思路唔一樣。

Codex：模型自己判斷完成。

Codex 俾模型暴露咗一個工具叫做 update_goal(complete)——模型覺得做完咗，就 call 呢個工具將 goal 標記為完成。但係模型唔可以暫停或者恢復 goal，呢啲由系統控制（例如你撳 Ctrl+C 就暫停，重新入 thread 就自動恢復）。呢個係刻意咁樣設計——唔俾模型自己決定"太難啦我唞一陣"。

防空轉都做咗：如果某一輪自動續跑期間 AI 無 call 任何工具，只係傾偈，系統就會抑制下一次自動續跑，避免原地打圈燒 token。

Claude Code：請咗個獨立裁判。

Claude Code 嘅做法唔一樣。每輪結束之後，系統將你設定嘅條件同當前對話 send 俾一個快啲嘅細模型（預設係 Haiku），由佢判斷條件係咪滿足。回"否"就同 Claude 講繼續做，將判斷理由做下一輪嘅引導；回"是"就清除 goal。

好處係"做嘢嘅"同"判完未"嘅唔係同一個模型——唔會自己做完成就順便俾自己打剔。Codex 嗰邊靠工程約束（模型唔可以暫停自己 + 空轉檢測）嚟制衡，思路唔同但都唔係完全無剎車。

核心差異一覽：

維度	Codex	Claude Code
上線	2026-04-30（0.128.0），05-21 轉正	2026-05-12（2.1.139），直接穩定版
邊個判斷完成	模型自己 call `update_goal(complete)`	獨立細模型（Haiku）做評估
持久化	SQLite thread 級，斷咗可以續	Session 級，恢復時計數重置
預算控制	原生 token_budget 字段	條件入面寫文字約束，由評估模型判斷
暫停/恢復	Ctrl+C 暫停，resume 自動激活	`/goal clear` 清除
防空轉	連續空轉自動停	文件未明確提及類似機制
默認上下文窗口	400K（GPT-5.5）	1M

條件要點樣寫先至跑到終點

/goal 能否跑到終點，條件寫得好唔好佔咗一大半。

好條件通常有三個要素：

一個可以量度嘅最終狀態——測試全部通過、build 嘅 exit code 係 0、某個 queue 係空

一個明確嘅驗證方式——AI 點樣證明做到咗，例如"執行" npm test 而且 exit code 係 0"

約束——過程中乜嘢唔鬱得，例如"唔改 src/auth/ 以外嘅檔案"

好例子：

/goal npm test exits 0 with no skipped tests, and eslint reports zero errors. Do not modify any file outside src/auth/

壞例子：

/goal make the code better

"better"無辦法判斷。評估模型睇唔明乜嘢叫"更好"，結果一係永遠唔停，一係隨便停。

仲有個實用技巧——喺條件入面加個剎車：

/goal all acceptance criteria in DESIGN.md are met, or stop after 30 turns

咁樣就算任務比預期複雜，都唔會無限燒 token。

跑 /goal 嘅幾個注意事項

用過一段時間之後，有幾個容易中招嘅地方：

1. 記得搭配 auto mode。

/goal 免除嘅係"輪與輪之間"嘅手動確認。但係每一輪入面，AI 要讀檔案、寫檔案、執行指令，呢啲工具 call 預設係要彈確認框嘅。如果你唔開 auto mode（或者 Codex 嘅 full-auto），goal 跑跑嚇彈個"允許寫呢個檔案嗎"——一樣會卡住等你。

所以實際操作上 /goal 基本上都係配合自動批准權限一齊用。

2. 先手動跑通一次先 set goal。

唔好第一次做某個任務就直接 /goal。先手動跑一輪，確認 AI 理解到任務、路徑可行、唔會喺第一步就卡死。跑通咗之後再 set goal 等佢重複或者擴展，成功率高好多。

3. 一個 goal 一個最終狀態，唔好塞太多目標。

"測試通過 AND 覆蓋率 > 80% AND 文檔更新 AND 類型檢查通過"——塞太多條件，模型容易喺中間某步反覆卡死 loop。拆成多次 /goal 更穩陣：先跑通測試，再跑覆蓋率，再跑文檔。

4. 對使費要有個預期。

長時間 /goal 嘅 token 消耗唔低。一個跑幾個鐘嘅 goal，消耗幾十美金好正常。Codex 可以 set token_budget 硬上限；Claude Code 建議喺條件入面寫明輪次上限，避免唔記得之後賬單嚇親。

實際跑出嚟係點樣

下面呢啲體驗主要嚟自社區入面幾個長期跑 /goal 嘅開發者實測，唔係官方數據，之後嘅版本可能會變——但係暫時大家反饋嘅感覺都幾一致：

Codex 跑起上嚟嘅表現：埋頭做，唔問人，唔放棄。

跑 /goal 嘅時候，Codex 幾乎唔會 interrupt 你。唔會彈出嚟問"你想要方案 A 定係方案 B"，自己判斷繼續行。

上下文壓縮之後恢復得唔錯。長任務跑得耐，對話歷史越來越長，差唔多塞爆上下文窗口時，系統會自動壓縮舊內容騰出空間。壓縮完 Codex 基本上可以接返上一輪嘅狀態繼續推進，唔會突然唔記得之前做緊乜。

卡住咗會轉角度。遇到一個方向行唔通，佢唔會直接報告"目標無法實現"，而係轉個思路再試，直到 token 預算燒曬先停。有人測試過成晚跑三個獨立 /goal session，朝早起身大部分仲喺度正常推進。

Claude Code 跑起上嚟嘅表現：開局華麗，但係鍾意請示。

Claude Code 一開始 /goal 就睇得出佢思路更宏觀——先列計劃，將大任務拆成細塊分配俾並行嘅子助手一齊做，做全局協調。開局睇落確實好勁。

但係跑跑嚇問題就嚟啦。

佢會彈出嚟問你揀。"呢個 interface 有兩種實現方式，你傾向邊個？"平時呢個係優點，表示佢喺度對齊你嘅意圖。但係喺 /goal 模式下呢個變咗障礙——你 set goal 嘅目的就係行開唔理，佢一彈問題你就返嚟睇住。

佢有時跑咗冇耐就主動話你知"呢個目標太大，當前 session 完成唔到"，然後真係 fail 咗。

上下文壓縮之後資訊流失比較明顯。之前列嘅計劃、已經排除嘅方案，壓縮完佢可能會唔記得，要重新摸索。不過 Claude Code 嘅默認上下文窗口係 1M，比 Codex 默認嘅 400K 大唔少，壓縮觸發頻率本身就低啲。

補充返個背景：Claude Code 嘅部分"惰性"同 Opus 4.7 嘅一個已知 regression 有關。2026 年 4 月 16 日 Opus 4.7 發佈時，Anthropic 喺系統 prompt 入面加咗"reduce verbosity"指令，無意中拖累咗編碼質量，4 日後回滾咗，但係社區反饋未有完全恢復。所以上面呢啲感受唔一定係永久嘅。

場景選擇：

6 個鐘以上嘅長跑任務，目標明確，唔需要成日判斷方向 → Codex

1-2 個鐘嘅任務，需要架構判斷力同跨模組協調 → Claude Code（每 30-60 分鐘睇一次）

單個需要全局視野嘅難題 → Claude Code 普通模式，唔用 /goal

上手指南

兩間嘅用法幾乎一樣：入 interactive mode 之後打 /goal 加上終止條件就得。Codex 要求 0.133.0 以上版本（呢個版本 /goal 正式轉正），Claude Code 要求 2.1.139 以上。

# Codex

/goal all tests pass and coverage is above 80%

# Claude Code

/goal CHANGELOG.md has an entry for every PR merged this week

Claude Code 仲可以睇當前 goal 狀態（/goal 唔帶參數）同提前結束（/goal clear）。

兩間都支援 headless mode，適合背景跑或者接 CI：

codex -p "/goal migrate all axios calls to fetch until no import of axios remains"

claude -p "/goal all TypeScript errors resolved and tsc exits 0"

寫喺最後

/goal 令 AI 編程由"你講一句佢做一步"變成咗"你講清楚目標就行開"。2025 年底有人用 bash while-true loop 證明咗呢條路行得通，半年之後兩間正式做咗產品級功能。

兩間跑出嚟嘅效果唔一樣，同底層工程方案有關，亦同模型本身嘅行為模式有關。你手頭上嘅任務係邊種性質，就揀邊間跑。

Claude Code 免費白嫖，參閲下面文章

Claude Code 接入免費 Qwen3.6，唔使花一分錢，Token 任你用

兩家幾乎同時加了 /goal 命令，工程方案卻完全不同——一個讓模型自己判斷完成，另一個專門請了個裁判。

以前用 AI 寫代碼，你說一句，它幹一步，你再說一句，它再幹一步。每一輪都要你確認、要你催。

現在變了。Codex 4 月底加了 /goal，Claude Code 5 月中也加了。你給它設一個終點線，走開，它自己一輪一輪往下跑，直到條件滿足才停下來還你控制權。

功能一樣，實際跑起來差距大到讓人懷疑兩家做的是不是一回事。

/goal 乾的是什麼事

傳統模式下，AI 每完成一輪就停下來等你的下一條指令。/goal 改了這個規則：

你設一個終止條件，AI 每輪結束後自己判斷條件是否滿足。不滿足，自動開下一輪；滿足了，停。

適合的任務有個共同點——終態可驗證：

把一個模塊的所有 API 調用遷移到新版，直到編譯通過、測試通過

按設計文檔實現功能，直到所有驗收條件滿足

拆大文件成小模塊，直到每個文件都在預算內

清 issue 積壓，直到隊列為空

不適合的：需要頻繁人工判斷方向的探索性工作，或者 5 分鐘能搞定的小活。

前身：Ralph Loop

/goal 的精神前身叫 Ralph Loop，名字來自辛普森動畫裏的角色 Ralph Wiggum。

2025 年底，澳洲開發者 Geoffrey Huntley 搞了這麼個東西。核心邏輯簡單得有點掃興——就是一個 bash 的 while-true 循環，反覆把同一個 prompt 文件餵給 AI agent，讓它看到自己上一輪改過的文件，接着幹，直到任務完成。Huntley 原話："Ralph is a Bash loop."

社區有人拿它幹了不少活。據 Ralph 官方 plugin 文檔記載：Y Combinator hackathon 上有人一夜跑出 6 個倉庫；有個價值 5 萬美元的合同最終 API 花費只有 297 美元。Huntley 自己花 3 個月造了一門實驗性編程語言（他自己稱之為"cursed"）。

現在 Anthropic 已經把 Ralph 吸收為官方 Claude Code plugin，放在 plugins/ralph-loop/ 目錄下。

/goal 在 Ralph 的基礎上主要加了三樣東西：

自動終止判斷——不再是死循環，有條件判斷什麼時候該停

預算控制——Codex 有原生的 token 預算字段，設了上限就自動停；Claude Code 需要你在條件文字裏手寫"30 輪後停止"這種約束

斷點續跑——Codex 是 SQLite 級的完整持久化，中斷了重新進線程就接着跑；Claude Code 恢復時條件還在，但輪次計數和 token 統計會重置，相當於從頭算起

兩家怎麼實現的

同樣叫 /goal，底層思路不一樣。

Codex：模型自己判斷完成。

Codex 給模型暴露了一個工具叫 update_goal(complete)——模型覺得幹完了，就調這個工具把 goal 標記為完成。但模型不能暫停或恢復 goal，這些由系統控制（比如你按 Ctrl+C 就暫停，重新進線程就自動恢復）。這是故意這麼設計的——不讓模型自己決定"太難了我歇一會兒"。

防空轉也做了：如果某一輪自動續跑中 AI 沒調用任何工具，只是在聊天，系統就抑制下一次自動續跑，避免原地打轉燒 token。

Claude Code：請了個獨立裁判。

Claude Code 的做法不一樣。每輪結束後，系統把你設的條件和當前對話發給一個小快模型（默認是 Haiku），由它來判斷條件是否滿足。返回"否"就告訴 Claude 繼續幹，把判斷理由作為下一輪引導；返回"是"就清除 goal。

好處是"幹活的"和"判完沒"的不是同一個模型——不會自己幹完就順手給自己打勾。Codex 那邊靠工程約束（模型不能暫停自己 + 空轉檢測）來制衡，思路不同但也不是完全沒有剎車。

核心差異一覽：

維度	Codex	Claude Code
上線	2026-04-30（0.128.0），05-21 轉正	2026-05-12（2.1.139），直接穩定版
誰判斷完成	模型自己調 `update_goal(complete)`	獨立小模型（Haiku）做評估
持久化	SQLite 線程級，斷了能續	Session 級，恢復時計數重置
預算控制	原生 token_budget 字段	條件裏寫文字約束，由評估模型判斷
暫停/恢復	Ctrl+C 暫停，resume 自動激活	`/goal clear` 清除
防空轉	連續空轉自動停	文檔未明確提及類似機制
默認上下文窗口	400K（GPT-5.5）	1M

條件怎麼寫才能跑到終點

/goal 能不能跑到終點，條件寫得好不好佔了一大半。

好條件通常有三個要素：

一個可測量的終態——測試全過、構建退出碼為 0、某個隊列為空

一個明確的驗證方式——AI 怎麼證明做到了，比如"運行 npm test 且退出碼為 0"

約束——過程中什麼不能動，比如"不改 src/auth/ 以外的文件"

好例子：

/goal npm test exits 0 with no skipped tests, and eslint reports zero errors. Do not modify any file outside src/auth/

壞例子：

/goal make the code better

"better"沒法判斷。評估模型看不懂什麼叫"更好"，結果要麼永遠不停，要麼隨便停。

還有個實用技巧——在條件里加個剎車：

/goal all acceptance criteria in DESIGN.md are met, or stop after 30 turns

這樣即使任務比預期複雜，也不會無限燒 token。

跑 /goal 的幾個注意事項

用過一段時間之後，有幾個容易踩到的地方：

1. 記得搭配 auto mode。

/goal 免除的是"輪與輪之間"的手動確認。但每一輪裏面，AI 要讀文件、寫文件、跑命令，這些工具調用默認還是要彈確認框的。如果你不開 auto mode（或者 Codex 的 full-auto），goal 跑着跑着彈個"允許寫這個文件嗎"——照樣卡住等你。

所以實操中 /goal 基本都是配合自動批准權限一起用的。

2. 先手動跑通一次再設 goal。

不要第一次幹某個任務就直接 /goal。先手動跑一輪，確認 AI 能理解任務、路徑可行、不會在第一步就卡死。跑通了之後再設 goal 讓它重複或擴展，成功率高很多。

3. 一個 goal 一個終態，別塞太多目標。

"測試通過 AND 覆蓋率 > 80% AND 文檔更新 AND 類型檢查通過"——塞太多條件，模型容易在中間某步反覆卡死循環。拆成多次 /goal 更穩：先跑通測試，再跑覆蓋率，再跑文檔。

4. 對花費有個預期。

長時間 /goal 的 token 消耗不低。一個跑幾小時的 goal，消耗幾十美元很正常。Codex 可以設 token_budget 硬上限；Claude Code 建議在條件裏寫明輪次上限，避免忘了之後賬單嚇一跳。

實際跑出來什麼樣

下面這些體驗主要來自社區裏幾個長期跑 /goal 的開發者的實測，不是官方數據，後續版本可能會變——但目前大家反饋的感覺挺一致：

Codex 跑起來的表現：埋頭幹，不問人，不放棄。

跑 /goal 的時候，Codex 幾乎不中斷你。不會彈出來問"你想要方案 A 還是方案 B"，自己做判斷往下走。

上下文壓縮後恢復得不錯。長任務跑久了，對話歷史越來越長，快把上下文窗口撐滿時，系統會自動壓縮舊內容騰空間。壓縮完 Codex 基本能接着上一輪的狀態繼續推進，不會突然忘了之前在幹什麼。

卡住了會換角度。碰到一個方向走不通，它不會直接報告"目標無法實現"，而是換個思路再試，直到 token 預算燒完才停。有人測試過整夜跑三個獨立 /goal session，早上起來大部分還在正常推進。

Claude Code 跑起來的表現：開局華麗，但愛請示。

Claude Code 一啓動 /goal 就能看出它思路更宏觀——先列計劃，把大任務拆成小塊分配給並行的子助手同時幹，做全局協調。開局看着確實猛。

但跑着跑着問題來了。

它會彈出來問你做選擇。"這個接口有兩種實現方式，你傾向哪個？"平時這是優點，說明它在對齊你的意圖。但在 /goal 模式下這變成了障礙——你設 goal 的目的就是走開不管，它一彈問題你就得回來盯着。

它有時候跑了沒多久就主動告訴你"這個目標太大了，當前 session 完成不了"，然後真的 fail 了。

上下文壓縮後信息丟失比較明顯。之前列的計劃、已經排除的方案，壓縮完它可能就忘了，要重新摸索。不過 Claude Code 的默認上下文窗口是 1M，比 Codex 默認的 400K 大不少，壓縮觸發頻率本身就低一些。

補充一個背景：Claude Code 的部分"惰性"跟 Opus 4.7 的一個已知迴歸有關。2026 年 4 月 16 日 Opus 4.7 發佈時，Anthropic 在系統提示詞里加了"reduce verbosity"指令，無意中拖累了編碼質量，4 天后回滾了，但社區反饋沒完全恢復。所以上面這些感受不一定是永久的。

場景選擇：

6 小時以上的長跑任務，目標明確，不需要頻繁判斷方向 → Codex

1-2 小時的任務，需要架構判斷力和跨模塊協調 → Claude Code（每 30-60 分鐘看一眼）

單個需要全局視野的難題 → Claude Code 普通模式，不用 /goal

上手指南

兩家的用法幾乎一樣：進交互模式後敲 /goal 加上終止條件就行。Codex 要求 0.133.0 以上版本（這個版本 /goal 正式轉正），Claude Code 要求 2.1.139 以上。

# Codex

/goal all tests pass and coverage is above 80%

# Claude Code

/goal CHANGELOG.md has an entry for every PR merged this week

Claude Code 還能查看當前 goal 狀態（/goal 不帶參數）和提前結束（/goal clear）。

兩家都支持無頭模式，適合後台跑或接 CI：

codex -p "/goal migrate all axios calls to fetch until no import of axios remains"

claude -p "/goal all TypeScript errors resolved and tsc exits 0"

寫在最後

/goal 讓 AI 編程從"你說一句它幹一步"變成了"你說清目標就走開"。2025 年底有人用 bash while-true 循環證明了這條路走得通，半年後兩家正式做成了產品級功能。

兩家跑出來的效果不一樣，跟底層工程方案有關，也跟模型本身的行為模式有關。你手上的任務是哪種性質，就選哪家跑。

Claude Code免費白嫖，參見下方文章

Claude Code 接入免費 Qwen3.6，不花一分錢，Token 隨便造