OpenAI Codex 是最好的 Agent 嗎？為什麼它比 Claude Code 更強？Google 為什麼又不行了？OpenClaw 是個人 Agent 的未來嗎？

作者：AI 啓蒙小夥伴

日期：2026年5月7日下午11:50

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

OpenAI Codex 逆襲成超級應用，個人 Agent 與 Computer Use 將改寫工作方式

整理版摘要

呢篇文章係基於兩位知名 AI 開發者 Riley Brown 同 Micky 長達 80 分鐘嘅深度討論，佢哋分析咗 Cursor、Claude Code、Codex 同 OpenClaw 等 AI 編碼工具嘅發展，並得出 2026 年係 AI Agent 爆發年嘅共識。成個討論嘅主線係：Anthropic 曾經靠「快」搶佔市場感知，但產品層分裂；OpenAI 經過組織調整後重新聚焦 Codex，迅速反超，成為集編碼與知識工作於一身嘅「超級應用」。而 OpenClaw 則代表另一條路——「個人 Agent」，以主動式、常駐運行嘅方式幫用戶處理日常事務。

整體結論有幾個層次：第一，模型層正趨向同質化，競爭重點轉移到上層嘅 GUI、上下文管理、工具整合同支付功能。第二，超級應用（如 Codex）同個人 Agent（如 OpenClaw）係兩種不同範式，唔會互相取代，而會長期共存。第三，Computer Use（電腦操控）同 Agentic Payments（代理支付）係接下來 12 個月最重要嘅兩塊拼圖，令 Agent 從「建議者」變成真正能完成任務嘅「行動者」。最後，兩位作者強調：知識工作嘅產能曲線正被整體抬升，而令呢一切成真嘅關鍵，係你用語音精準表達需求嘅能力、你嘅行業素養，同埋你為自己量身定製工作流嘅能力。

2026 年係 AI Agent 年，OpenAI Codex 重新聚焦後成為集編碼與知識工作於一身嘅超級應用，反超 Anthropic。
Anthropic 靠高速迭代贏得圈外感知，但產品分裂（Claude Code、Cowork、Routines 等各自獨立）削弱咗圈內體驗。
個人 Agent（如 OpenClaw）代表主動式、常駐運行嘅範式，有完整電腦權限、記憶檔案及 Heartbeat 機制，能主動推送資訊。
Computer Use 同 Agentic Payments 係下一關鍵突破：模型開始學習使用電腦，並能自主花錢（如 Stripe 為 Agent 發行嘅信用卡）。
實用建議：用語音代替打字、先跑通一次任務再壓縮成 Skill 、用外部服務（如 Super Memory）存放記憶，並保持 6-7 分行業素養以撬動 AI 能力。

整理重點

Anthropic 與 OpenAI 嘅角色互換

2026 年初，Anthropic 憑藉 Claude Code、Claude Co-work 等一連串新功能搶佔公眾眼球，Instagram 上充滿「Claude 係 10x 業務秘密武器」嘅內容，連非科技圈嘅教師朋友都開始提起。但兩位作者指出，呢種「贏」主要係 PR 層面，一旦深入使用就會發現產品功能高度重疊——Claude Code 同 Claude Cowork 要做嘅事差唔多，但要分別學習；Routines、Schedule、Dispatch 等名稱散落喺不同入口，上下文共享都成問題。佢哋形容呢種狀況係「不同團隊各自用 Claude Code 刷出新功能再合併，缺少統一體驗設計」。

作者用一句話總結：「OpenAI 在認真傾聽圈內人，Anthropic 在管理圈外感知。」圈外感知雖然有利融資，但圈內反饋直接決定產品生死。

整理重點

超級應用 vs 個人 Agent：兩種範式

Riley 提出一個清晰嘅二分法：超級應用係反應式嘅——你打開佢、同佢傾、叫佢做嘢；個人 Agent 係主動式嘅——佢持續運行，主動 push 資訊俾你。前者嘅代表係 Codex，後者嘅代表係 OpenClaw。自己日常已經幾乎唔再開 ChatGPT 或 Claude 網頁版，只係用 iMessage 同 OpenClaw 傾，再用 Codex 處理需要合作嘅任務。

一個好員工嘅標誌係「agency」——唔需要事事被指派，會主動帶嚟價值。而家嘅 OpenClaw 仲未完全做到，但已經有呢種潛力。

OpenClaw 嘅核心突破係將「完整電腦控制權限」、「頻道接收訊息」、「Personality file」同「Heartbeat（心跳機制）」第一次組合。Heartbeat 每隔約 15 分鐘自動喚起 Agent，掃描所有上下文，決定係咪要主動聯絡你。呢個機制令佢從「被動響應工具」變成「持續運行嘅同事」。Riley 分享咗一個具體工作流：所有商務合作郵件由 Agent 先驗真（篩選域名、反查 Reddit 口碑）、調研（融資額、粉絲數），再代發第一封報價郵件，只有到價格談判階段佢本人先介入。呢個流程以前每日要用 1.5-2 小時，Agent 做埋之後，佢早上只係睇一份「晨報」就得。

整理重點

Computer Use 與 Agentic Payments：下一塊拼圖

Computer Use 係 2026 年 Q1 模型層最明顯嘅提升方向。Opus 4.7 顯著加強咗呢個能力，模型可分析嘅圖像分辨率提升到接近實體屏幕尺寸——呢個唔係巧合，係為咗「睇清自己面前嘅電腦」。工作機制仲係好樸素：截圖 → 餵模型 → 判斷點擊位置 → 操作 → 再截圖。所以而家仲係慢，但會持續加速。

模型已經開始「為自己寫代碼」，即係 self-healing harness，呢個係從工具使用者走向工具製造者嘅迭代起點。

如果 Computer Use 解決「Agent 點操作電腦」，咁 Agent 點花錢就係下一個大解鎖。Stripe 喺最新一屆 Stripe Sessions 推出「為 Agent 發行嘅卡」，綁定公司卡，Agent 付款時可以向人確認，或者關閉確認全自動。額度即風險控制——你唔會俾 100k 信用額度嘅 Amex 俾 Agent，但會願意俾張每週限額 2000 美元嘅卡。呢個變化解鎖大量自動化場景：辦公室補貨、公司訂餐津貼、出差訂機票等。

1 Stripe 推出 Agent 專用卡，額度與風險控制分離。
2 X402 協議（HTTP 形式嘅 Agent 友好支付請求）同加密賽道嘅回歸，預示碎片化協議時期，今年核心係誰能統一標準。
3 大量初創湧入：Cross Mint、Natural Pay、agentcard.sh 等。

整理重點

實用建議：點樣用好 AI Agent？

語音打字比打字更有效：Whisperflow 之類工具嘅槓桿來自「令你能更細緻表達需求」，唔係偷懶。

作者從模型本質出發：模型係 next token predictor，唔係思考者；你寫下嘅英文或中文精準度，就係輸出質量嘅上限。所以要提升輸出質素，可以考慮以下做法。

用語音代替打字，因為大部分人講清楚一件事比寫清楚快。
確保自己有基本行業素養——AI 將「6-7 分通才」變成超能力者，但純外行依然喺外面。
唔好餵無用上下文：agent.md 唔需要寫「呢個係 React 項目」，模型讀文件就知。Skill 文件只應承載領域專長同特有工作流。
唔好買 100 個 skill 包：網上平價賣嘅 skills 多數互相沖突、甚至帶病毒。真正有價值係為自己量身打造一個 skill 嘅能力。
反向工作流：先做一次任務等結果合格，之後讓 Agent 覆盤成個過程，壓縮成一個 skill；之後遞歸運行，再讓 Agent 自己更新 skill 修復小坑——邊做邊寫 SOP。

Codex 嘅 Chronicle 功能：每隔幾秒截屏一次，將屏幕狀態作為後續對話嘅隱式上下文，等你再打字時已知道你睇過乜。

上下文管理方面，Riley 認為最佳協作模式係一個主 Agent（orchestrator）+ 可派發嘅子 Agent，而且只同主 Agent 對話。佢試過多 orchestrator 結構，效果反而唔好——可能模型層仲未準備好。佢補充：模型仲喺快速進化，今日最優嘅架構未必係 6 個月後最優。

記憶嘅歸屬問題：建議用 Super Memory 呢類外部服務，將記憶存喺雲端圖結構，咁樣換實例、換部署時記憶仲喺度。

整理重點

終局判斷：Agent 嘅下一步

Google 嘅困境係組織問題，唔係技術問題：模型層唔落下風，但 tool calling 同 Computer Use 表現差；內部團隊信息稀疏，產品矩陣（Gemini、NotebookLM、AI Studio 等）各自獨立。作者認為 Google 距離追上一線只差一次模型訓練加一次組織鬆綁。

知識工作嘅產能曲線正被整體抬升一個台階：27 頁合同，律師報價四位數美金，Claude 逐頁指出 gotcha 條款；朋友用 Claude Max 處理公司賬務，會計反問「你有 CPA 經驗？」

內容創作方面，教程已經幾乎死咗，人格仲活着。真正贏緊嘅創作者係 Theo、Primagen 呢類「邊幹活邊聊天、有強烈人格、有真實觀點」嘅人。AI 拉低硬技能門檻，人格成為最重要嘅差異化。

Codex 係最新嘅最佳 AI 編碼工具（原因如下）

來自兩位知名 AI 開發者同博主 Riley Brown 同 Micky 嘅 80 分鐘深度討論 Codex 係最新嘅最佳 AI 編碼工具（原因如下），分析咗包括 Cursor、Claude Code、Codex 同 OpenClaw、Hermes Agent 等各種 AI Agents 嘅發展同對比。

可以見到 Codex，特別係 Codex App 係點樣喺短短幾個月內逆襲，成為由 Coding Agent 到 Codex for (almost) everything 嘅過程。

https://www.youtube.com/watch?v=FU2iB-UfPPA

開場判斷：2026 係 AI Agent 嘅一年

兩位作者一開口就畀出一個共識——2026 年係 AI Agent 嘅一年。僅僅四個月，行業就出現咗三個標誌性事件：

Peter 嘅開源項目 OpenClaw 成為史上增長最快嘅開源軟件，甚至帶動 Mac Mini 一度脱銷，加拿大多倫多嘅等貨週期長達三個月；
Anthropic 喺短時間內推出咗超過 50 個新功能，圍繞 Claude 桌面端構建咗一整 set 產品體系；
OpenAI 推出 Codex，而且正在快速變成「vibe coding 與知識工作嘅最佳平台」；
xAI（SpaceX）以一種「先注資 100 億、再可按 600 億美金收購」嘅結構，半收購咗 Cursor。

佢哋將過去四個月斬成兩段：Q1 屬於 Anthropic，但由 3 月底、4 月起，OpenAI 明顯反超返狀態。呢條主線貫穿咗成集嘅討論。

Anthropic 嘅強勢與隱憂：靠「快」贏得感知，但產品層散

喺兩位作者睇嚟，Anthropic 嘅 Q1 係「教科書級別」嘅：由 1 月 10 日發佈 Claude Co-work 起，幾乎每日都出新嘢。Instagram 上出現咗大量「Claude 係 10x 你業務嘅秘密武器」嘅內容，連佢哋身邊嘅教師朋友都開始講 Claude Cowork。喺大眾感知上，Anthropic 係贏家——而且係數量級意義上嘅贏家。

但佢哋認為，呢種「贏」主要係 PR 層面、對融資極其有利，對應「圈外感知」。一旦返到圈內嘅實際使用，問題就暴露咗：

Claude Code 同 Claude Cowork 喺能力上高度重合，但被拆成兩套唔同嘅產品同概念，用戶必須分開學習；
「Routines」、「Schedule」、「Dispatch」、「Remote」——呢啲功能幾乎做緊同一件事，但散落喺唔同入口；
Claude Design 只喺網頁端，要將成果導入 Claude Code 居然需要「複製後拖拽」，會話上下文都唔共享；
Claude App 本身間唔中刷新就崩、上下文丟失嘅情況。

佢哋嘅判斷係：Anthropic 內部好可能係唔同團隊各自用 Claude Code 「刷」出新功能再合併入產品，缺乏統一嘅體驗設計。呢個同外界見到嘅「高速迭代敍事」形成強烈反差。

OpenAI 嘅反轉：由「攤得太開」到「集中火力做超級應用」

上年嘅 Dev Day 上，OpenAI 一次過推出 Agents、Zapier 殺手、拖拽工作流等多條線，被作者評價為「幾乎零真實用戶」。但喺 2026 年初嘅某次組織調整中，OpenAI 公開宣佈重新聚焦——將資源集中到 Codex 同「超級應用（super app）」，砍咗 Sora2，將 Atlas、GPT Image 等能力都收攏返同一條主線。

於是局勢出現咗反轉：Anthropic 做緊以前嘅 OpenAI（鋪得太開），OpenAI 做緊以前嘅 Anthropic（聚焦）。

Codex 被兩人推到好高，原因係佢將「編碼」同「知識工作」放咗喺同一個外殼裏面：

設置入面有「Coding / 普通工作」兩種視圖，底層能力一致，只係將 git worktree 呢類術語對非工程師隱藏；
喺內置瀏覽器裏面直接打開 Twitter 等站點（雖然登錄態仲未持久化）；
側邊欄嘅多任務/多線程切換，令用戶用 Whisperflow 直接講嘢就可以開新任務、生成新文檔、新表格、新 Excalidraw 圖。

佢哋用一句話總結咗 OpenAI 當下嘅策略選擇：「OpenAI 喺認真傾聽圈內人，Anthropic 喺管理圈外感知。」 圈外嘅感知會帶嚟融資，但圈內人嘅反饋直接決定產品。

我嘅 Codex 資源分享

OpenAI Codex App 完全入門指南（5月最新版）：睇呢篇就夠 + 7 天上手實戰計劃 + Cursor/Claude Code 平滑遷移教程

OpenAI Codex 完整入門指南：對照 Claude Code 逐項拆解，執行模式、上下文工程、內置終端/瀏覽器、Computer Use 一文學完

OpenAI「Codex for Work」精讀：由入門到自動化嘅完整路徑（附 10 個真實落地場景——簡報、週報、PPT、月結、續約管理...）

OpenAI Codex 完整教程 2026：100 分鐘，四個關鍵概念 + 六個實戰項目

30 分鐘掌握 Codex 95% 嘅能力？！唔信？一齊學：七大核心能力 + 一個彩蛋功能！

由 Claude Code 忠實用戶到被說服轉用 Codex：一場 64 分鐘嘅 OpenAI Codex 大師課

點解大家都做緊「超級應用」

主持人畀出咗一個非常清晰嘅框架：超級應用 = 一個被打磨過嘅 GUI，包住一個最強嘅編碼模型，用嚟同時承擔編碼工作同知識工作。

理由係呢次對話最有信息量嘅洞察之一：

「一個偉大嘅編碼模型，就係一個偉大嘅通用知識工作模型。」

因為代碼文件同電子表格、文檔、演示稿、Excalidraw 喺底層不過都係「文件系統中的文件」。Anthropic 早期嘅優勢其實係無意中獲得嘅——佢哋專注做編碼模型，結果發現佢識寫表格、做分析。但呢個秘密一旦畀所有人意識到，護城河就消失咗：模型層正在普遍變好，比拼嘅重點開始轉向「模型外嘅工具與界面」。

呢個亦解釋咗點解「超級應用」嘅競賽突然湧出：所有頭部產品都喺收斂到同一種形態——一個聊天入口 + 一個會「用電腦」嘅 Agent + 多任務側欄 + 內嵌瀏覽器 + 文檔/設計/演示等右側工件。

Cursor 嘅處境：早，但「贏唔到模型層」

Cursor 喺兩人眼裏係被低估嘅「先行者」：內聯編輯（cursor composer）、agents 標籤頁、內置瀏覽器、沙箱回歸測試，好多模式都係 Cursor 先做出嚟，之後被 Codex 同 Claude Code 學咗過去。

但 Cursor 有一個結構性問題：佢唔係模型公司，冇辦法長期靠補貼堆體驗。 好似 Claude Max 200 美元嘅訂閲其實附帶咗價值 5000 美元級別嘅算力——呢啲係模型公司先有嘅「遊戲規則」，第三方 IDE 冇可能跟到。

呢個亦係 Riley 解讀 xAI/SpaceX 嗰筆交易嘅角度：xAI 係當下少數自有大量 H100/H200 嘅玩家，將 Grok 嘅模型同 Cursor 嘅產品力綁埋一齊，等前者專心做模型、後者專心做 GUI，係一種合理嘅分工。呢宗交易佢哋更願意睇成「附帶 100 億美元退出條款嘅實質性收購」。

結論係：Cursor 已經贏咗「作為產品本身」嘅勝利，但要爭「全行業第一名」，必須借模型方嘅力量。

OpenClaw：開源 Agent 將「個人智能體」呢個範式推到台前

視頻入面 Riley 一開始對 OpenClaw 持懷疑態度，因為早期圍繞佢嘅內容夾雜咗好多「賣課」同投機者。但當佢放低「佢單獨有幾強」嘅問題、將佢當作一個理念嚟睇時，意義就出咗嚟：

佢將呢幾樣嘢第一次組合埋一齊：

完整電腦控制權限（唔係單一應用插件）；
頻道（channels）/ 多入口接收消息；
Personality file：用戶同 Agent 共同維護嘅關於「你係邊個」嘅記憶文件；
用自然語言定義嘅 Skills；
Heartbeat（心跳）：每隔約 15 分鐘，Agent 就會被自動喚起一次，掃描曬所有上下文，再決定要唔要主動聯絡你。

佢哋將 heartbeat 比作「心臟跳動」——呢個係由「被動響應嘅工具」走向「持續運行嘅同事」嘅關鍵差別。

佢舉咗一個非常具體嘅工作流：所有商務合作電郵唔再親自處理，Agent 會做三件事：

驗真：純 gmail 後綴直接淘汰；公司域名電郵就喺 Google 加「Reddit scam」關鍵詞反查口碑；
調研：融資額、粉絲數、過往合作；
第一封報價電郵由 Agent 主動發出。

只有傾到價錢、確實可推進嘅合作，佢本人才介入。每日朝早佢打開「晨報」就見到曬所有過濾後嘅結果。呢件事人類做需要每日 1.5–2 小時，按周、按月、按年聚合後係巨大嘅時間槓桿——更重要嘅係，Agent 唔會攰、唔會情緒化、唔會因為今日心情唔好就漏咗一個重要電郵。

佢仲講咗一個反例：自己心血來潮親自處理電郵，差啲㩒入一封 c-miniaax 嘅釣魚連結（偽裝成 MiniMax），表單要求佢用 X 賬號 OAuth。第二日 OpenClaw 直接將佢標為 scam。呢種「看似只係慳 30 分鐘」嘅小事喺長期疊加下決定結果。

兩人對呢一類工具嘅整體判斷係：OpenAI 半收購 OpenClaw（招募咗 Peter），等於公開承認「個人 Agent + 主動工作」係接下來所有人都要做嘅方向。

超級應用 vs 個人 Agent：兩類工具嘅分工

Riley 畀出一個值得記住嘅二分法：

超級應用（Codex 類）係反應式嘅：你打開佢、同佢傾、叫佢做嘢。即使有 automation，嗰個唔係佢嘅主入口。
個人 Agent（OpenClaw 類）係主動式嘅：佢持續運行，主動 push 畀你，「喂，聽日交租」、「呢個電郵你一定要睇」。

佢自己已經幾乎唔再走去打開 ChatGPT 或 Claude 網頁版——日常入口被壓縮到兩個：同 OpenClaw 用 iMessage 傾；用 Codex 處理需要協作完成嘅任務。

一個好員工嘅標誌係「agency」——唔需要事事被指派，會主動帶畀你價值。當下嘅 OpenClaw 仲未完全做到，但已經具備咗嗰種潛力。兩人提醒咗一個常見誤區：畀 Agent 裝 30 個 skill、20 個 connector，佢乜嘢都做唔好。 就好似一個新員工第一日返工被佈置 40 件事，第二日就辭職咁。範圍越窄、定義越清晰，效果越好。

多 Agent 架構：佢哋目前嘅最優解

圍繞「點樣組織多個 Agent」，佢哋畀出基於實踐嘅判斷：

一個主 Agent（orchestrator）+ 可派發嘅子 Agent，而且只同主 Agent 對話，係當下最穩定嘅模式。

原因係：

隊列機制下，等主 Agent 一次過吞曬大任務會令佢「卡住」，冇辦法繼續被打斷；透過子 Agent 派發就可以並行；
你需要一個「永遠擁有完整上下文」嘅對話方，子 Agent 唔應該取代佢；
試過多 orchestrator、多團隊嘅結構，效果反而唔好——可能係模型層仲未準備好。

但佢亦加咗一個謹慎嘅註腳：模型仲喺快速進化，今日最優嘅架構未必係 6 個月後最優嘅架構。 真正具備結構性優勢嘅係模型公司本身，因為佢哋睇到模型嘅「成長方向」，再據此設計工具——呢點上目前只有 OpenAI 喺 Codex 上做得到位。

記憶嘅歸屬問題：點解 Super Memory 呢類服務會出現

OpenClaw 默認將記憶存在自己嘅 markdown 文件裏面（memory.md 加每日對話記錄）。呢個有一個明顯問題：當你換實例、換部署、換主機時，記憶就死咗喺嗰部機上面。

佢哋嘅實踐係接入 Super Memory 呢類外部記憶服務：

記憶存在雲端，並以圖（graph）結構組織；
可以喺任何 Agent、任何應用之間複用；
你換部署嘅時候記憶仲喺度。

呢個背後係一個範式問題：未來 Agent 先係產品，但你應該擁有自己嘅「記憶資產」。 呢個其實同 Obsidian 嘅「own your files」思路係一致嘅——markdown 已經事實上贏咗，越來越多 Agent 工作流落到 markdown 文件系統上。

Computer Use：模型在生「用電腦」嘅能力

Computer Use 係 2026 年 Q1 模型層最明顯嘅提升方向之一：

Opus 4.7 顯著加強咗 Computer Use；模型可分析嘅圖像分辨率被提升到接近一部標準 MacBook 嘅物理屏幕尺寸——呢個唔係巧合，係為咗「睇清自己面前嘅電腦」；
工作機制仲好樸素：截圖 → 餵畀模型 → 模型判斷要㩒邊個 DOM/座標 → 操作 → 再截圖。所以而家仲慢，但會持續加速；
Vercept（Matt 嗰間公司）喺 Computer Use 上一度領先，但創始人被 Meta 以鉅額薪酬挖走，公司業務轉咗畀 Anthropic——側面說明 Meta 對呢條賽道都好認真。

更值得注意的是，模型已經開始「為自己寫代碼」——即係 self-healing harness：Agent 唔單止寫應用代碼，仲可以寫、改自己行嘅腳手架。呢個係由「工具使用者」走向「工具製造者」嘅迭代起點。

Google 嘅「未發力」：唔係技術問題，係組織問題

Google 呢段值得展開。兩人都唔認為 Google 模型層落後：

喺純知識維度上，Gemini 仲係當下最聰明嘅模型之一；
但 tool calling 唔得，做 Computer Use 時甚至㩒唔中掣；
Bard 時代嘅差，到 Gemini 2.5 / 3 嘅飛躍已經證明 Google 係有「跳一段台階」嘅能力嘅。

真正嘅問題係組織：他們由認識嘅 Google 內部人嗰度聽到嘅描述係：團隊之間信息嚴重稀疏，新模型發佈時連隔籬團隊嘅人都同外界同時知道。 而且 Google 而家面對嘅產品矩陣都係分裂嘅：Gemini、NotebookLM、AI Studio、Antigravity（基於 WindSurf 嘅下一代）、Stitch（設計工具）——彼此獨立。

佢哋嘅結論係：Google 唔缺錢、唔缺數據、唔缺人才，缺嘅係「被允許好似創業公司咁運轉」嘅 Gemini 團隊。 佢哋認為 Google 距離追到頭部其實只差一次模型訓練 + 一次組織鬆綁。

咩嘢嘅提示詞同上下文真正起作用

呢段係最具操作價值嘅部分之一。由模型本質入手：

模型本質上係 next token predictor，唔係「思考者」；
佢唔會「聽明」你嘅隱喻同粗俗口語（「呢場比賽將對方殺咗」），佢喺概率空間裏面揾到下一個最可能嘅 token；
因此，你寫低嘅英文（或中文）嘅精準度，就係輸出質量嘅上限。

由此推出幾條具體建議：

1. 用語音而唔係打字大部分人講清楚一件事比寫清楚要快。Whisperflow 呢類工具嘅槓桿來自於「令你能更細緻地表達需求」，唔係單純偷懶。

2. 你需要識自己所在嘅行業如果你唔識市場，AI 行出嚟嘅都只係 slop。一個反例係某啲「AI 營銷 Agent」產品——非營銷專家既講唔清要咩，亦判斷唔到輸出好唔好。模型將「具備 6–7 分行業素養嘅通才」變成超能力者，但純小白依然喺出面。

3. 唔好喂無用嘅上下文反覆見到嘅一個錯誤係寫一份 agents.md 同佢講「呢個係一個 React 項目」——佢讀文件就知。Skill / Agent 文件應該只承載領域專長和對你/你公司特有嘅工作流。

4. 唔好「買 100 個 skill 包」兩人都好直接：網上以 150 美元打包賣 skills 嘅視頻好紅，但實際下載落嚟嘅 skills 大多數互相衝突、有啲甚至帶病毒。真正有價值嘅係「為自己量身打造一個 skill 嘅能力」。

5. 一個反向工作流：先做一次，再回頭壓成 skillRiley 自己嘅做法係：第一次任務來回調試到結果合格之後，叫 Agent 覆盤成個過程，將佢壓縮成一個 skill；之後遞歸運行，再叫 Agent 自己更新 skill 嚟修復出現過嘅小問題。呢個本質上係「員工 onboarding」：邊做邊寫 SOP。

上下文唔只靠「打字」：Chronicle 與新一代上下文管理

Codex 嘅新功能 Chronicle 會每隔幾秒截圖一次，再將屏幕狀態作為後續對話嘅隱式上下文。意味住：你睇咗一個 YouTube 影片，再返去打字，佢已經知你睇咗咩。

呢個背後係一個被頻繁引用嘅觀點（出自 Perplexity 嘅 Aravind）：用戶寫唔好查詢唔係用戶嘅錯，係產品嘅錯。 模型公司正在用越來越激進嘅方式承擔呢個責任——錄屏、連接 Linear、連接 Notion、連接日曆……令「我幫 X 票實現 Y 功能」呢啲粗糙描述都可以行得通。

Riley 仲分享咗佢自己一個仲未鋪開嘅設想：一個 Web 應用上面有一個聊天氣泡，普通用戶用自然語言定製功能（唔係技術人員），背後 sandbox Agent 自動生成、自動部署。四個月前佢想做但模型仲未夠；而家似乎啱啱夠。

終端冇死：CMUX/TMUX 類工具仍然被重度使用

雖然 GUI 喺大潮流上贏咗，但專注式工作仍然傾向終端。他們用 CMUX 呢類嘅「超級終端」（基於 Ghostty 等庫），將多個終端 + 持久瀏覽器塞入一個佈局裏面，用快捷鍵切換。GUI 令多任務變容易，但有時候係「被動誘導你去多線作戰」；終端喺單任務深度作業上反而有專注感。

下一個大解鎖：Agent 支付（Agentic Commerce）

如果話 Computer Use 解決嘅係「Agent 點樣操作電腦」，咁真正下一個解鎖係「Agent 點樣使錢」。他們喺呢段提供咗一個完整嘅圖景：

Stripe 喺最新一屆 Stripe Sessions 上推出咗「為 Agent 發行嘅卡」 ——綁定到你公司嘅卡，Agent 唔接觸呢類信息，需要支付時會向人確認（理論上都可以關閉確認等佢全自動）；
額度即風險控制：你唔會將 100k 信用額度嘅 Amex 畀 Agent，但你會願意畀佢一張限額每週 2000 美元嘅卡，呢一個變化解鎖咗大量自動化場景（辦公室自動補貨、公司訂餐津貼、出差訂機票……）；
加密賽道嘅回歸：推動 X402 協議（一個用 HTTP 形態發起嘅、Agent 友好嘅支付請求），以及 Stripe 自己嘅「機器協議」實現，預示着 Agent 支付目前係碎片化協議時期，今年嘅核心問題係邊個先可以統一標準；
大量初創湧入：Cross Mint、Natural Pay、agentcard.sh 等等。兩人開玩笑話「而家去做一間 agentic payments 公司，pre-revenue 都融到一大筆」。

佢哋認為呢個係接下來 12 個月最重要嘅變化之一：當 Agent 開始使錢，佢由「建議者」變成「行動者」。

圖像同視頻模型：能力嘅拐點已經被觸發，擔憂亦隨之而嚟

他們畀出一個具體例子：佢用一句話生成了「自己簽約 NBA 多倫多猛龍」嘅寫實圖，細節包括汗水、燈光反射，連屋企人朋友都信以為真。單 prompt 就可以做到呢個程度。佢哋嘅幾個具體判斷：

文本/圖像/語音三者嘅合成質量已足夠呃「非數碼原住民」，佢甚至同屋企人約定咗一個「暗號短語」——任何「聽落似我」嘅語音電話或訊息要錢，必須報暗號；
佢認為接下來 6 個月喺 Facebook 呢類老人家聚集嘅平台上將會出現針對性更強、規模更大嘅 AI 詐騙；
但同樣嘅能力亦意味着創意工作嘅範式轉移：曾經有同行花兩日為一張圖描邊，嗰時係成個星期嘅產出。今日模型已經替代咗 Photoshop 嘅相當一部分高價值人力；
Riley 嘅一個反直覺感受：佢喺 2022 年因 Midjourney 入坑 AI，但模型越完美、佢對圖像生成嘅興趣反而越淡，因為「早期唔完美先有奇蹟感」——一個值得記住嘅「工具成熟嘅代價」。

知識工作嘅爆炸式提升

如果你只能由呢期播客帶走一句話，佢哋認為係呢個：「當下知識工作嘅提升速度，係歷史上前所未有嘅。」具體場景：

27 頁嘅合同。律師報價四位數美元。佢用 Claude 行咗一次，叫模型回答「佢哋可以點樣陰我」，逐頁指出 gotcha 條款；
朋友用 Claude Max 處理公司賬務，再交畀會計；會計反問「你有 CPA 經驗？」；
兩個人都話，已經唔覺得只係「AI 幫手」，而係**「知識工作嘅產能曲線被整體抬升一個台階」**。呢一波涉及裁員嗎？兩人冇迴避：會，會出現摩擦；但佢哋更傾向於將佢睇成「知識工作嘅爆發」——更多人做到以前做唔到嘅嘢。

內容創作嘅新邏輯：教程已死，人格仲喺度

他們對內容創作畀出一個非常清晰嘅判斷：

編程教程幾乎死咗 ——除咗少數極有人格魅力嘅（「code with Anton」被點名）；
真正仲喺度贏嘅內容創作者，係 Theo、Primagen 呢類**「邊做嘢邊傾偈、有強烈人格、有真實觀點」**嘅人；
公司都越來越意識到，傳統廣告投放正在被有機社交內容部分取代——呢個又反過來令中型創作者每日被無數合作電郵淹沒；
AI 反而將「硬技能門檻」拉低，「人格」成為最重要嘅差異化。 想做內容嘅程序員唔需要 4000 美元嘅相機，開機、講嘢、有趣，就有機會。

收尾：佢哋畀所有人嘅幾個實操建議

最後兩人將節奏放慢，畀出咗若干結論性嘅、可以即刻行動嘅建議：

最佳嘅協作方式係 orchestrator + sub-agent，但只同主 Agent 對話；
唔好堆 skill，要為自己生成 skill：先將任務跑成功一次，再叫 Agent 寫低；
擁有自己嘅記憶：用 Super Memory / Obsidian / 自己嘅 markdown 文件系統，唔好綁死喺某個產品嘅內置存儲裏面；
聚焦：畀 Agent 越窄嘅目標越好，畀自己亦係；
用語音對話代替打字：表達精度直接換成結果質量；
保持 6–7 分嘅通才範圍：你唔需要在每個領域都做到專家，但需要識到能「講清自己想要咩、判斷結果好唔好」；
而家就係最好嘅開始時間：信息從未如此便宜；十年功夫積累嘅嘢，今日 20 美元/月就買得到。剩下決定結果嘅，係 agency——主動去做、容忍剛開始做得唔好。
你唔需要任何人的許可。想轉城市就轉、想買電腦就買、想做一個產品就做——「少即是多」嘅最低可行步驟永遠比 10 步規劃更有效。

解讀：呢期視頻真正值得記住嘅幾條主線

如果將 1.5 小時嘅對話壓縮成幾條主線判斷，我會咁樣總結：

「超級應用」係 2026 嘅關鍵產品形態：模型在變同質化，競爭點上移到 GUI、上下文管理、工具集成、支付能力呢一層。Codex 目前喺呢條路徑上領先。
Anthropic 同 OpenAI 完成咗一次角色互換：Anthropic 透過鋪產品贏咗圈外感知同融資，但代價係產品分裂；OpenAI 重新聚焦後正在收復圈內開發者。
Cursor 用 xAI 嘅算力換「模型層入場券」：呢種「半收購+獨立運營」嘅結構可能係非模型公司唯一可行嘅長期路線。
個人 Agent 同超級應用係兩類，唔係一類：前者係常駐、主動、擁有你；後者係反應式、協作式、被你打開。兩者嘅入口、記憶同產品形態會長期共存。
Computer Use + Agentic Payments 係接下來 12 個月最重要嘅兩塊拼圖：操作能力 + 使錢能力，構成「Agent 真正能完成任務」嘅兩條腿。
模型只係地基，槓桿喺你嘅「行業素養 + 表達能力 + 個人化工作流」：通用知識工人能用 6–7 分嘅通才能力撬起從前需要專家先做到嘅事，但純外行依然食唔到紅利。
「係咪被 AI 取代」嘅判斷，正在由工種遷移到「差異化人格」：內容、設計、文檔、合同……所有「標準化中段」會被壓平；剩下嘅價值集中喺「只有你能畀」嘅部分——觀點、判斷、人格、品味。

Codex is The NEW Best AI Coding Tool (Here's Why)

來自兩位知名 AI 開發者和博主 Riley Brown 和 Micky 80分鐘的深入討論 Codex is The NEW Best AI Coding Tool (Here's Why)，分析了包括 Cursor、Claude Code、Codex 和 OpenClaw、Hermes Agent 等各種 AI Agents 的發展和對比。

可以看到 Codex，特別是 Codex App 是怎麼在短短几個月內逆襲，成為從 Coding Agent 到 Codex for (almost) everything 的過程。

https://www.youtube.com/watch?v=FU2iB-UfPPA

開場判斷：2026 是 AI Agent 的一年

兩位作者一開口就給出了一個共識——2026 年是 AI Agent 的一年。僅僅四個月，行業就出現了三個標誌性事件：

Peter 的開源項目 OpenClaw 成為史上增長最快的開源軟件，甚至帶動 Mac Mini 一度脱銷，加拿大多倫多的等貨週期長達三個月；
Anthropic 在短時間內推出了超過 50 個新功能，圍繞 Claude 桌面端構建了一整套產品體系；
OpenAI 推出 Codex，而且正在快速變成"vibe coding 與知識工作的最佳平台"；
xAI（SpaceX）以一種"先注資 100 億、再可按 600 億美金收購"的結構，半收購了 Cursor。

他們把過去四個月切成兩段：Q1 屬於 Anthropic，但從 3 月底、4 月起，OpenAI 明顯反超回了狀態。這條主線貫穿了整集的討論。

Anthropic 的強勢與隱憂：靠"快"贏得感知，但產品層在散

在兩位作者看來，Anthropic 的 Q1 是"教科書級別"的：從 1 月 10 日發佈 Claude Co-work 起，幾乎每天都在出新東西。Instagram 上出現了大量"Claude 是 10x 你業務的秘密武器"的內容，連他們身邊教師朋友都開始談 Claude Cowork。在大眾感知上，Anthropic 是贏家——而且是數量級意義上的贏家。

但他們認為，這種"贏"主要是 PR 層面、對融資極其有利，對應"圈外感知"。一旦回到圈內的實際使用，問題就暴露了：

Claude Code 與 Claude Cowork 在能力上高度重合，卻被拆成兩套不同的產品和概念，用戶必須分別學習；
"Routines"、"Schedule"、"Dispatch"、"Remote"——這些功能幾乎在做同一件事，但散落在不同入口；
Claude Design 只在網頁端，要把成果導入 Claude Code 居然需要"複製後拖拽"，會話上下文也不共享；
Claude App 本身偶有刷新即崩、上下文丟失的情況。

他們的判斷是：Anthropic 內部很可能是不同團隊各自用 Claude Code "刷"出新功能再合併到產品裏，缺少統一的體驗設計。這與外界看到的"高速迭代敍事"形成強烈反差。

OpenAI 的反轉：從"攤得太開"到"集中火力做超級應用"

去年的 Dev Day 上，OpenAI 一次性推出 Agents、Zapier 殺手、拖拽工作流等多條線，被作者評價為"幾乎零真實用戶"。但在 2026 年初的某次組織調整中，OpenAI 公開宣佈重新聚焦——把資源集中到 Codex 與"超級應用（super app）"，砍掉 Sora2，把 Atlas、GPT Image 等能力都收攏進同一條主線。

於是局勢出現了反轉：Anthropic 在做以前的 OpenAI（鋪得太開），OpenAI 在做以前的 Anthropic（聚焦）。

Codex 被兩人推得很高，原因是它把"編碼"和"知識工作"放在了同一個外殼裏：

設置裏有 "Coding / 普通工作"兩種視圖，底層能力一致，只是把 git worktree 這類術語對非工程師隱藏；
在內置瀏覽器裏直接打開 Twitter 等站點（雖然登錄態還沒持久化）；
側邊欄的多任務/多線程切換，讓用戶用 Whisperflow 直接說話即可開新任務、生成新文檔、新表格、新 Excalidraw 圖。

他們用一句話總結了 OpenAI 當前的策略選擇："OpenAI 在認真傾聽圈內人，Anthropic 在管理圈外感知。" 圈外的感知會帶來融資，但圈內人的反饋直接決定產品。

我的 Codex 資源分享

OpenAI Codex App 完全入門指南（5月最新版）：看這一篇就夠 + 7 天上手實戰計劃 + Cursor/Claude Code 平滑遷移教程

OpenAI Codex 完整入門指南：對照 Claude Code 逐項拆解，執行模式、上下文工程、內置終端/瀏覽器、Computer Use 一文學完

OpenAI「Codex for Work」精讀：從入門到自動化的完整路徑（附 10 個真實落地場景——簡報、週報、PPT、月結、續約管理...）

OpenAI Codex 完整教程 2026：100 分鐘，四個關鍵概念 + 六個實戰項目

30 分鐘掌握 Codex 95% 的能力？！不相信？一起學習：七大核心能力 + 一個彩蛋功能！

從 Claude Code 忠實用戶到被說服切換到 Codex：一場 64 分鐘的 OpenAI Codex 大師課

為什麼大家都在做"超級應用"

主持人給出了一個非常清晰的框架：超級應用 = 一個被打磨過的 GUI，包住一個最強的編碼模型，用來同時承擔編碼工作和知識工作。

理由是這次對話最有信息量的洞察之一：

"一個偉大的編碼模型，就是一個偉大的通用知識工作模型。"

因為代碼文件和電子表格、文檔、演示稿、Excalidraw 在底層不過都是"文件系統中的文件"。Anthropic 早期的優勢其實是無意中獲得的——他們專注做編碼模型，結果發現它能寫表格、做分析。但這個秘密一旦被所有人意識到，護城河就消失了：模型層正在普遍變好，比拼的重點開始轉向"模型外的工具與界面"。

這也解釋了為什麼"超級應用"的競賽突然湧出：所有頭部產品都在收斂到同一種形態——一個聊天入口 + 一個會"使用電腦"的 Agent + 多任務側欄 + 內嵌瀏覽器 + 文檔/設計/演示等右側工件。

Cursor 的處境：早，但"贏不了模型層"

Cursor 在兩人眼裏是被低估的"先行者"：內聯編輯（cursor composer）、agents 標籤頁、內置瀏覽器、沙箱迴歸測試，很多模式都是 Cursor 先做出來的，後面被 Codex 和 Claude Code 學了過去。

但 Cursor 有一個結構性問題：它不是模型公司，沒法長期靠補貼堆體驗。 像 Claude Max 200 美元的訂閲其實附帶了價值 5000 美元級別的算力——這是模型公司才有的"遊戲規則"，第三方 IDE 無法跟進。

這也是 Riley 解讀 xAI/SpaceX 那筆交易的角度：xAI 是當下少數自有大量 H100/H200 的玩家，把 Grok 的模型與 Cursor 的產品力綁在一起，讓前者專心做模型、後者專心做 GUI，是一種合理的分工。這宗交易他們更願意看作"附帶 100 億美元退出條款的實質性收購"。

結論是：Cursor 已經贏下了"作為產品本身"的勝利，但要爭"全行業第一名"，必須借模型方的力量。

OpenClaw：開源 Agent 把"個人智能體"這個範式推到台前

視頻中 Riley 一開始對 OpenClaw 持懷疑態度，因為早期圍繞它的內容裏夾雜大量"賣課"和投機者。但當他拋開"它單獨有多強"的問題、把它當作一個理念看時，意義就出來了：

它把這幾個東西第一次組合在一起：

完整電腦控制權限（不是單一應用插件）；
頻道（channels）/ 多入口接收消息；
Personality file：用戶和 Agent 共同維護的關於"你是誰"的記憶文件；
用自然語言定義的 Skills；
Heartbeat（心跳）：每隔約 15 分鐘，Agent 就會被自動喚起一次，掃描所有上下文，再決定要不要主動聯繫你。

他們把 heartbeat 比作"心臟跳動"——這是從"被動響應的工具"走向"持續運行的同事"的關鍵差別。

他舉了一個非常具體的工作流：所有商務合作郵件不再親自處理，Agent 會做三件事：

驗真：純 gmail 後綴直接淘汰；公司域名郵件則在 Google 加 "Reddit scam" 關鍵詞反查口碑；
調研：融資額、粉絲數、過往合作；
第一封報價郵件由 Agent 主動發出。

只有談到價格、確實可推進的合作，他本人才介入。每天早上他打開"晨報"就能看到所有過濾後的結果。這件事人類做需要每天 1.5–2 小時，按周、按月、按年聚合後是巨大的時間槓桿——更重要的是，Agent 不會累、不會情緒化、不會因為今天心情不好就漏掉一個重要郵件。

他還講了一個反例：自己心血來潮親自處理郵件，差點點進一封 c-miniaax 的釣魚連結（偽裝成 MiniMax），表單要求他用 X 賬號 OAuth。第二天 OpenClaw 直接把它標為 scam。這種"看似只省 30 分鐘"的小事在長期疊加下決定結果。

兩人對這一類工具的整體判斷是：OpenAI 半收購 OpenClaw（招募了 Peter），等於公開承認"個人 Agent + 主動工作"是接下來所有人都要做的方向。

超級應用 vs 個人 Agent：兩類工具的分工

Riley 給出一個值得記住的二分法：

超級應用（Codex 類）是反應式的：你打開它、跟它聊、讓它做。即使有 automation，那不是它的主入口。
個人 Agent（OpenClaw 類）是主動式的：它持續運行，主動給你 push，"喂，房租明天到期"、"這個郵件你必須看"。

他自己已經幾乎不再去打開 ChatGPT 或 Claude 網頁版——日常入口被壓縮到兩個：和 OpenClaw 用 iMessage 聊；用 Codex 處理需要協作完成的任務。

一個好員工的標誌是"agency"——不需要事事被指派，會主動給你帶來價值。當下的 OpenClaw 還沒完全做到，但已經具備了那種潛力。兩人提醒了一個常見誤區：給 Agent 配 30 個 skill、20 個 connector，它什麼都做不好。 就像一個新員工第一天上班被佈置 40 件事，第二天就辭職了。範圍越窄、定義越清晰，效果越好。

多 Agent 架構：他們目前的最優解

圍繞"如何組織多個 Agent"，他們給出基於實踐的判斷：

一個主 Agent（orchestrator）+ 可派發的子 Agent，且只與主 Agent 對話，是當前最穩定的模式。

原因是：

隊列機制下，讓主 Agent 一次性吞下大任務會讓它"卡住"，無法繼續被打斷；通過子 Agent 派發就能並行；
你需要一個"始終擁有完整上下文"的對話方，子 Agent 不應該取代它；
試過多 orchestrator、多團隊的結構，效果反而不好——可能是模型層還沒準備好。

但他也加了一個謹慎的註腳：模型還在快速進化，今天最優的架構未必是 6 個月後最優的架構。 真正具備結構性優勢的是模型公司本身，因為它們能看到模型的"成長方向"，再據此設計工具——這點上目前只有 OpenAI 在 Codex 上做得到位。

記憶的歸屬問題：為什麼 Super Memory 這一類服務會出現

OpenClaw 默認把記憶存在自己的 markdown 文件裏（memory.md 加每日對話記錄）。這有一個明顯問題：當你換實例、換部署、換主機時，記憶就死在那台機器上了。

他們的實踐是接入 Super Memory 這類外部記憶服務：

記憶存在雲端，並以圖（graph）結構組織；
可以在任何 Agent、任何應用之間複用；
你換部署的時候記憶還在。

這背後是一個範式問題：未來 Agent 才是產品，但你應該擁有自己的"記憶資產"。 這其實和 Obsidian 的"own your files"思路是一致的——markdown 已經事實上贏了，越來越多 Agent 工作流落到 markdown 文件系統上。

Computer Use：模型在長出"使用電腦"的能力

Computer Use 是 2026 年 Q1 模型層最明顯的提升方向之一：

Opus 4.7 顯著加強了 Computer Use；模型可分析的圖像分辨率被提升到接近一台標準 MacBook 的物理屏幕尺寸——這不是巧合，是為了"看清自己面前的電腦"；
工作機制還很樸素：截圖 → 餵給模型 → 模型判斷要點擊哪個 DOM/座標 → 操作 → 再截圖。所以現在還慢，但會持續加速；
Vercept（Matt 的那家公司）在 Computer Use 上一度領先，但創始人被 Meta 以鉅額薪酬挖走，公司業務轉給了 Anthropic——側面說明 Meta 對這條賽道也很認真。

更值得注意的是，模型已經開始"為自己寫代碼"——也就是 self-healing harness：Agent 不只是寫應用代碼，還能寫、改自己跑的腳手架。這是從"工具使用者"走向"工具製造者"的迭代起點。

Google 的"未發力"：不是技術問題，是組織問題

Google 這一段值得展開。兩人都不認為 Google 模型層落後：

在純知識維度上，Gemini 仍是當下最聰明的模型之一；
但 tool calling 不行，做 Computer Use 時甚至點不準按鈕；
Bard 時代的差，到 Gemini 2.5 / 3 的飛躍已經證明 Google 是有"跳一段台階"的能力的。

真正的問題是組織：他們從認識的 Google 內部人那裏聽到的描述是：團隊之間信息嚴重稀疏，新模型發佈時連相鄰團隊的人都和外界同時知道。 而且 Google 現在面對的產品矩陣也是分裂的：Gemini、NotebookLM、AI Studio、Antigravity（基於 WindSurf 的下一代）、Stitch（設計工具）——彼此獨立。

他們的結論是：Google 不缺錢、不缺數據、不缺人才，缺的是"被允許像創業公司一樣運轉"的 Gemini 團隊。 他們認為 Google 距離追上頭部其實只差一次模型訓練 + 一次組織鬆綁。

什麼樣的提示詞與上下文真正起作用

這段是最具操作價值的部分之一。從模型本質入手：

模型本質上是 next token predictor，不是"思考者"；
它不會"聽懂"你的隱喻和粗暴口語（"這場比賽把對方殺了"），它在概率空間裏找到下一個最可能的 token；
因此，你寫下的英文（或中文）的精準度，就是輸出質量的上限。

由此推出幾條具體建議：

1. 用語音而不是打字大部分人講清楚一件事比寫清楚要快。Whisperflow 之類工具的槓桿來自於"讓你能更細緻地表達需求"，不是單純偷懶。

2. 你需要懂自己所在的行業如果你不懂市場，AI 跑出來的也只能是 slop。一個反例是某些"AI 營銷 Agent"產品——非營銷專家既說不清要什麼，也判斷不出輸出好不好。模型把"具備 6–7 分行業素養的通才"變成超能力者，但純小白依然在外面。

3. 不要喂無用上下文反覆看到的一個錯誤是寫一份 agents.md 告訴它"這是一個 React 項目"——它讀文件就知道。Skill / Agent 文件應當只承載領域專長和對你/你公司特有的工作流。

4. 不要"購買 100 個 skill 包"兩人都很直接：網上以 150 美元打包賣 skills 的視頻火了，但實際下載來的 skills 大多數互相沖突、有些甚至帶病毒。真正有價值的是"為自己量身打造一個 skill 的能力"。

5. 一個反向工作流：先做一次，再回頭壓成 skillRiley 自己的做法是：第一次任務來回調試到結果合格之後，讓 Agent 覆盤整個過程，把它壓縮成一個 skill；之後遞歸運行，再讓 Agent 自己更新 skill 來修復出現過的小坑。這本質上是"員工 onboarding"：邊做邊寫 SOP。

上下文不止靠"打字"：Chronicle 與新一代上下文管理

Codex 的新功能 Chronicle 會每隔幾秒截屏一次，再把屏幕狀態作為後續對話的隱式上下文。意味着：你看了一個 YouTube 視頻，再回去打字，它已經知道你看了什麼。

這背後是一個被頻繁引用的觀點（出自 Perplexity 的 Aravind）：用戶寫不好查詢不是用戶的錯，是產品的錯。 模型公司正在用越來越激進的方式承擔這個責任——錄屏、連接 Linear、連接 Notion、連接日曆……讓"我幫 X 票實現 Y 功能"這種粗糙描述也能跑通。

Riley 還分享了他自己的一個尚未鋪開的設想：一個 Web 應用上面有一個聊天氣泡，普通用戶用自然語言定製功能（不是技術人員），背後 sandbox Agent 自動生成、自動部署。四個月前他想做但模型還不夠；現在似乎剛好夠了。

終端沒有死：CMUX/TMUX 類工具仍在被重度使用

雖然 GUI 在大潮流上贏了，但專注式工作仍然傾向終端。他們用 CMUX 一類的"超級終端"（基於 Ghostty 等庫），把多個終端 + 持久瀏覽器塞進一個佈局裏，用快捷鍵切換。GUI 讓多任務變容易，但有時候是"被動誘導你去多線作戰"；終端在單任務深度作業上反而有專注感。

下一個大解鎖：Agent 支付（Agentic Commerce）

如果說 Computer Use 解決的是"Agent 怎麼操作電腦"，那麼真正下一個解鎖是"Agent 怎麼花錢"。他們在這一段提供了一個完整的圖景：

Stripe 在最新一屆 Stripe Sessions 上推出了"為 Agent 發行的卡" ——綁定到你公司的卡，Agent 不接觸這類信息，需要支付時會向人確認（理論上也可以關閉確認讓其全自動）；
額度即風險控制：你不會把 100k 信用額度的 Amex 給 Agent，但你會願意給它一張限額每週 2000 美元的卡，這一變化解鎖了大量自動化場景（辦公室自動補貨、公司訂餐津貼、出差訂機票……）；
加密賽道的迴歸：推動 X402 協議（一個用 HTTP 形態發起的、Agent 友好的支付請求），以及 Stripe 自己的"機器協議"實現，預示着 Agent 支付目前是碎片化協議時期，今年的核心問題是誰能先統一標準；
大量初創湧入：Cross Mint、Natural Pay、agentcard.sh 等等。兩人開玩笑說"現在去做一家 agentic payments 公司，pre-revenue 都能融到一大筆"。

他們認為這是接下來 12 個月最重要的變化之一：當 Agent 開始花錢，它從"建議者"變成"行動者"。

圖像和視頻模型：能力的拐點已經被觸發，擔憂也隨之到來

他們給出一個具體例子：他用一句話生成了"自己簽約 NBA 多倫多猛龍"的寫實圖，細節包括汗水、燈光反射，連家人朋友都信以為真。單 prompt 就能做到這種程度。他們的幾個具體判斷：

文本/圖像/語音三者的合成質量已足夠欺騙"非數字原住民"，他甚至和家人約定了一個"暗號短語"——任何"聽起來是我"的語音電話或消息要錢，必須報暗號；
他認為接下來 6 個月在 Facebook 這類老年用戶聚集的平台上將出現針對性更強、規模更大的 AI 詐騙；
但同樣的能力也意味着創意工作的範式轉移：曾經有同行花兩天為一張圖描邊，那是當時整週的產出。今天模型已經替代了 Photoshop 的相當一部分高價值人力；
Riley 的一個反直覺感受：他在 2022 年因 Midjourney 入坑 AI，但模型越完美、他對圖像生成的興趣反而越淡，因為"早期不完美才有奇蹟感"——一個值得被記住的"工具成熟的代價"。

知識工作的爆炸式提升

如果你只能從這期播客帶走一句話，他們認為是這個："當下知識工作的提升速度，是歷史上沒有過的。"具體場景：

27 頁的合同。律師報價四位數美元。他用 Claude 跑了一遍，讓模型回答"他們能怎麼坑我"，逐頁指出 gotcha 條款；
朋友用 Claude Max 處理公司賬務，再交給會計；會計反問"你有 CPA 經驗？"；
兩個人都說，已經不覺得這只是"AI 幫忙"，而是**"知識工作的產能曲線被整體抬升一個台階"**。這一波涉及裁員嗎？兩人沒回避：會，會出現摩擦；但他們更傾向於把它看作"知識工作的爆發"——更多人能做以前做不了的事。

內容創作的新邏輯：教程已死，人格還活着

他們對內容創作給出一個非常清晰的判斷：

編程教程幾乎死了 ——除了少數極有人格魅力的（"code with Anton"被點名）；
真正還在贏的內容創作者，是 Theo、Primagen 這類**"邊幹活邊聊天、有強烈人格、有真實觀點"**的人；
公司也越來越意識到，傳統廣告投放在被有機社交內容部分替代——這又反過來讓中型創作者每天被無數合作郵件淹沒；
AI 反而把"硬技能門檻"拉低，"人格"成為最重要的差異化。 想做內容的程序員不需要 4000 美元的相機，開機、說話、有趣，就有機會。

收尾：他們給所有人的幾個實操建議

最後兩人把節奏放慢，給出了若干結論性的、可馬上行動的建議：

最佳的協作方式是 orchestrator + sub-agent，但只跟主 Agent 對話；
不要堆 skill，要為自己生成 skill：先把任務跑成功一次，再讓 Agent 寫下來；
擁有自己的記憶：用 Super Memory / Obsidian / 自己的 markdown 文件系統，不要綁死在某個產品的內置存儲裏；
聚焦：給 Agent 越窄的目標越好，給自己也是；
用語音對話替代打字：表達精度直接換成結果質量；
保持 6–7 分的通才範圍：你不需要在每個領域都做到專家，但需要懂到能"說清自己要什麼、判斷結果好不好"；
現在就是最好的開始時間：信息從未如此便宜；十年功夫積累的東西，今天 20 美元/月就買得到。剩下決定結果的，是 agency——主動去做、容忍剛開始做得很差。
你不需要任何人的許可。想換城市就換、想買電腦就買、想做一個產品就做——"少即是多"的最低可行步驟永遠比 10 步規劃更有效。

解讀：這期視頻真正值得記住的幾條主線

如果把 1.5 小時的對話壓縮成幾條主線判斷，我會這樣總結：

"超級應用"是 2026 的關鍵產品形態：模型在變同質化，競爭點上移到 GUI、上下文管理、工具集成、支付能力這一層。Codex 目前在這條路徑上領先。
Anthropic 與 OpenAI 完成了一次角色互換：Anthropic 通過鋪產品贏得了圈外感知和融資，但代價是產品分裂；OpenAI 重新聚焦後正在收復圈內開發者。
Cursor 用 xAI 的算力換"模型層入場券"：這種"半收購+獨立運營"的結構可能是非模型公司唯一可行的長期路線。
個人 Agent 與超級應用是兩類，不是一類：前者是常駐、主動、擁有你；後者是反應式、協作式、被你打開。兩者的入口、記憶和產品形態會長期共存。
Computer Use + Agentic Payments 是接下來 12 個月最重要的兩塊拼圖：操作能力 + 花錢能力，構成"Agent 真正能完成任務"的兩條腿。
模型只是地基，槓桿在你的"行業素養 + 表達能力 + 個人化工作流"：通用知識工人能用 6–7 分的通才能力撬起從前需要專家才能做的事，但純外行依然吃不到紅利。
"是否被 AI 替代"的判斷，正在從工種遷移到"差異化人格"：內容、設計、文檔、合同……所有"標準化中段"會被壓平；剩下的價值集中在"只有你能給"的部分——觀點、判斷、人格、品味。