OpenAI Codex 是最好的 Agent 嗎?為什麼它比 Claude Code 更強?Google 為什麼又不行了?OpenClaw 是個人 Agent 的未來嗎?

作者:AI 啓蒙小夥伴
日期:2026年5月7日 下午11:50
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

OpenAI Codex 逆襲成超級應用,個人 Agent 與 Computer Use 將改寫工作方式

整理版摘要

呢篇文章係基於兩位知名 AI 開發者 Riley BrownMicky 長達 80 分鐘嘅深度討論,佢哋分析咗 Cursor、Claude Code、Codex 同 OpenClaw 等 AI 編碼工具嘅發展,並得出 2026 年係 AI Agent 爆發年嘅共識。成個討論嘅主線係:Anthropic 曾經靠「快」搶佔市場感知,但產品層分裂;OpenAI 經過組織調整後重新聚焦 Codex,迅速反超,成為集編碼與知識工作於一身嘅「超級應用」。而 OpenClaw 則代表另一條路——「個人 Agent」,以主動式、常駐運行嘅方式幫用戶處理日常事務。

整體結論有幾個層次:第一,模型層正趨向同質化,競爭重點轉移到上層嘅 GUI、上下文管理、工具整合同支付功能。第二,超級應用(如 Codex)同個人 Agent(如 OpenClaw)係兩種不同範式,唔會互相取代,而會長期共存。第三,Computer Use(電腦操控)同 Agentic Payments(代理支付)係接下來 12 個月最重要嘅兩塊拼圖,令 Agent 從「建議者」變成真正能完成任務嘅「行動者」。最後,兩位作者強調:知識工作嘅產能曲線正被整體抬升,而令呢一切成真嘅關鍵,係你用語音精準表達需求嘅能力、你嘅行業素養,同埋你為自己量身定製工作流嘅能力。

  • 2026 年係 AI Agent 年,OpenAI Codex 重新聚焦後成為集編碼與知識工作於一身嘅超級應用,反超 Anthropic
  • Anthropic 靠高速迭代贏得圈外感知,但產品分裂(Claude CodeCoworkRoutines 等各自獨立)削弱咗圈內體驗。
  • 個人 Agent(如 OpenClaw)代表主動式、常駐運行嘅範式,有完整電腦權限、記憶檔案及 Heartbeat 機制,能主動推送資訊。
  • Computer UseAgentic Payments 係下一關鍵突破:模型開始學習使用電腦,並能自主花錢(如 Stripe 為 Agent 發行嘅信用卡)。
  • 實用建議:用語音代替打字、先跑通一次任務再壓縮成 Skill 、用外部服務(如 Super Memory)存放記憶,並保持 6-7 分行業素養以撬動 AI 能力。
整理重點

Anthropic 與 OpenAI 嘅角色互換

2026 年初,Anthropic 憑藉 Claude CodeClaude Co-work 等一連串新功能搶佔公眾眼球,Instagram 上充滿「Claude 係 10x 業務秘密武器」嘅內容,連非科技圈嘅教師朋友都開始提起。但兩位作者指出,呢種「贏」主要係 PR 層面,一旦深入使用就會發現產品功能高度重疊——Claude Code 同 Claude Cowork 要做嘅事差唔多,但要分別學習;Routines、Schedule、Dispatch 等名稱散落喺不同入口,上下文共享都成問題。佢哋形容呢種狀況係「不同團隊各自用 Claude Code 刷出新功能再合併,缺少統一體驗設計」。

作者用一句話總結:「OpenAI 在認真傾聽圈內人,Anthropic 在管理圈外感知。」圈外感知雖然有利融資,但圈內反饋直接決定產品生死。

整理重點

超級應用 vs 個人 Agent:兩種範式

Riley 提出一個清晰嘅二分法:超級應用係反應式嘅——你打開佢、同佢傾、叫佢做嘢;個人 Agent 係主動式嘅——佢持續運行,主動 push 資訊俾你。前者嘅代表係 Codex,後者嘅代表係 OpenClaw。自己日常已經幾乎唔再開 ChatGPT 或 Claude 網頁版,只係用 iMessage 同 OpenClaw 傾,再用 Codex 處理需要合作嘅任務。

一個好員工嘅標誌係「agency」——唔需要事事被指派,會主動帶嚟價值。而家嘅 OpenClaw 仲未完全做到,但已經有呢種潛力。

OpenClaw 嘅核心突破係將「完整電腦控制權限」、「頻道接收訊息」、「Personality file」同「Heartbeat(心跳機制)」第一次組合。Heartbeat 每隔約 15 分鐘自動喚起 Agent,掃描所有上下文,決定係咪要主動聯絡你。呢個機制令佢從「被動響應工具」變成「持續運行嘅同事」。Riley 分享咗一個具體工作流:所有商務合作郵件由 Agent 先驗真(篩選域名、反查 Reddit 口碑)、調研(融資額、粉絲數),再代發第一封報價郵件,只有到價格談判階段佢本人先介入。呢個流程以前每日要用 1.5-2 小時,Agent 做埋之後,佢早上只係睇一份「晨報」就得。

整理重點

Computer Use 與 Agentic Payments:下一塊拼圖

Computer Use 係 2026 年 Q1 模型層最明顯嘅提升方向。Opus 4.7 顯著加強咗呢個能力,模型可分析嘅圖像分辨率提升到接近實體屏幕尺寸——呢個唔係巧合,係為咗「睇清自己面前嘅電腦」。工作機制仲係好樸素:截圖 → 餵模型 → 判斷點擊位置 → 操作 → 再截圖。所以而家仲係慢,但會持續加速。

模型已經開始「為自己寫代碼」,即係 self-healing harness,呢個係從工具使用者走向工具製造者嘅迭代起點。

如果 Computer Use 解決「Agent 點操作電腦」,咁 Agent 點花錢就係下一個大解鎖。Stripe 喺最新一屆 Stripe Sessions 推出「為 Agent 發行嘅卡」,綁定公司卡,Agent 付款時可以向人確認,或者關閉確認全自動。額度即風險控制——你唔會俾 100k 信用額度嘅 Amex 俾 Agent,但會願意俾張每週限額 2000 美元嘅卡。呢個變化解鎖大量自動化場景:辦公室補貨、公司訂餐津貼、出差訂機票等。

  1. 1 Stripe 推出 Agent 專用卡,額度與風險控制分離。
  2. 2 X402 協議(HTTP 形式嘅 Agent 友好支付請求)同加密賽道嘅回歸,預示碎片化協議時期,今年核心係誰能統一標準。
  3. 3 大量初創湧入Cross MintNatural Pay、agentcard.sh 等。
整理重點

實用建議:點樣用好 AI Agent?

語音打字比打字更有效Whisperflow 之類工具嘅槓桿來自「令你能更細緻表達需求」,唔係偷懶。

作者從模型本質出發:模型係 next token predictor,唔係思考者;你寫下嘅英文或中文精準度,就係輸出質量嘅上限。所以要提升輸出質素,可以考慮以下做法。

  • 用語音代替打字,因為大部分人講清楚一件事比寫清楚快。
  • 確保自己有基本行業素養——AI 將「6-7 分通才」變成超能力者,但純外行依然喺外面。
  • 唔好餵無用上下文:agent.md 唔需要寫「呢個係 React 項目」,模型讀文件就知。Skill 文件只應承載領域專長同特有工作流。
  • 唔好買 100 個 skill 包:網上平價賣嘅 skills 多數互相沖突、甚至帶病毒。真正有價值係為自己量身打造一個 skill 嘅能力。
  • 反向工作流先做一次任務等結果合格,之後讓 Agent 覆盤成個過程,壓縮成一個 skill;之後遞歸運行,再讓 Agent 自己更新 skill 修復小坑——邊做邊寫 SOP

CodexChronicle 功能:每隔幾秒截屏一次,將屏幕狀態作為後續對話嘅隱式上下文,等你再打字時已知道你睇過乜。

上下文管理方面,Riley 認為最佳協作模式係一個主 Agent(orchestrator)+ 可派發嘅子 Agent,而且只同主 Agent 對話。佢試過多 orchestrator 結構,效果反而唔好——可能模型層仲未準備好。佢補充:模型仲喺快速進化,今日最優嘅架構未必係 6 個月後最優。

記憶嘅歸屬問題:建議用 Super Memory 呢類外部服務,將記憶存喺雲端圖結構,咁樣換實例、換部署時記憶仲喺度。

整理重點

終局判斷:Agent 嘅下一步

Google 嘅困境係組織問題,唔係技術問題:模型層唔落下風,但 tool calling 同 Computer Use 表現差;內部團隊信息稀疏,產品矩陣(GeminiNotebookLM、AI Studio 等)各自獨立。作者認為 Google 距離追上一線只差一次模型訓練加一次組織鬆綁。

知識工作嘅產能曲線正被整體抬升一個台階:27 頁合同,律師報價四位數美金,Claude 逐頁指出 gotcha 條款;朋友用 Claude Max 處理公司賬務,會計反問「你有 CPA 經驗?

內容創作方面,教程已經幾乎死咗,人格仲活着。真正贏緊嘅創作者係 TheoPrimagen 呢類「邊幹活邊聊天、有強烈人格、有真實觀點」嘅人。AI 拉低硬技能門檻,人格成為最重要嘅差異化。

Codex 係最新嘅最佳 AI 編碼工具(原因如下)

來自兩位知名 AI 開發者同博主 Riley Brown 同 Micky 嘅 80 分鐘深度討論 Codex 係最新嘅最佳 AI 編碼工具(原因如下),分析咗包括 Cursor、Claude Code、Codex 同 OpenClaw、Hermes Agent 等各種 AI Agents 嘅發展同對比。

可以見到 Codex,特別係 Codex App 係點樣喺短短幾個月內逆襲,成為由 Coding Agent 到 Codex for (almost) everything 嘅過程。

https://www.youtube.com/watch?v=FU2iB-UfPPA


開場判斷:2026 係 AI Agent 嘅一年

兩位作者一開口就畀出一個共識——2026 年係 AI Agent 嘅一年。僅僅四個月,行業就出現咗三個標誌性事件:

  • Peter 嘅開源項目 OpenClaw 成為史上增長最快嘅開源軟件,甚至帶動 Mac Mini 一度脱銷,加拿大多倫多嘅等貨週期長達三個月;
  • Anthropic 喺短時間內推出咗超過 50 個新功能,圍繞 Claude 桌面端構建咗一整 set 產品體系;
  • OpenAI 推出 Codex,而且正在快速變成「vibe coding 與知識工作嘅最佳平台」;
  • xAI(SpaceX)以一種「先注資 100 億、再可按 600 億美金收購」嘅結構,半收購咗 Cursor。

佢哋將過去四個月斬成兩段:Q1 屬於 Anthropic,但由 3 月底、4 月起,OpenAI 明顯反超返狀態。呢條主線貫穿咗成集嘅討論。


Anthropic 嘅強勢與隱憂:靠「快」贏得感知,但產品層散

喺兩位作者睇嚟,Anthropic 嘅 Q1 係「教科書級別」嘅:由 1 月 10 日發佈 Claude Co-work 起,幾乎每日都出新嘢。Instagram 上出現咗大量「Claude 係 10x 你業務嘅秘密武器」嘅內容,連佢哋身邊嘅教師朋友都開始講 Claude Cowork。喺大眾感知上,Anthropic 係贏家——而且係數量級意義上嘅贏家。

但佢哋認為,呢種「贏」主要係 PR 層面、對融資極其有利,對應「圈外感知」。一旦返到圈內嘅實際使用,問題就暴露咗:

  • Claude Code 同 Claude Cowork 喺能力上高度重合,但被拆成兩套唔同嘅產品同概念,用戶必須分開學習;
  • 「Routines」、「Schedule」、「Dispatch」、「Remote」——呢啲功能幾乎做緊同一件事,但散落喺唔同入口;
  • Claude Design 只喺網頁端,要將成果導入 Claude Code 居然需要「複製後拖拽」,會話上下文都唔共享;
  • Claude App 本身間唔中刷新就崩、上下文丟失嘅情況。

佢哋嘅判斷係:Anthropic 內部好可能係唔同團隊各自用 Claude Code 「刷」出新功能再合併入產品,缺乏統一嘅體驗設計。呢個同外界見到嘅「高速迭代敍事」形成強烈反差。


OpenAI 嘅反轉:由「攤得太開」到「集中火力做超級應用」

上年嘅 Dev Day 上,OpenAI 一次過推出 Agents、Zapier 殺手、拖拽工作流等多條線,被作者評價為「幾乎零真實用戶」。但喺 2026 年初嘅某次組織調整中,OpenAI 公開宣佈重新聚焦——將資源集中到 Codex 同「超級應用(super app)」,砍咗 Sora2,將 Atlas、GPT Image 等能力都收攏返同一條主線。

於是局勢出現咗反轉:Anthropic 做緊以前嘅 OpenAI(鋪得太開),OpenAI 做緊以前嘅 Anthropic(聚焦)。

Codex 被兩人推到好高,原因係佢將「編碼」同「知識工作」放咗喺同一個外殼裏面

  • 設置入面有「Coding / 普通工作」兩種視圖,底層能力一致,只係將 git worktree 呢類術語對非工程師隱藏;
  • 喺內置瀏覽器裏面直接打開 Twitter 等站點(雖然登錄態仲未持久化);
  • 側邊欄嘅多任務/多線程切換,令用戶用 Whisperflow 直接講嘢就可以開新任務、生成新文檔、新表格、新 Excalidraw 圖。

佢哋用一句話總結咗 OpenAI 當下嘅策略選擇:「OpenAI 喺認真傾聽圈內人,Anthropic 喺管理圈外感知。」 圈外嘅感知會帶嚟融資,但圈內人嘅反饋直接決定產品。

我嘅 Codex 資源分享

OpenAI Codex App 完全入門指南(5月最新版):睇呢篇就夠 + 7 天上手實戰計劃 + Cursor/Claude Code 平滑遷移教程

OpenAI Codex 完整入門指南:對照 Claude Code 逐項拆解,執行模式、上下文工程、內置終端/瀏覽器、Computer Use 一文學完

OpenAI「Codex for Work」精讀:由入門到自動化嘅完整路徑(附 10 個真實落地場景——簡報、週報、PPT、月結、續約管理...)

OpenAI Codex 完整教程 2026:100 分鐘,四個關鍵概念 + 六個實戰項目

30 分鐘掌握 Codex 95% 嘅能力?!唔信?一齊學:七大核心能力 + 一個彩蛋功能!

由 Claude Code 忠實用戶到被說服轉用 Codex:一場 64 分鐘嘅 OpenAI Codex 大師課


點解大家都做緊「超級應用」

主持人畀出咗一個非常清晰嘅框架:超級應用 = 一個被打磨過嘅 GUI,包住一個最強嘅編碼模型,用嚟同時承擔編碼工作同知識工作。

理由係呢次對話最有信息量嘅洞察之一:

「一個偉大嘅編碼模型,就係一個偉大嘅通用知識工作模型。」

因為代碼文件同電子表格、文檔、演示稿、Excalidraw 喺底層不過都係「文件系統中的文件」。Anthropic 早期嘅優勢其實係無意中獲得嘅——佢哋專注做編碼模型,結果發現佢識寫表格、做分析。但呢個秘密一旦畀所有人意識到,護城河就消失咗:模型層正在普遍變好,比拼嘅重點開始轉向「模型外嘅工具與界面」。

呢個亦解釋咗點解「超級應用」嘅競賽突然湧出:所有頭部產品都喺收斂到同一種形態——一個聊天入口 + 一個會「用電腦」嘅 Agent + 多任務側欄 + 內嵌瀏覽器 + 文檔/設計/演示等右側工件。


Cursor 嘅處境:早,但「贏唔到模型層」

Cursor 喺兩人眼裏係被低估嘅「先行者」:內聯編輯(cursor composer)、agents 標籤頁、內置瀏覽器、沙箱回歸測試,好多模式都係 Cursor 先做出嚟,之後被 Codex 同 Claude Code 學咗過去。

但 Cursor 有一個結構性問題:佢唔係模型公司,冇辦法長期靠補貼堆體驗。 好似 Claude Max 200 美元嘅訂閲其實附帶咗價值 5000 美元級別嘅算力——呢啲係模型公司先有嘅「遊戲規則」,第三方 IDE 冇可能跟到。

呢個亦係 Riley 解讀 xAI/SpaceX 嗰筆交易嘅角度:xAI 係當下少數自有大量 H100/H200 嘅玩家,將 Grok 嘅模型同 Cursor 嘅產品力綁埋一齊,等前者專心做模型、後者專心做 GUI,係一種合理嘅分工。呢宗交易佢哋更願意睇成「附帶 100 億美元退出條款嘅實質性收購」。

結論係:Cursor 已經贏咗「作為產品本身」嘅勝利,但要爭「全行業第一名」,必須借模型方嘅力量。


OpenClaw:開源 Agent 將「個人智能體」呢個範式推到台前

視頻入面 Riley 一開始對 OpenClaw 持懷疑態度,因為早期圍繞佢嘅內容夾雜咗好多「賣課」同投機者。但當佢放低「佢單獨有幾強」嘅問題、將佢當作一個理念嚟睇時,意義就出咗嚟:

佢將呢幾樣嘢第一次組合埋一齊:

  • 完整電腦控制權限(唔係單一應用插件);
  • 頻道(channels)/ 多入口接收消息
  • Personality file:用戶同 Agent 共同維護嘅關於「你係邊個」嘅記憶文件;
  • 用自然語言定義嘅 Skills
  • Heartbeat(心跳):每隔約 15 分鐘,Agent 就會被自動喚起一次,掃描曬所有上下文,再決定要唔要主動聯絡你。

佢哋將 heartbeat 比作「心臟跳動」——呢個係由「被動響應嘅工具」走向「持續運行嘅同事」嘅關鍵差別。

佢舉咗一個非常具體嘅工作流:所有商務合作電郵唔再親自處理,Agent 會做三件事:

  1. 驗真:純 gmail 後綴直接淘汰;公司域名電郵就喺 Google 加「Reddit scam」關鍵詞反查口碑;
  2. 調研:融資額、粉絲數、過往合作;
  3. 第一封報價電郵由 Agent 主動發出。

只有傾到價錢、確實可推進嘅合作,佢本人才介入。每日朝早佢打開「晨報」就見到曬所有過濾後嘅結果。呢件事人類做需要每日 1.5–2 小時,按周、按月、按年聚合後係巨大嘅時間槓桿——更重要嘅係,Agent 唔會攰、唔會情緒化、唔會因為今日心情唔好就漏咗一個重要電郵。

佢仲講咗一個反例:自己心血來潮親自處理電郵,差啲㩒入一封 c-miniaax 嘅釣魚連結(偽裝成 MiniMax),表單要求佢用 X 賬號 OAuth。第二日 OpenClaw 直接將佢標為 scam。呢種「看似只係慳 30 分鐘」嘅小事喺長期疊加下決定結果。

兩人對呢一類工具嘅整體判斷係:OpenAI 半收購 OpenClaw(招募咗 Peter),等於公開承認「個人 Agent + 主動工作」係接下來所有人都要做嘅方向。


超級應用 vs 個人 Agent:兩類工具嘅分工

Riley 畀出一個值得記住嘅二分法:

  • 超級應用(Codex 類)係反應式嘅:你打開佢、同佢傾、叫佢做嘢。即使有 automation,嗰個唔係佢嘅主入口。
  • 個人 Agent(OpenClaw 類)係主動式嘅:佢持續運行,主動 push 畀你,「喂,聽日交租」、 「呢個電郵你一定要睇」。

佢自己已經幾乎唔再走去打開 ChatGPT 或 Claude 網頁版——日常入口被壓縮到兩個:同 OpenClaw 用 iMessage 傾;用 Codex 處理需要協作完成嘅任務。

一個好員工嘅標誌係「agency」——唔需要事事被指派,會主動帶畀你價值。當下嘅 OpenClaw 仲未完全做到,但已經具備咗嗰種潛力。兩人提醒咗一個常見誤區:畀 Agent 裝 30 個 skill、20 個 connector,佢乜嘢都做唔好。 就好似一個新員工第一日返工被佈置 40 件事,第二日就辭職咁。範圍越窄、定義越清晰,效果越好。


多 Agent 架構:佢哋目前嘅最優解

圍繞「點樣組織多個 Agent」,佢哋畀出基於實踐嘅判斷:

一個主 Agent(orchestrator)+ 可派發嘅子 Agent,而且只同主 Agent 對話,係當下最穩定嘅模式。

原因係:

  1. 隊列機制下,等主 Agent 一次過吞曬大任務會令佢「卡住」,冇辦法繼續被打斷;透過子 Agent 派發就可以並行;
  2. 你需要一個「永遠擁有完整上下文」嘅對話方,子 Agent 唔應該取代佢;
  3. 試過多 orchestrator、多團隊嘅結構,效果反而唔好——可能係模型層仲未準備好。

但佢亦加咗一個謹慎嘅註腳:模型仲喺快速進化,今日最優嘅架構未必係 6 個月後最優嘅架構。 真正具備結構性優勢嘅係模型公司本身,因為佢哋睇到模型嘅「成長方向」,再據此設計工具——呢點上目前只有 OpenAI 喺 Codex 上做得到位。


記憶嘅歸屬問題:點解 Super Memory 呢類服務會出現

OpenClaw 默認將記憶存在自己嘅 markdown 文件裏面(memory.md 加每日對話記錄)。呢個有一個明顯問題:當你換實例、換部署、換主機時,記憶就死咗喺嗰部機上面。

佢哋嘅實踐係接入 Super Memory 呢類外部記憶服務:

  • 記憶存在雲端,並以圖(graph)結構組織;
  • 可以喺任何 Agent、任何應用之間複用;
  • 你換部署嘅時候記憶仲喺度。

呢個背後係一個範式問題:未來 Agent 先係產品,但你應該擁有自己嘅「記憶資產」。 呢個其實同 Obsidian 嘅「own your files」思路係一致嘅——markdown 已經事實上贏咗,越來越多 Agent 工作流落到 markdown 文件系統上。


Computer Use:模型在生「用電腦」嘅能力

Computer Use 係 2026 年 Q1 模型層最明顯嘅提升方向之一:

  • Opus 4.7 顯著加強咗 Computer Use;模型可分析嘅圖像分辨率被提升到接近一部標準 MacBook 嘅物理屏幕尺寸——呢個唔係巧合,係為咗「睇清自己面前嘅電腦」;
  • 工作機制仲好樸素:截圖 → 餵畀模型 → 模型判斷要㩒邊個 DOM/座標 → 操作 → 再截圖。所以而家仲慢,但會持續加速;
  • Vercept(Matt 嗰間公司)喺 Computer Use 上一度領先,但創始人被 Meta 以鉅額薪酬挖走,公司業務轉咗畀 Anthropic——側面說明 Meta 對呢條賽道都好認真。

更值得注意的是,模型已經開始「為自己寫代碼」——即係 self-healing harness:Agent 唔單止寫應用代碼,仲可以寫、改自己行嘅腳手架。呢個係由「工具使用者」走向「工具製造者」嘅迭代起點。


Google 嘅「未發力」:唔係技術問題,係組織問題

Google 呢段值得展開。兩人都唔認為 Google 模型層落後:

  • 喺純知識維度上,Gemini 仲係當下最聰明嘅模型之一;
  • 但 tool calling 唔得,做 Computer Use 時甚至㩒唔中掣;
  • Bard 時代嘅差,到 Gemini 2.5 / 3 嘅飛躍已經證明 Google 係有「跳一段台階」嘅能力嘅。

真正嘅問題係組織:他們由認識嘅 Google 內部人嗰度聽到嘅描述係:團隊之間信息嚴重稀疏,新模型發佈時連隔籬團隊嘅人都同外界同時知道。 而且 Google 而家面對嘅產品矩陣都係分裂嘅:Gemini、NotebookLM、AI Studio、Antigravity(基於 WindSurf 嘅下一代)、Stitch(設計工具)——彼此獨立。

佢哋嘅結論係:Google 唔缺錢、唔缺數據、唔缺人才,缺嘅係「被允許好似創業公司咁運轉」嘅 Gemini 團隊。 佢哋認為 Google 距離追到頭部其實只差一次模型訓練 + 一次組織鬆綁。


咩嘢嘅提示詞同上下文真正起作用

呢段係最具操作價值嘅部分之一。由模型本質入手:

  • 模型本質上係 next token predictor,唔係「思考者」;
  • 佢唔會「聽明」你嘅隱喻同粗俗口語(「呢場比賽將對方殺咗」),佢喺概率空間裏面揾到下一個最可能嘅 token;
  • 因此,你寫低嘅英文(或中文)嘅精準度,就係輸出質量嘅上限。

由此推出幾條具體建議:

1. 用語音而唔係打字大部分人講清楚一件事比寫清楚要快。Whisperflow 呢類工具嘅槓桿來自於「令你能更細緻地表達需求」,唔係單純偷懶。

2. 你需要識自己所在嘅行業如果你唔識市場,AI 行出嚟嘅都只係 slop。一個反例係某啲「AI 營銷 Agent」產品——非營銷專家既講唔清要咩,亦判斷唔到輸出好唔好。模型將「具備 6–7 分行業素養嘅通才」變成超能力者,但純小白依然喺出面。

3. 唔好喂無用嘅上下文反覆見到嘅一個錯誤係寫一份 agents.md 同佢講「呢個係一個 React 項目」——佢讀文件就知。Skill / Agent 文件應該只承載領域專長對你/你公司特有嘅工作流

4. 唔好「買 100 個 skill 包」兩人都好直接:網上以 150 美元打包賣 skills 嘅視頻好紅,但實際下載落嚟嘅 skills 大多數互相衝突、有啲甚至帶病毒。真正有價值嘅係「為自己量身打造一個 skill 嘅能力」。

5. 一個反向工作流:先做一次,再回頭壓成 skillRiley 自己嘅做法係:第一次任務來回調試到結果合格之後,叫 Agent 覆盤成個過程,將佢壓縮成一個 skill;之後遞歸運行,再叫 Agent 自己更新 skill 嚟修復出現過嘅小問題。呢個本質上係「員工 onboarding」:邊做邊寫 SOP。


上下文唔只靠「打字」:Chronicle 與新一代上下文管理

Codex 嘅新功能 Chronicle 會每隔幾秒截圖一次,再將屏幕狀態作為後續對話嘅隱式上下文。意味住:你睇咗一個 YouTube 影片,再返去打字,佢已經知你睇咗咩。

呢個背後係一個被頻繁引用嘅觀點(出自 Perplexity 嘅 Aravind):用戶寫唔好查詢唔係用戶嘅錯,係產品嘅錯。 模型公司正在用越來越激進嘅方式承擔呢個責任——錄屏、連接 Linear、連接 Notion、連接日曆……令「我幫 X 票實現 Y 功能」呢啲粗糙描述都可以行得通。

Riley 仲分享咗佢自己一個仲未鋪開嘅設想:一個 Web 應用上面有一個聊天氣泡,普通用戶用自然語言定製功能(唔係技術人員),背後 sandbox Agent 自動生成、自動部署。四個月前佢想做但模型仲未夠;而家似乎啱啱夠。


終端冇死:CMUX/TMUX 類工具仍然被重度使用

雖然 GUI 喺大潮流上贏咗,但專注式工作仍然傾向終端他們用 CMUX 呢類嘅「超級終端」(基於 Ghostty 等庫),將多個終端 + 持久瀏覽器塞入一個佈局裏面,用快捷鍵切換。GUI 令多任務變容易,但有時候係「被動誘導你去多線作戰」;終端喺單任務深度作業上反而有專注感。


下一個大解鎖:Agent 支付(Agentic Commerce)

如果話 Computer Use 解決嘅係「Agent 點樣操作電腦」,咁真正下一個解鎖係「Agent 點樣使錢」。他們喺呢段提供咗一個完整嘅圖景:

  • Stripe 喺最新一屆 Stripe Sessions 上推出咗「為 Agent 發行嘅卡」 ——綁定到你公司嘅卡,Agent 唔接觸呢類信息,需要支付時會向人確認(理論上都可以關閉確認等佢全自動);
  • 額度即風險控制:你唔會將 100k 信用額度嘅 Amex 畀 Agent,但你會願意畀佢一張限額每週 2000 美元嘅卡,呢一個變化解鎖咗大量自動化場景(辦公室自動補貨、公司訂餐津貼、出差訂機票……);
  • 加密賽道嘅回歸:推動 X402 協議(一個用 HTTP 形態發起嘅、Agent 友好嘅支付請求),以及 Stripe 自己嘅「機器協議」實現,預示着 Agent 支付目前係碎片化協議時期,今年嘅核心問題係邊個先可以統一標準
  • 大量初創湧入:Cross Mint、Natural Pay、agentcard.sh 等等。兩人開玩笑話「而家去做一間 agentic payments 公司,pre-revenue 都融到一大筆」。

佢哋認為呢個係接下來 12 個月最重要嘅變化之一:當 Agent 開始使錢,佢由「建議者」變成「行動者」。


圖像同視頻模型:能力嘅拐點已經被觸發,擔憂亦隨之而嚟

他們畀出一個具體例子:佢用一句話生成了「自己簽約 NBA 多倫多猛龍」嘅寫實圖,細節包括汗水、燈光反射,連屋企人朋友都信以為真。單 prompt 就可以做到呢個程度。佢哋嘅幾個具體判斷:

  • 文本/圖像/語音三者嘅合成質量已足夠呃「非數碼原住民」,佢甚至同屋企人約定咗一個「暗號短語」——任何「聽落似我」嘅語音電話或訊息要錢,必須報暗號;
  • 佢認為接下來 6 個月喺 Facebook 呢類老人家聚集嘅平台上將會出現針對性更強、規模更大嘅 AI 詐騙
  • 但同樣嘅能力亦意味着創意工作嘅範式轉移:曾經有同行花兩日為一張圖描邊,嗰時係成個星期嘅產出。今日模型已經替代咗 Photoshop 嘅相當一部分高價值人力;
  • Riley 嘅一個反直覺感受:佢喺 2022 年因 Midjourney 入坑 AI,但模型越完美、佢對圖像生成嘅興趣反而越淡,因為「早期唔完美先有奇蹟感」——一個值得記住嘅「工具成熟嘅代價」。

知識工作嘅爆炸式提升

如果你只能由呢期播客帶走一句話,佢哋認為係呢個:「當下知識工作嘅提升速度,係歷史上前所未有嘅。」具體場景:

  • 27 頁嘅合同。律師報價四位數美元。佢用 Claude 行咗一次,叫模型回答「佢哋可以點樣陰我」,逐頁指出 gotcha 條款;
  • 朋友用 Claude Max 處理公司賬務,再交畀會計;會計反問「你有 CPA 經驗?」;
  • 兩個人都話,已經唔覺得只係「AI 幫手」,而係**「知識工作嘅產能曲線被整體抬升一個台階」**。呢一波涉及裁員嗎?兩人冇迴避:會,會出現摩擦;但佢哋更傾向於將佢睇成「知識工作嘅爆發」——更多人做到以前做唔到嘅嘢。

內容創作嘅新邏輯:教程已死,人格仲喺度

他們對內容創作畀出一個非常清晰嘅判斷:

  • 編程教程幾乎死咗 ——除咗少數極有人格魅力嘅(「code with Anton」被點名);
  • 真正仲喺度贏嘅內容創作者,係 Theo、Primagen 呢類**「邊做嘢邊傾偈、有強烈人格、有真實觀點」**嘅人;
  • 公司都越來越意識到,傳統廣告投放正在被有機社交內容部分取代——呢個又反過來令中型創作者每日被無數合作電郵淹沒;
  • AI 反而將「硬技能門檻」拉低,「人格」成為最重要嘅差異化。 想做內容嘅程序員唔需要 4000 美元嘅相機,開機、講嘢、有趣,就有機會。

收尾:佢哋畀所有人嘅幾個實操建議

最後兩人將節奏放慢,畀出咗若干結論性嘅、可以即刻行動嘅建議:

  1. 最佳嘅協作方式係 orchestrator + sub-agent,但只同主 Agent 對話;
  2. 唔好堆 skill,要為自己生成 skill:先將任務跑成功一次,再叫 Agent 寫低;
  3. 擁有自己嘅記憶:用 Super Memory / Obsidian / 自己嘅 markdown 文件系統,唔好綁死喺某個產品嘅內置存儲裏面;
  4. 聚焦:畀 Agent 越窄嘅目標越好,畀自己亦係;
  5. 用語音對話代替打字:表達精度直接換成結果質量;
  6. 保持 6–7 分嘅通才範圍:你唔需要在每個領域都做到專家,但需要識到能「講清自己想要咩、判斷結果好唔好」;
  7. 而家就係最好嘅開始時間:信息從未如此便宜;十年功夫積累嘅嘢,今日 20 美元/月就買得到。剩下決定結果嘅,係 agency——主動去做、容忍剛開始做得唔好。
  8. 你唔需要任何人的許可。想轉城市就轉、想買電腦就買、想做一個產品就做——「少即是多」嘅最低可行步驟永遠比 10 步規劃更有效。

解讀:呢期視頻真正值得記住嘅幾條主線

如果將 1.5 小時嘅對話壓縮成幾條主線判斷,我會咁樣總結:

  1. 「超級應用」係 2026 嘅關鍵產品形態:模型在變同質化,競爭點上移到 GUI、上下文管理、工具集成、支付能力呢一層。Codex 目前喺呢條路徑上領先。
  2. Anthropic 同 OpenAI 完成咗一次角色互換:Anthropic 透過鋪產品贏咗圈外感知同融資,但代價係產品分裂;OpenAI 重新聚焦後正在收復圈內開發者。
  3. Cursor 用 xAI 嘅算力換「模型層入場券」:呢種「半收購+獨立運營」嘅結構可能係非模型公司唯一可行嘅長期路線。
  4. 個人 Agent 同超級應用係兩類,唔係一類:前者係常駐、主動、擁有你;後者係反應式、協作式、被你打開。兩者嘅入口、記憶同產品形態會長期共存。
  5. Computer Use + Agentic Payments 係接下來 12 個月最重要嘅兩塊拼圖:操作能力 + 使錢能力,構成「Agent 真正能完成任務」嘅兩條腿。
  6. 模型只係地基,槓桿喺你嘅「行業素養 + 表達能力 + 個人化工作流」:通用知識工人能用 6–7 分嘅通才能力撬起從前需要專家先做到嘅事,但純外行依然食唔到紅利。
  7. 「係咪被 AI 取代」嘅判斷,正在由工種遷移到「差異化人格」:內容、設計、文檔、合同……所有「標準化中段」會被壓平;剩下嘅價值集中喺「只有你能畀」嘅部分——觀點、判斷、人格、品味。


Codex is The NEW Best AI Coding Tool (Here's Why)

來自兩位知名 AI 開發者和博主 Riley Brown 和 Micky 80分鐘的深入討論 Codex is The NEW Best AI Coding Tool (Here's Why),分析了包括 Cursor、Claude Code、Codex 和 OpenClaw、Hermes Agent 等各種 AI Agents 的發展和對比。

可以看到 Codex,特別是 Codex App 是怎麼在短短几個月內逆襲,成為從 Coding Agent 到 Codex for (almost) everything 的過程。

https://www.youtube.com/watch?v=FU2iB-UfPPA


開場判斷:2026 是 AI Agent 的一年

兩位作者一開口就給出了一個共識——2026 年是 AI Agent 的一年。僅僅四個月,行業就出現了三個標誌性事件:

  • Peter 的開源項目 OpenClaw 成為史上增長最快的開源軟件,甚至帶動 Mac Mini 一度脱銷,加拿大多倫多的等貨週期長達三個月;
  • Anthropic 在短時間內推出了超過 50 個新功能,圍繞 Claude 桌面端構建了一整套產品體系;
  • OpenAI 推出 Codex,而且正在快速變成"vibe coding 與知識工作的最佳平台";
  • xAI(SpaceX)以一種"先注資 100 億、再可按 600 億美金收購"的結構,半收購了 Cursor。

他們把過去四個月切成兩段:Q1 屬於 Anthropic,但從 3 月底、4 月起,OpenAI 明顯反超回了狀態。這條主線貫穿了整集的討論。


Anthropic 的強勢與隱憂:靠"快"贏得感知,但產品層在散

在兩位作者看來,Anthropic 的 Q1 是"教科書級別"的:從 1 月 10 日發佈 Claude Co-work 起,幾乎每天都在出新東西。Instagram 上出現了大量"Claude 是 10x 你業務的秘密武器"的內容,連他們身邊教師朋友都開始談 Claude Cowork。在大眾感知上,Anthropic 是贏家——而且是數量級意義上的贏家。

但他們認為,這種"贏"主要是 PR 層面、對融資極其有利,對應"圈外感知"。一旦回到圈內的實際使用,問題就暴露了:

  • Claude Code 與 Claude Cowork 在能力上高度重合,卻被拆成兩套不同的產品和概念,用戶必須分別學習;
  • "Routines"、"Schedule"、"Dispatch"、"Remote"——這些功能幾乎在做同一件事,但散落在不同入口;
  • Claude Design 只在網頁端,要把成果導入 Claude Code 居然需要"複製後拖拽",會話上下文也不共享;
  • Claude App 本身偶有刷新即崩、上下文丟失的情況。

他們的判斷是:Anthropic 內部很可能是不同團隊各自用 Claude Code "刷"出新功能再合併到產品裏,缺少統一的體驗設計。這與外界看到的"高速迭代敍事"形成強烈反差。


OpenAI 的反轉:從"攤得太開"到"集中火力做超級應用"

去年的 Dev Day 上,OpenAI 一次性推出 Agents、Zapier 殺手、拖拽工作流等多條線,被作者評價為"幾乎零真實用戶"。但在 2026 年初的某次組織調整中,OpenAI 公開宣佈重新聚焦——把資源集中到 Codex 與"超級應用(super app)",砍掉 Sora2,把 Atlas、GPT Image 等能力都收攏進同一條主線。

於是局勢出現了反轉:Anthropic 在做以前的 OpenAI(鋪得太開),OpenAI 在做以前的 Anthropic(聚焦)。

Codex 被兩人推得很高,原因是它把"編碼"和"知識工作"放在了同一個外殼裏

  • 設置裏有 "Coding / 普通工作"兩種視圖,底層能力一致,只是把 git worktree 這類術語對非工程師隱藏;
  • 在內置瀏覽器裏直接打開 Twitter 等站點(雖然登錄態還沒持久化);
  • 側邊欄的多任務/多線程切換,讓用戶用 Whisperflow 直接說話即可開新任務、生成新文檔、新表格、新 Excalidraw 圖。

他們用一句話總結了 OpenAI 當前的策略選擇:"OpenAI 在認真傾聽圈內人,Anthropic 在管理圈外感知。" 圈外的感知會帶來融資,但圈內人的反饋直接決定產品。

我的 Codex 資源分享

OpenAI Codex App 完全入門指南(5月最新版):看這一篇就夠 + 7 天上手實戰計劃 + Cursor/Claude Code 平滑遷移教程

OpenAI Codex 完整入門指南:對照 Claude Code 逐項拆解,執行模式、上下文工程、內置終端/瀏覽器、Computer Use 一文學完

OpenAI「Codex for Work」精讀:從入門到自動化的完整路徑(附 10 個真實落地場景——簡報、週報、PPT、月結、續約管理...)

OpenAI Codex 完整教程 2026:100 分鐘,四個關鍵概念 + 六個實戰項目

30 分鐘掌握 Codex 95% 的能力?!不相信?一起學習:七大核心能力 + 一個彩蛋功能!

從 Claude Code 忠實用戶到被說服切換到 Codex:一場 64 分鐘的 OpenAI Codex 大師課


為什麼大家都在做"超級應用"

主持人給出了一個非常清晰的框架:超級應用 = 一個被打磨過的 GUI,包住一個最強的編碼模型,用來同時承擔編碼工作和知識工作。

理由是這次對話最有信息量的洞察之一:

"一個偉大的編碼模型,就是一個偉大的通用知識工作模型。"

因為代碼文件和電子表格、文檔、演示稿、Excalidraw 在底層不過都是"文件系統中的文件"。Anthropic 早期的優勢其實是無意中獲得的——他們專注做編碼模型,結果發現它能寫表格、做分析。但這個秘密一旦被所有人意識到,護城河就消失了:模型層正在普遍變好,比拼的重點開始轉向"模型外的工具與界面"。

這也解釋了為什麼"超級應用"的競賽突然湧出:所有頭部產品都在收斂到同一種形態——一個聊天入口 + 一個會"使用電腦"的 Agent + 多任務側欄 + 內嵌瀏覽器 + 文檔/設計/演示等右側工件。


Cursor 的處境:早,但"贏不了模型層"

Cursor 在兩人眼裏是被低估的"先行者":內聯編輯(cursor composer)、agents 標籤頁、內置瀏覽器、沙箱迴歸測試,很多模式都是 Cursor 先做出來的,後面被 Codex 和 Claude Code 學了過去。

但 Cursor 有一個結構性問題:它不是模型公司,沒法長期靠補貼堆體驗。 像 Claude Max 200 美元的訂閲其實附帶了價值 5000 美元級別的算力——這是模型公司才有的"遊戲規則",第三方 IDE 無法跟進。

這也是 Riley 解讀 xAI/SpaceX 那筆交易的角度:xAI 是當下少數自有大量 H100/H200 的玩家,把 Grok 的模型與 Cursor 的產品力綁在一起,讓前者專心做模型、後者專心做 GUI,是一種合理的分工。這宗交易他們更願意看作"附帶 100 億美元退出條款的實質性收購"。

結論是:Cursor 已經贏下了"作為產品本身"的勝利,但要爭"全行業第一名",必須借模型方的力量。


OpenClaw:開源 Agent 把"個人智能體"這個範式推到台前

視頻中 Riley 一開始對 OpenClaw 持懷疑態度,因為早期圍繞它的內容裏夾雜大量"賣課"和投機者。但當他拋開"它單獨有多強"的問題、把它當作一個理念看時,意義就出來了:

它把這幾個東西第一次組合在一起:

  • 完整電腦控制權限(不是單一應用插件);
  • 頻道(channels)/ 多入口接收消息
  • Personality file:用戶和 Agent 共同維護的關於"你是誰"的記憶文件;
  • 用自然語言定義的 Skills
  • Heartbeat(心跳):每隔約 15 分鐘,Agent 就會被自動喚起一次,掃描所有上下文,再決定要不要主動聯繫你。

他們把 heartbeat 比作"心臟跳動"——這是從"被動響應的工具"走向"持續運行的同事"的關鍵差別。

他舉了一個非常具體的工作流:所有商務合作郵件不再親自處理,Agent 會做三件事:

  1. 驗真:純 gmail 後綴直接淘汰;公司域名郵件則在 Google 加 "Reddit scam" 關鍵詞反查口碑;
  2. 調研:融資額、粉絲數、過往合作;
  3. 第一封報價郵件由 Agent 主動發出。

只有談到價格、確實可推進的合作,他本人才介入。每天早上他打開"晨報"就能看到所有過濾後的結果。這件事人類做需要每天 1.5–2 小時,按周、按月、按年聚合後是巨大的時間槓桿——更重要的是,Agent 不會累、不會情緒化、不會因為今天心情不好就漏掉一個重要郵件。

他還講了一個反例:自己心血來潮親自處理郵件,差點點進一封 c-miniaax 的釣魚連結(偽裝成 MiniMax),表單要求他用 X 賬號 OAuth。第二天 OpenClaw 直接把它標為 scam。這種"看似只省 30 分鐘"的小事在長期疊加下決定結果。

兩人對這一類工具的整體判斷是:OpenAI 半收購 OpenClaw(招募了 Peter),等於公開承認"個人 Agent + 主動工作"是接下來所有人都要做的方向。


超級應用 vs 個人 Agent:兩類工具的分工

Riley 給出一個值得記住的二分法:

  • 超級應用(Codex 類)是反應式的:你打開它、跟它聊、讓它做。即使有 automation,那不是它的主入口。
  • 個人 Agent(OpenClaw 類)是主動式的:它持續運行,主動給你 push,"喂,房租明天到期"、"這個郵件你必須看"。

他自己已經幾乎不再去打開 ChatGPT 或 Claude 網頁版——日常入口被壓縮到兩個:和 OpenClaw 用 iMessage 聊;用 Codex 處理需要協作完成的任務。

一個好員工的標誌是"agency"——不需要事事被指派,會主動給你帶來價值。當下的 OpenClaw 還沒完全做到,但已經具備了那種潛力。兩人提醒了一個常見誤區:給 Agent 配 30 個 skill、20 個 connector,它什麼都做不好。 就像一個新員工第一天上班被佈置 40 件事,第二天就辭職了。範圍越窄、定義越清晰,效果越好。


多 Agent 架構:他們目前的最優解

圍繞"如何組織多個 Agent",他們給出基於實踐的判斷:

一個主 Agent(orchestrator)+ 可派發的子 Agent,且只與主 Agent 對話,是當前最穩定的模式。

原因是:

  1. 隊列機制下,讓主 Agent 一次性吞下大任務會讓它"卡住",無法繼續被打斷;通過子 Agent 派發就能並行;
  2. 你需要一個"始終擁有完整上下文"的對話方,子 Agent 不應該取代它;
  3. 試過多 orchestrator、多團隊的結構,效果反而不好——可能是模型層還沒準備好。

但他也加了一個謹慎的註腳:模型還在快速進化,今天最優的架構未必是 6 個月後最優的架構。 真正具備結構性優勢的是模型公司本身,因為它們能看到模型的"成長方向",再據此設計工具——這點上目前只有 OpenAI 在 Codex 上做得到位。


記憶的歸屬問題:為什麼 Super Memory 這一類服務會出現

OpenClaw 默認把記憶存在自己的 markdown 文件裏(memory.md 加每日對話記錄)。這有一個明顯問題:當你換實例、換部署、換主機時,記憶就死在那台機器上了。

他們的實踐是接入 Super Memory 這類外部記憶服務:

  • 記憶存在雲端,並以圖(graph)結構組織;
  • 可以在任何 Agent、任何應用之間複用;
  • 你換部署的時候記憶還在。

這背後是一個範式問題:未來 Agent 才是產品,但你應該擁有自己的"記憶資產"。 這其實和 Obsidian 的"own your files"思路是一致的——markdown 已經事實上贏了,越來越多 Agent 工作流落到 markdown 文件系統上。


Computer Use:模型在長出"使用電腦"的能力

Computer Use 是 2026 年 Q1 模型層最明顯的提升方向之一:

  • Opus 4.7 顯著加強了 Computer Use;模型可分析的圖像分辨率被提升到接近一台標準 MacBook 的物理屏幕尺寸——這不是巧合,是為了"看清自己面前的電腦";
  • 工作機制還很樸素:截圖 → 餵給模型 → 模型判斷要點擊哪個 DOM/座標 → 操作 → 再截圖。所以現在還慢,但會持續加速;
  • Vercept(Matt 的那家公司)在 Computer Use 上一度領先,但創始人被 Meta 以鉅額薪酬挖走,公司業務轉給了 Anthropic——側面說明 Meta 對這條賽道也很認真。

更值得注意的是,模型已經開始"為自己寫代碼"——也就是 self-healing harness:Agent 不只是寫應用代碼,還能寫、改自己跑的腳手架。這是從"工具使用者"走向"工具製造者"的迭代起點。


Google 的"未發力":不是技術問題,是組織問題

Google 這一段值得展開。兩人都不認為 Google 模型層落後:

  • 在純知識維度上,Gemini 仍是當下最聰明的模型之一;
  • 但 tool calling 不行,做 Computer Use 時甚至點不準按鈕;
  • Bard 時代的差,到 Gemini 2.5 / 3 的飛躍已經證明 Google 是有"跳一段台階"的能力的。

真正的問題是組織:他們從認識的 Google 內部人那裏聽到的描述是:團隊之間信息嚴重稀疏,新模型發佈時連相鄰團隊的人都和外界同時知道。 而且 Google 現在面對的產品矩陣也是分裂的:Gemini、NotebookLM、AI Studio、Antigravity(基於 WindSurf 的下一代)、Stitch(設計工具)——彼此獨立。

他們的結論是:Google 不缺錢、不缺數據、不缺人才,缺的是"被允許像創業公司一樣運轉"的 Gemini 團隊。 他們認為 Google 距離追上頭部其實只差一次模型訓練 + 一次組織鬆綁。


什麼樣的提示詞與上下文真正起作用

這段是最具操作價值的部分之一。從模型本質入手:

  • 模型本質上是 next token predictor,不是"思考者";
  • 它不會"聽懂"你的隱喻和粗暴口語("這場比賽把對方殺了"),它在概率空間裏找到下一個最可能的 token;
  • 因此,你寫下的英文(或中文)的精準度,就是輸出質量的上限。

由此推出幾條具體建議:

1. 用語音而不是打字大部分人講清楚一件事比寫清楚要快。Whisperflow 之類工具的槓桿來自於"讓你能更細緻地表達需求",不是單純偷懶。

2. 你需要懂自己所在的行業如果你不懂市場,AI 跑出來的也只能是 slop。一個反例是某些"AI 營銷 Agent"產品——非營銷專家既說不清要什麼,也判斷不出輸出好不好。模型把"具備 6–7 分行業素養的通才"變成超能力者,但純小白依然在外面。

3. 不要喂無用上下文反覆看到的一個錯誤是寫一份 agents.md 告訴它"這是一個 React 項目"——它讀文件就知道。Skill / Agent 文件應當只承載領域專長對你/你公司特有的工作流

4. 不要"購買 100 個 skill 包"兩人都很直接:網上以 150 美元打包賣 skills 的視頻火了,但實際下載來的 skills 大多數互相沖突、有些甚至帶病毒。真正有價值的是"為自己量身打造一個 skill 的能力"。

5. 一個反向工作流:先做一次,再回頭壓成 skillRiley 自己的做法是:第一次任務來回調試到結果合格之後,讓 Agent 覆盤整個過程,把它壓縮成一個 skill;之後遞歸運行,再讓 Agent 自己更新 skill 來修復出現過的小坑。這本質上是"員工 onboarding":邊做邊寫 SOP。


上下文不止靠"打字":Chronicle 與新一代上下文管理

Codex 的新功能 Chronicle 會每隔幾秒截屏一次,再把屏幕狀態作為後續對話的隱式上下文。意味着:你看了一個 YouTube 視頻,再回去打字,它已經知道你看了什麼。

這背後是一個被頻繁引用的觀點(出自 Perplexity 的 Aravind):用戶寫不好查詢不是用戶的錯,是產品的錯。 模型公司正在用越來越激進的方式承擔這個責任——錄屏、連接 Linear、連接 Notion、連接日曆……讓"我幫 X 票實現 Y 功能"這種粗糙描述也能跑通。

Riley 還分享了他自己的一個尚未鋪開的設想:一個 Web 應用上面有一個聊天氣泡,普通用戶用自然語言定製功能(不是技術人員),背後 sandbox Agent 自動生成、自動部署。四個月前他想做但模型還不夠;現在似乎剛好夠了。


終端沒有死:CMUX/TMUX 類工具仍在被重度使用

雖然 GUI 在大潮流上贏了,但專注式工作仍然傾向終端他們用 CMUX 一類的"超級終端"(基於 Ghostty 等庫),把多個終端 + 持久瀏覽器塞進一個佈局裏,用快捷鍵切換。GUI 讓多任務變容易,但有時候是"被動誘導你去多線作戰";終端在單任務深度作業上反而有專注感。


下一個大解鎖:Agent 支付(Agentic Commerce)

如果說 Computer Use 解決的是"Agent 怎麼操作電腦",那麼真正下一個解鎖是"Agent 怎麼花錢"。他們在這一段提供了一個完整的圖景:

  • Stripe 在最新一屆 Stripe Sessions 上推出了"為 Agent 發行的卡" ——綁定到你公司的卡,Agent 不接觸這類信息,需要支付時會向人確認(理論上也可以關閉確認讓其全自動);
  • 額度即風險控制:你不會把 100k 信用額度的 Amex 給 Agent,但你會願意給它一張限額每週 2000 美元的卡,這一變化解鎖了大量自動化場景(辦公室自動補貨、公司訂餐津貼、出差訂機票……);
  • 加密賽道的迴歸:推動 X402 協議(一個用 HTTP 形態發起的、Agent 友好的支付請求),以及 Stripe 自己的"機器協議"實現,預示着 Agent 支付目前是碎片化協議時期,今年的核心問題是誰能先統一標準
  • 大量初創湧入:Cross Mint、Natural Pay、agentcard.sh 等等。兩人開玩笑說"現在去做一家 agentic payments 公司,pre-revenue 都能融到一大筆"。

他們認為這是接下來 12 個月最重要的變化之一:當 Agent 開始花錢,它從"建議者"變成"行動者"。


圖像和視頻模型:能力的拐點已經被觸發,擔憂也隨之到來

他們給出一個具體例子:他用一句話生成了"自己簽約 NBA 多倫多猛龍"的寫實圖,細節包括汗水、燈光反射,連家人朋友都信以為真。單 prompt 就能做到這種程度。他們的幾個具體判斷:

  • 文本/圖像/語音三者的合成質量已足夠欺騙"非數字原住民",他甚至和家人約定了一個"暗號短語"——任何"聽起來是我"的語音電話或消息要錢,必須報暗號;
  • 他認為接下來 6 個月在 Facebook 這類老年用戶聚集的平台上將出現針對性更強、規模更大的 AI 詐騙
  • 但同樣的能力也意味着創意工作的範式轉移:曾經有同行花兩天為一張圖描邊,那是當時整週的產出。今天模型已經替代了 Photoshop 的相當一部分高價值人力;
  • Riley 的一個反直覺感受:他在 2022 年因 Midjourney 入坑 AI,但模型越完美、他對圖像生成的興趣反而越淡,因為"早期不完美才有奇蹟感"——一個值得被記住的"工具成熟的代價"。

知識工作的爆炸式提升

如果你只能從這期播客帶走一句話,他們認為是這個:"當下知識工作的提升速度,是歷史上沒有過的。"具體場景:

  • 27 頁的合同。律師報價四位數美元。他用 Claude 跑了一遍,讓模型回答"他們能怎麼坑我",逐頁指出 gotcha 條款;
  • 朋友用 Claude Max 處理公司賬務,再交給會計;會計反問"你有 CPA 經驗?";
  • 兩個人都說,已經不覺得這只是"AI 幫忙",而是**"知識工作的產能曲線被整體抬升一個台階"**。 這一波涉及裁員嗎?兩人沒回避:會,會出現摩擦;但他們更傾向於把它看作"知識工作的爆發"——更多人能做以前做不了的事。

內容創作的新邏輯:教程已死,人格還活着

他們對內容創作給出一個非常清晰的判斷:

  • 編程教程幾乎死了 ——除了少數極有人格魅力的("code with Anton"被點名);
  • 真正還在贏的內容創作者,是 Theo、Primagen 這類**"邊幹活邊聊天、有強烈人格、有真實觀點"**的人;
  • 公司也越來越意識到,傳統廣告投放在被有機社交內容部分替代——這又反過來讓中型創作者每天被無數合作郵件淹沒;
  • AI 反而把"硬技能門檻"拉低,"人格"成為最重要的差異化。 想做內容的程序員不需要 4000 美元的相機,開機、說話、有趣,就有機會。

收尾:他們給所有人的幾個實操建議

最後兩人把節奏放慢,給出了若干結論性的、可馬上行動的建議:

  1. 最佳的協作方式是 orchestrator + sub-agent,但只跟主 Agent 對話;
  2. 不要堆 skill,要為自己生成 skill:先把任務跑成功一次,再讓 Agent 寫下來;
  3. 擁有自己的記憶:用 Super Memory / Obsidian / 自己的 markdown 文件系統,不要綁死在某個產品的內置存儲裏;
  4. 聚焦:給 Agent 越窄的目標越好,給自己也是;
  5. 用語音對話替代打字:表達精度直接換成結果質量;
  6. 保持 6–7 分的通才範圍:你不需要在每個領域都做到專家,但需要懂到能"說清自己要什麼、判斷結果好不好";
  7. 現在就是最好的開始時間:信息從未如此便宜;十年功夫積累的東西,今天 20 美元/月就買得到。剩下決定結果的,是 agency——主動去做、容忍剛開始做得很差。
  8. 你不需要任何人的許可。想換城市就換、想買電腦就買、想做一個產品就做——"少即是多"的最低可行步驟永遠比 10 步規劃更有效。

解讀:這期視頻真正值得記住的幾條主線

如果把 1.5 小時的對話壓縮成幾條主線判斷,我會這樣總結:

  1. "超級應用"是 2026 的關鍵產品形態:模型在變同質化,競爭點上移到 GUI、上下文管理、工具集成、支付能力這一層。Codex 目前在這條路徑上領先。
  2. Anthropic 與 OpenAI 完成了一次角色互換:Anthropic 通過鋪產品贏得了圈外感知和融資,但代價是產品分裂;OpenAI 重新聚焦後正在收復圈內開發者。
  3. Cursor 用 xAI 的算力換"模型層入場券":這種"半收購+獨立運營"的結構可能是非模型公司唯一可行的長期路線。
  4. 個人 Agent 與超級應用是兩類,不是一類:前者是常駐、主動、擁有你;後者是反應式、協作式、被你打開。兩者的入口、記憶和產品形態會長期共存。
  5. Computer Use + Agentic Payments 是接下來 12 個月最重要的兩塊拼圖:操作能力 + 花錢能力,構成"Agent 真正能完成任務"的兩條腿。
  6. 模型只是地基,槓桿在你的"行業素養 + 表達能力 + 個人化工作流":通用知識工人能用 6–7 分的通才能力撬起從前需要專家才能做的事,但純外行依然吃不到紅利。
  7. "是否被 AI 替代"的判斷,正在從工種遷移到"差異化人格":內容、設計、文檔、合同……所有"標準化中段"會被壓平;剩下的價值集中在"只有你能給"的部分——觀點、判斷、人格、品味。