OpenClaw 的命門,被 Anthropic 用一張“屏幕截圖”精準擊中了

作者:zjy365 獨立開發日誌
日期:2026年3月26日 上午2:22
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

ClaudeComputer Use + Dispatch 組合,為 Agent 開發者解決咗無 API 嘅死衚衕,同時將 AI 助手嘅天花板大幅提高。

整理版摘要

作者本身係一個 Agent 開發者,匿埋做咗一個 Agent 項目,最近成功跑通咗第一個可用版本。呢個過程入面佢踩咗好多坑,最深嘅體會係:最難嘅唔係令 AI 「變聰明」,而係令佢真正觸達到你想操控嘅嘢。當目標軟件冇 API 嗰陣,成個自動化鏈條就會斷咗,呢種無力感佢經歷過好多次。

Claude 今次嘅更新就係針對呢個痛點。佢哋推出咗 Computer UseDispatch 呢個組合:Computer Use 令 AI 可以透過持續截屏嚟「睇」你個電腦屏幕,然後模擬鼠標鍵盤操作;Dispatch 係手機端嘅遠程任務入口,配對之後,你可以喺手機發句指令,AI 就喺你電腦自動執行。呢個組合嘅威力在於,AI 可以同時用 API 同睇屏幕,咩軟件都操控到。

OpenClaw 嘅處境就尷尬啦。佢哋做對咗一件事:將 AI 入口放喺聊天工具,用戶零門檻使用。但佢哋只靠工具調用一條腿行路,而且視覺操控對模型能力要求極高,第三方好難同 Claude 自家模型比。不過 Claude 亦都有短板:對中國用戶嚟講封號風險大、消耗 token 好快、冇 IM 集成。總括嚟講,AI 助手嘅天花板已經被大幅提高,每個玩家都要重新審視自己嘅位置。

  • Claude 嘅視覺操控方案解決咗 Agent 開發中無 API 嘅關鍵斷點,但消耗大,唔係完美方案。
  • Computer Use 透過持續截屏模擬鼠標鍵盤,Dispatch 提供手機遠程入口,兩個夾埋可以操控任何軟件。
  • OpenClaw 靠工具調用,IM 集成係最大優勢;Claude 靠自家模型做視覺,模型公司做 Agent 有正循環優勢。
  • 視覺方案係過渡技術,未來軟件會被迫開放接口;Agent 開發者應該混用工具調用同視覺操控。
  • AI 助手嘅安全信任門檻極高,要喺自由同控制之間揾平衡,核心場景做到「閉眼用都唔出錯」先係真正壁壘。
整理重點

自己做 Agent 撞過嘅牆

作者自己動手做 Agent 之後發現,最難嘅部分通常唔係令 AI 「變聰明」,而係令佢真正觸達到你想操控嘅嘢。目標軟件畀唔畀接口,係第一個問題。

所以當 Claude 發佈 Computer Use + Dispatch 嘅時候,作者嘅第一反應係「呢個思路可以解決我遇到嘅死衚衕」。

整理重點

兩條技術路線:工具調用 vs 視覺操控

而家 Agent 嘅技術路線主要有兩條:工具調用同視覺操控。OpenClaw 同大部分 Agent 框架都係行工具調用路線,而 Claude 今次就係強化咗視覺操控呢條路。

工具調用嘅優點係快、準、可控,但缺點係只能操控「配合你」嘅系統。

視覺操控嘅優點係萬能,咩軟件都操控到,但缺點係慢、費資源、容易出錯。

作者認為,呢兩條路線各有長短,夾埋用先係最佳做法。

整理重點

Claude 嘅組合拳:Computer Use + Dispatch

Claude 今次主要做咗兩個嘢Computer UseDispatchComputer Use 令 AI 透過持續截屏嚟「睇」你電腦屏幕,然後模擬鼠標鍵盤操作;Dispatch 係手機端嘅遠程任務入口,配對之後手機落指令,AI 就喺電腦執行。

Dispatch 會自動判斷任務類型,編碼類交畀 Claude Code,知識類走 Cowork,各自獨立運作,互不幹擾。

  1. 1 Computer Use:持續截屏「睇」屏幕,模擬鼠標鍵盤操作。
  2. 2 Dispatch:手機端遠程入口,配對後手機下指令電腦執行。
  3. 3 組合效果:隨時隨地用手機下指令,AI 喺電腦上可以走 API 又可以睇屏幕,任何軟件都操控到。
整理重點

OpenClaw 嘅處境同作者嘅思考

作者對 OpenClaw 有共情,佢哋做對咗好重要嘅事:將 AI 入口放喺聊天工具,用戶唔使學新嘢,喺微信 @ 佢就用得。但天花板亦好明顯:單腿走路,只靠工具調用;模型壁壘令第三方好難同 Claude 自家模型比。

AnthropicOpenClaw 嘅策略係「唔搭理但每次更新都砍你命脈」。

不過 Claude 都有短板:封號問題令中國用戶卻步;視覺方案 token 消耗好大,有人兩日燒完一週額度;Dispatch 唔可以嵌入微信、飛書等日常通訊工具,呢個正係 OpenClaw 嘅核心場景。

  • 框架係骨架,模型係大腦。模型公司做 Agent 可以根據 Agent 需求優化模型,形成正循環。
  • 安全信任門檻極高:要畀 AI 夠自由做嘢,但又唔可以失控。
  • 用戶留低唔係因為功能多,而係核心場景做到「閉眼用都唔會出錯」。

朋友們,好久不見

消失了一陣子,主要是悶頭在做一個自己的 Agent 項目,最近終於跑通了第一個可用版本,算是有了初步的成果。過程中踩了不少坑,也對整個 AI Agent 的生態有了更深的體感。

今天不聊我自己做的東西,先聊聊最近行業裏發生的一些變化。因為正好是自己在做 Agent,所以看這些事情的視角跟以前純當用戶的時候完全不一樣了,有些感受還挺強烈的,拿出來跟大家說說。


一個做 Agent 的人,怎麼看 Claude 和 OpenClaw 這場暗戰

先說我為什麼關注這件事

自己動手做過 Agent 之後你會發現,最難的部分往往不是讓 AI "變聰明",而是讓它真正觸達到你要操控的東西

你想讓 AI 幫用戶自動完成某個工作流,第一個問題就是:目標軟件給不給你接口?如果有 API,萬事好辦;如果沒有,你就只能乾瞪眼。我在開發過程中被這個問題卡過很多次,深知這種無力感。

所以當 Claude 發佈 Computer Use + Dispatch 這套組合的時候,我的第一反應不是 "哇好酷",而是 **"這個思路可以解決我遇到的那個死衚衕"**。


一堵所有 Agent 開發者都撞過的牆

做 Agent 的人都知道,現在的技術路線主要就是兩條:

  1. 1. 工具調用 (Tool Calling)
    • • 把各種能力封裝成函數或 API,讓 AI 按需調用。OpenClaw 走的就是這條路,大部分 Agent 框架也是這個思路。
    • • 優點: 快、準、可控。
    • • 缺點: 只能操控那些“配合你”的系統。微信不給你接口,你就控制不了微信;某個老舊的企業系統沒有 API,你就沒轍。
  2. 2. 視覺操控 (Visual Control)
    • • 讓 AI 像人一樣看屏幕、點鼠標。之前手機端的一些產品已經在走這條路了,但桌面端一直沒有成熟的方案。
    • • 優點: 萬能,什麼軟件都能操控。
    • • 缺點: 慢、費資源、容易出錯。

我自己做 Agent 的時候,80% 的場景靠第一條路線就夠了。但總有那麼幾個關鍵環節,目標系統就是沒有接口,整個自動化鏈條就斷在那裏。

這種感覺就像你修了一條高速公路,結果中間有一段爛泥地,車開不過去。Claude 這次做的事情,本質上就是給這段爛泥地鋪了一條路——雖然是土路,速度不快,但至少能通。


Claude 到底做了什麼?

主要是兩個東西的組合:

  • • Computer Use —— 讓 AI 通過持續截屏來“看見”你的電腦屏幕,然後模擬鼠標鍵盤操作。原理不復雜,但對模型的視覺理解和操作規劃能力要求極高。
  • • Dispatch —— 手機端的遠程任務入口。配對之後,你在手機上發一句話,AI 就在你電腦上執行。它會自動判斷任務類型,編碼類的交給 Claude Code,知識類的走 Cowork,各自獨立運行,互不干擾。

組合起來的效果: 你隨時隨地掏出手機下指令,Claude 在你電腦上既能走 API 又能看屏幕,什麼軟件都能操控。實際效果比如:讓它打開微信幫你翻羣聊消息做總結,或者先去瀏覽器搜資料再打開微信發朋友圈——這種跨應用、其中有些應用沒有任何接口的操作鏈,以前是完全做不到的。


那 OpenClaw 怎麼辦?

說實話,作為一個同樣在做 Agent 的人,我對 OpenClaw 的處境是有共情的。

OpenClaw 做對了一件非常重要的事:它把 AI 的入口放在了聊天工具裏。 你不用學任何新東西,在微信羣裏 @ 它就能用。這個產品直覺是很強的,普通人上手零門檻。

但它的天花板也很明顯:

  • • 單腿走路: 它只有工具調用這一條腿。
  • • 模型壁壘: 視覺操控這種對模型能力要求極高的場景,第三方接哪家模型都不如 Claude 自家的模型好使。模型公司親自下場做 Agent,就像飯店廚師用自己種的菜,食材供應鏈全控制。第三方 Agent 是去市場上採購食材,質量和穩定性天然差一檔。

這也是 Anthropic 對 OpenClaw 一直採取“不搭理但每次更新都砍你命脈”這種策略的底氣所在。


但也別覺得 OpenClaw 就完了

公平地說,Claude 有幾個短板在中短期內是繞不過去的:

  • • 封號問題: 對中國用戶來說這是最大的攔路虎,不確定性讓很多人根本不敢把它當主力工具。
  • • 消耗太狠: 視覺方案意味着不斷截屏和圖像識別,token 消耗是常規對話的好幾倍。有人試了用 Dispatch 純聊天,兩天就把一週的額度燒完了。
  • • IM 集成的缺失: Claude 的 Dispatch 只能通過自家 App 發起,不能嵌入微信、飛書這些日常通訊工具。而這恰恰是 OpenClaw 的核心場景。

一個做 Agent 的人的幾點思考

  1. 1. 關於視覺方案的未來: 我個人判斷它是一個非常重要的過渡性技術。當 AI 操控軟件變成常態後,軟件廠商會被迫開放接口——與其讓 AI 笨拙地截屏,不如主動開門。但在過渡期內,視覺方案就是填補空白的關鍵拼圖。
  2. 2. 關於模型和框架的關係: 框架是骨架,模型是大腦。 骨架可以搭得很漂亮,但如果大腦不夠聰明,什麼花架子都白搭。模型公司做 Agent 可以反過來根據 Agent 的需求優化模型,形成正循環。
  3. 3. 關於安全: 讓 AI 持續錄屏並操控電腦,信任門檻極高。你既要讓它足夠自由才能幹活,又不能讓它自由到失控。這個平衡點很微妙。
  4. 4. 關於功能堆疊和產品打磨: 用戶真正願意留下來,不是因為你功能多,而是因為某一兩個核心場景你做到了“閉着眼睛用都不會出錯”的程度。真正的壁壘是模型能力和對場景的深度理解。

最後

不是“Claude 殺死 OpenClaw”,更準確的說法是:AI 助手這個品類的天花板被大幅抬高了,而牌桌上的每個玩家都必須重新審視自己的位置。

AI 正在從“只能操控願意配合的系統”進化到“能操控一切有界面的系統”。這個轉變一旦完成,整個軟件行業的交互方式都會被重新定義。

我們正站在這個變化的起點。而我自己做的那個 Agent,也正好卡在這個浪頭上。後面有機會再跟大家細聊。