OpenClaw 的命門，被 Anthropic 用一張“屏幕截圖”精準擊中了

作者：zjy365 獨立開發日誌

日期：2026年3月26日上午2:22

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Claude 用 Computer Use + Dispatch 組合，為 Agent 開發者解決咗無 API 嘅死衚衕，同時將 AI 助手嘅天花板大幅提高。

整理版摘要

作者本身係一個 Agent 開發者，匿埋做咗一個 Agent 項目，最近成功跑通咗第一個可用版本。呢個過程入面佢踩咗好多坑，最深嘅體會係：最難嘅唔係令 AI 「變聰明」，而係令佢真正觸達到你想操控嘅嘢。當目標軟件冇 API 嗰陣，成個自動化鏈條就會斷咗，呢種無力感佢經歷過好多次。

Claude 今次嘅更新就係針對呢個痛點。佢哋推出咗 Computer Use 同 Dispatch 呢個組合：Computer Use 令 AI 可以透過持續截屏嚟「睇」你個電腦屏幕，然後模擬鼠標鍵盤操作；Dispatch 係手機端嘅遠程任務入口，配對之後，你可以喺手機發句指令，AI 就喺你電腦自動執行。呢個組合嘅威力在於，AI 可以同時用 API 同睇屏幕，咩軟件都操控到。

OpenClaw 嘅處境就尷尬啦。佢哋做對咗一件事：將 AI 入口放喺聊天工具，用戶零門檻使用。但佢哋只靠工具調用一條腿行路，而且視覺操控對模型能力要求極高，第三方好難同 Claude 自家模型比。不過 Claude 亦都有短板：對中國用戶嚟講封號風險大、消耗 token 好快、冇 IM 集成。總括嚟講，AI 助手嘅天花板已經被大幅提高，每個玩家都要重新審視自己嘅位置。

Claude 嘅視覺操控方案解決咗 Agent 開發中無 API 嘅關鍵斷點，但消耗大，唔係完美方案。
Computer Use 透過持續截屏模擬鼠標鍵盤，Dispatch 提供手機遠程入口，兩個夾埋可以操控任何軟件。
OpenClaw 靠工具調用，IM 集成係最大優勢；Claude 靠自家模型做視覺，模型公司做 Agent 有正循環優勢。
視覺方案係過渡技術，未來軟件會被迫開放接口；Agent 開發者應該混用工具調用同視覺操控。
AI 助手嘅安全信任門檻極高，要喺自由同控制之間揾平衡，核心場景做到「閉眼用都唔出錯」先係真正壁壘。

整理重點

自己做 Agent 撞過嘅牆

作者自己動手做 Agent 之後發現，最難嘅部分通常唔係令 AI 「變聰明」，而係令佢真正觸達到你想操控嘅嘢。目標軟件畀唔畀接口，係第一個問題。

所以當 Claude 發佈 Computer Use + Dispatch 嘅時候，作者嘅第一反應係「呢個思路可以解決我遇到嘅死衚衕」。

整理重點

兩條技術路線：工具調用 vs 視覺操控

而家 Agent 嘅技術路線主要有兩條：工具調用同視覺操控。OpenClaw 同大部分 Agent 框架都係行工具調用路線，而 Claude 今次就係強化咗視覺操控呢條路。

工具調用嘅優點係快、準、可控，但缺點係只能操控「配合你」嘅系統。

視覺操控嘅優點係萬能，咩軟件都操控到，但缺點係慢、費資源、容易出錯。

作者認為，呢兩條路線各有長短，夾埋用先係最佳做法。

整理重點

Claude 嘅組合拳：Computer Use + Dispatch

Claude 今次主要做咗兩個嘢：Computer Use 同 Dispatch。Computer Use 令 AI 透過持續截屏嚟「睇」你電腦屏幕，然後模擬鼠標鍵盤操作；Dispatch 係手機端嘅遠程任務入口，配對之後手機落指令，AI 就喺電腦執行。

Dispatch 會自動判斷任務類型，編碼類交畀 Claude Code，知識類走 Cowork，各自獨立運作，互不幹擾。

1 Computer Use：持續截屏「睇」屏幕，模擬鼠標鍵盤操作。
2 Dispatch：手機端遠程入口，配對後手機下指令電腦執行。
3 組合效果：隨時隨地用手機下指令，AI 喺電腦上可以走 API 又可以睇屏幕，任何軟件都操控到。

整理重點

OpenClaw 嘅處境同作者嘅思考

作者對 OpenClaw 有共情，佢哋做對咗好重要嘅事：將 AI 入口放喺聊天工具，用戶唔使學新嘢，喺微信 @ 佢就用得。但天花板亦好明顯：單腿走路，只靠工具調用；模型壁壘令第三方好難同 Claude 自家模型比。

Anthropic 對 OpenClaw 嘅策略係「唔搭理但每次更新都砍你命脈」。

不過 Claude 都有短板：封號問題令中國用戶卻步；視覺方案 token 消耗好大，有人兩日燒完一週額度；Dispatch 唔可以嵌入微信、飛書等日常通訊工具，呢個正係 OpenClaw 嘅核心場景。

框架係骨架，模型係大腦。模型公司做 Agent 可以根據 Agent 需求優化模型，形成正循環。
安全信任門檻極高：要畀 AI 夠自由做嘢，但又唔可以失控。
用戶留低唔係因為功能多，而係核心場景做到「閉眼用都唔會出錯」。

朋友們，好久不見

消失了一陣子，主要是悶頭在做一個自己的 Agent 項目，最近終於跑通了第一個可用版本，算是有了初步的成果。過程中踩了不少坑，也對整個 AI Agent 的生態有了更深的體感。

今天不聊我自己做的東西，先聊聊最近行業裏發生的一些變化。因為正好是自己在做 Agent，所以看這些事情的視角跟以前純當用戶的時候完全不一樣了，有些感受還挺強烈的，拿出來跟大家說說。

一個做 Agent 的人，怎麼看 Claude 和 OpenClaw 這場暗戰

先說我為什麼關注這件事

自己動手做過 Agent 之後你會發現，最難的部分往往不是讓 AI "變聰明"，而是讓它真正觸達到你要操控的東西。

你想讓 AI 幫用戶自動完成某個工作流，第一個問題就是：目標軟件給不給你接口？如果有 API，萬事好辦；如果沒有，你就只能乾瞪眼。我在開發過程中被這個問題卡過很多次，深知這種無力感。

所以當 Claude 發佈 Computer Use + Dispatch 這套組合的時候，我的第一反應不是 "哇好酷"，而是 **"這個思路可以解決我遇到的那個死衚衕"**。

一堵所有 Agent 開發者都撞過的牆

做 Agent 的人都知道，現在的技術路線主要就是兩條：

1. 工具調用 (Tool Calling)

• 把各種能力封裝成函數或 API，讓 AI 按需調用。OpenClaw 走的就是這條路，大部分 Agent 框架也是這個思路。
• 優點： 快、準、可控。
• 缺點： 只能操控那些“配合你”的系統。微信不給你接口，你就控制不了微信；某個老舊的企業系統沒有 API，你就沒轍。

2. 視覺操控 (Visual Control)

• 讓 AI 像人一樣看屏幕、點鼠標。之前手機端的一些產品已經在走這條路了，但桌面端一直沒有成熟的方案。
• 優點： 萬能，什麼軟件都能操控。
• 缺點： 慢、費資源、容易出錯。

我自己做 Agent 的時候，80% 的場景靠第一條路線就夠了。但總有那麼幾個關鍵環節，目標系統就是沒有接口，整個自動化鏈條就斷在那裏。

這種感覺就像你修了一條高速公路，結果中間有一段爛泥地，車開不過去。Claude 這次做的事情，本質上就是給這段爛泥地鋪了一條路——雖然是土路，速度不快，但至少能通。

Claude 到底做了什麼？

主要是兩個東西的組合：

• Computer Use —— 讓 AI 通過持續截屏來“看見”你的電腦屏幕，然後模擬鼠標鍵盤操作。原理不復雜，但對模型的視覺理解和操作規劃能力要求極高。
• Dispatch —— 手機端的遠程任務入口。配對之後，你在手機上發一句話，AI 就在你電腦上執行。它會自動判斷任務類型，編碼類的交給 Claude Code，知識類的走 Cowork，各自獨立運行，互不干擾。

組合起來的效果： 你隨時隨地掏出手機下指令，Claude 在你電腦上既能走 API 又能看屏幕，什麼軟件都能操控。實際效果比如：讓它打開微信幫你翻羣聊消息做總結，或者先去瀏覽器搜資料再打開微信發朋友圈——這種跨應用、其中有些應用沒有任何接口的操作鏈，以前是完全做不到的。

那 OpenClaw 怎麼辦？

說實話，作為一個同樣在做 Agent 的人，我對 OpenClaw 的處境是有共情的。

OpenClaw 做對了一件非常重要的事：它把 AI 的入口放在了聊天工具裏。 你不用學任何新東西，在微信羣裏 @ 它就能用。這個產品直覺是很強的，普通人上手零門檻。

但它的天花板也很明顯：

• 單腿走路： 它只有工具調用這一條腿。
• 模型壁壘： 視覺操控這種對模型能力要求極高的場景，第三方接哪家模型都不如 Claude 自家的模型好使。模型公司親自下場做 Agent，就像飯店廚師用自己種的菜，食材供應鏈全控制。第三方 Agent 是去市場上採購食材，質量和穩定性天然差一檔。

這也是 Anthropic 對 OpenClaw 一直採取“不搭理但每次更新都砍你命脈”這種策略的底氣所在。

但也別覺得 OpenClaw 就完了

公平地說，Claude 有幾個短板在中短期內是繞不過去的：

• 封號問題： 對中國用戶來說這是最大的攔路虎，不確定性讓很多人根本不敢把它當主力工具。
• 消耗太狠： 視覺方案意味着不斷截屏和圖像識別，token 消耗是常規對話的好幾倍。有人試了用 Dispatch 純聊天，兩天就把一週的額度燒完了。
• IM 集成的缺失： Claude 的 Dispatch 只能通過自家 App 發起，不能嵌入微信、飛書這些日常通訊工具。而這恰恰是 OpenClaw 的核心場景。

一個做 Agent 的人的幾點思考

1. 關於視覺方案的未來： 我個人判斷它是一個非常重要的過渡性技術。當 AI 操控軟件變成常態後，軟件廠商會被迫開放接口——與其讓 AI 笨拙地截屏，不如主動開門。但在過渡期內，視覺方案就是填補空白的關鍵拼圖。
2. 關於模型和框架的關係： 框架是骨架，模型是大腦。 骨架可以搭得很漂亮，但如果大腦不夠聰明，什麼花架子都白搭。模型公司做 Agent 可以反過來根據 Agent 的需求優化模型，形成正循環。
3. 關於安全： 讓 AI 持續錄屏並操控電腦，信任門檻極高。你既要讓它足夠自由才能幹活，又不能讓它自由到失控。這個平衡點很微妙。
4. 關於功能堆疊和產品打磨： 用戶真正願意留下來，不是因為你功能多，而是因為某一兩個核心場景你做到了“閉着眼睛用都不會出錯”的程度。真正的壁壘是模型能力和對場景的深度理解。

最後

不是“Claude 殺死 OpenClaw”，更準確的說法是：AI 助手這個品類的天花板被大幅抬高了，而牌桌上的每個玩家都必須重新審視自己的位置。

AI 正在從“只能操控願意配合的系統”進化到“能操控一切有界面的系統”。這個轉變一旦完成，整個軟件行業的交互方式都會被重新定義。

我們正站在這個變化的起點。而我自己做的那個 Agent，也正好卡在這個浪頭上。後面有機會再跟大家細聊。