實測Codex回放新能力,我把RPA自動化工作流全重做了一遍

作者:卡爾的AI沃茨
日期:2026年6月24日 上午11:14
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

實測Codex Record & Replay:將重複操作轉化為可複用AI Skill,解決RPA長期痛點

整理版摘要

呢篇文章係由作者卡爾分享佢最近測試Codex新功能Record & Replay嘅真實經驗。作者一直喺教Codex做複雜任務,佢發現呢個操作回放功能表面上似RPA,但實際運作方式完全唔同。佢想解決兩個一直卡住嘅痛點:第一係快速定向搜索資訊(例如喺X搜熱點整理成表格);第二係視頻剪輯同上傳(錄製演示後加速、剪輯、導出GIF再貼到公眾號)。呢啲步驟本身唔難,但好重複,用傳統RPA、Zapier等工具要寫規則同條件分支,好麻煩,好易因為步驟遷移而失效。Record & Replay嘅做法係直接錄製用戶操作,然後整理成可複用嘅Skill,唔使預先寫SOP,唔使改變操作習慣。

作者實測後發現,Codex唔係簡單照搬,佢會理解操作背後意圖,例如喺多輪搜索時自動增加輸入文本,生成適閤中文搜索嘅關鍵詞庫。對於視頻剪輯,佢可以錄製加速等操作,但上傳時會因為瀏覽器安全策略被阻,所以建議先出Plan檢查有冇環節會被卡。總體而言,呢個功能將人嘅一次操作轉化成Agent下次可用嘅經驗,唔再係純粹嘅回放,而係整理成Skill俾下次用。作者認為呢個功能可能取代傳統RPA同部分Replay工具,尤其適合內容創作者、產品人同小工具開發者,因為佢哋最缺嘅係可複用經驗,而唔係錄像。

  • 結論Record & Replay將重複操作轉化為可複用Skill,解決RPA需預先定義規則的痛點。
  • 方法:直接錄製操作過程,Codex自動整理成結構化Skill,無需改變操作習慣或提前寫SOP
  • 差異:與傳統RPA相比,Record & Replay更符合人類教學直覺(錄屏+說明),且能理解操作意圖(如自動擴展關鍵詞)。
  • 啟發CodexClaude Code走不同路線——Codex專注通用智能體(將現實操作轉為單元),Claude Code繼續優化編程Agent。
  • 可行動點:使用Record & Replay前,先用Plan檢查環節是否會被瀏覽器安全策略阻擋;操作時盡量用全屏、避免快捷鍵以提高成功率。
整理重點

背景與兩個真實痛點

作者卡爾一直喺教Codex做複雜任務,佢發現新出嘅操作回放功能Record & Replay真係好玩。第一反應係「呢唔係RPA咩?」,但測完之後發現完全唔係一回事。

Record & Replay

佢有兩個一直卡住嘅痛點。第一個係定向信息搜索:刷朋友圈刷羣突然遇到突發熱點,想好似真人咁打開X、搜關鍵詞、整理結果、再用Grok搜索做表格。第二個係視頻剪輯同上傳:錄完演示之後要加速、剪輯、導出GIF再貼到公眾號,呢啲步驟好重複但好難用標準描述。

定向信息搜索

視頻剪輯和上傳

整理重點

解決方案:Record & Replay點樣抹平摩擦

傳統RPAZapierMake呢啲工具,一上來就問「你想自動化啲咩?」,但好多步驟已經變成肌肉記憶,好難寫成規則。就算用iPhone快捷指令都覺得複雜,而且一旦步驟有變就要重建。

肌肉記憶

Record & Replay嘅做法係直接喺插件度撳record,然後正常做一遍,Codex喺旁邊睇住,停咗之後自動整理成結構化Skill,可以打開睇、手動改、下次直接複用。呢個過程就好似你打開視頻會議手把手教人一樣,更符合日常直覺。

結構化Skill

  • 直接錄製操作,唔使提前寫SOP
  • Codex自動整理成可複用單元
  • 可以手動修改Skill內容
整理重點

實測視頻剪輯同上傳:成功一半,有限制

對於視頻剪輯同加速,Record & Replay係做到嘅。但上傳嘅步驟會被瀏覽器自動化安全策略阻擋,所以成功咗一半。

瀏覽器安全策略

1分鐘內嘅素材剪出嚟質量仲可以。如果想做,最好先叫CodexPlan,檢查成個流程有冇環節會被卡,唔會卡先錄製。

先出Plan

另外,錄製過程中盡量唔好用快捷鍵,最好用全屏操作,咁樣成功率會高啲。

用全屏

避免快捷鍵

整理重點

未來展望:從自動化終點變成起點

目前Record & Replay仍然依賴Computer Use,靠圖片理解操作,速度唔算快,有時會判斷錯。更類人嘅操作要等更強嘅視覺模型。

Computer Use

但佢真正可能取代嘅唔只係RPA,仲有傳統Replay。傳統Replay將過去錄低畀你回頭睇,而Codex將過去變成下一次可執行嘅上下文——你上次點做,佢唔係回放畀你睇,而係整理成Skill,下次繼續用。

可複用經驗

作者卡爾認為,CodexClaude Code而家走兩條路:Codex向通用智能體飛奔,Record & Replay係明顯信號;Claude Code繼續卷編程卷Agent,例如Dynamic Workflows多Agent機制。

通用智能體

Dynamic Workflows

呢幾日一直忙住教CodeX一啲複雜嘅嘢,

新出嘅操作回放功能Record & Replay真係好玩,當時我第一個反應係,呢個唔係RPA咩,分別應該係換成AI寫步驟啫,

但係測試完之後,發現完全唔係同一回事。所以就有咗今日呢篇文章,講下佢係點樣將我一直卡住嘅兩個真實痛點解決咗。

而且測試完呢個功能,我越嚟越肯定一件事,

Codex同Claude Code,而家係行兩條唔同嘅路。

Codex喺通用智能體條路上飛奔,

Record & Replay係最明顯嘅信號,佢唔係幫你寫代碼,而係幫你將現實世界入面嘅重複操作變成可以調用嘅單元(人類撰寫聲明)。

Claude Code呢邊就係繼續內卷編程同Agent,

最近我用得最多嘅就係Dynamic Workflows(動態工作流),多Agent嘅機制令CC越嚟越擅長喺一個編程任務入面動態調度多個步驟。

Image

(PS:左邊打開Codex,右邊終端運行Claude Code)

咁返到呢兩個痛點係咩。

第一個,定向資訊搜索。

碌朋友圈碌Group突然撞到突發熱點,我哋都知道喺X上面好大機會可以見到更多討論同測試case嘅。

我之前係直接用Grok去查,然後再將結果整理成文檔,其實用Computer Use都可以完成呢個操作,只係慢,超慢,個網頁開關十幾次,仲不如我自己落手,

我想要嘅其實好簡單,

好似真人咁打開X,搜呢件事,睇結果,整理關鍵詞,喺Grok再搜一次做成表格,整理到本地。

第二個,影片剪輯同上載。

我基本上測試過大部分我碌到嘅影片剪輯Skill,佢哋其實都有啲固定嘅模板,例如靜音檢測、氣口處理、刪重複詞,仲有喺影片入面追加一啲Remotion嘅動畫特效,基本上可以剪出一份可以直接拉入剪映,追加一啲特效同音樂就可以匯出嘅口播影片。

但係呢個方案同我哋日常要上載到公眾號嘅影片素材流程係唔一樣嘅。

錄完示範影片之後,我要剪輯,加速畫面,匯出GIF,再貼到公眾號。

冇乜操作難度,都係好重複嘅固定流程,但係每次都省略唔到。

因為你好難諗到一段標準,去描述要喺咩時候加速,畫面入面出現啲咩嗰時加速,呢啲都係好難講得出嚟嘅

呢啲都係Record & Replay最擅長嘅地方。

好多步驟我哋已經熟到唔使猶豫回想,

滑鼠㩒邊度,邊個狀態代表成功,呢啲都變成肌肉記憶喇。

但係叫你寫成規則、節點、條件分支,

就開始卡住。以前嘅RPA、Zapier、Make,基本上都死喺呢度。

佢哋一嚟就只會問你,你想自動化啲咩?

就算冇做過RPA,有用iPhone手機嘅捷徑搶紅包嘅朋友都知道呢個過程有幾複雜。

Image

即係話,就算有AI嘅輔助,你都係要先了解㩒滑鼠、開關屏幕、按錄製等對應嘅操作,或者考慮係咪要額外錄一個掣入去。

做嘅流程少,我覺得冇必要浪費時間去整RPA,做嘅流程多,一旦中間有啲掣或步驟有變動,鏈路入面嘅某個環節就要重建。

反正就係我留低嘅RPA流程真係唔算多。

Record & Replay直接將呢個摩擦撫平咗。

仔細諗下,如果我要將呢個流程交畀一個人,等佢以最快速度學會,我都更傾向於打開視頻會議,手把手教一次,然後將錄影存低,佢自己操作嘅時候有咩唔明,就直接睇片就得。因為其中有好多步驟,我會一邊操作一邊輔助說明,呢個更符合我哋日常嘅直覺。

換到Codex呢邊,就係喺插件呢度將record加埋入嚟,

Image

然後正常做一次,應該㩒邊度就㩒邊度,應該填咩就填咩,

唔使改自己嘅操作方式,都唔使預先寫SOP。

Codex就喺旁邊睇住,等你停落嚟,佢將呢套過程整理成一份結構化嘅Skill,可以打開睇,可以手動改,下次直接用返。

Image

好消息,成功咗,壞消息,成功咗一半。

對於影片嘅剪輯同加速,佢係做得嘅。但係剪輯之後嘅上載,會被卡喺瀏覽器自動化對於原有站點嘅安全策略上,所以會被明確咁拒絕。

圖片

(1分鐘內嘅素材剪出嚟嘅質量都仲可以嘅)

所以如果我哋想做嘅話,做之前都係可以叫CodeX出一個Plan,睇下你整體操作嘅所有過程環節入面會唔會俾嘢卡住。喺唔被卡嘅情況下再進行錄製,就會好簡單。

仲有一個問題,喺錄製嘅呢個過程中,盡量唔好用快捷鍵,盡量喺操作嗰陣用全螢幕。

咁除咗剪輯,我啱啱仲有一個痛點,就係多輪搜索,

透過Grok直接搜索一個資訊,獲取X上面嘅高讚帖子,然後我再可以根據呢啲帖子嘅關鍵詞再去補充搜索,下載一啲影片素材同表格。咁樣操作落嚟,基本上可以滿足一篇圖文所需素材嘅60%到70%。

我比較驚喜嘅位係,Codex並唔係簡單咁照搬,佢自己有思路。

我喺操作時示範得唔算完整,

Image

我先搜咗最近三個月、點讚數(Like)超過100嘅帖子,呢個係我常用嘅選項。

將呢啲帖子整理成表格,喺最底發現遊戲構建呢個詞經常同Fable 5一齊出現。

於是我將呢兩個詞組成新嘅關鍵詞,返去X上面繼續搜索,發現咗一個點讚量好高表現唔錯嘅影片,並將佢下載落嚟作為示範素材。

Codex理解完呢一系列操作之後,會喺輸入畀Grok之前,自動增加一部分輸入文字,等佢輸出適閤中文搜索嘅關鍵詞庫。我覺得呢一點非常正,因為佢將一個好難具體化嘅細節操作自動化咗。

Image

我喺進行資訊搜索嘅時候,見到關鍵詞會自然咁諗住繼續搜,但實際上你好難預先同AI講應該點做,尤其係唔同嘅實體會有唔同嘅關鍵詞。

Codex理解咗我呢步操作,並用佢自己嘅方式實現咗出嚟。

所以最後見到,codex用呢個新Skill畀我哋整理咗完整嘅表格,輸出每個表格嘅互動指標。重提供咗短關鍵詞,從思考過程入面可以見到,佢喺搜索短關鍵詞時嘗試咗好多唔同嘅組合。

喺唔同組嘅查詢入面,佢發現多個關鍵詞指向同一批高互動帖子,所以佢會額外補充一個相關查詢,並重新整理成表格。基本上,佢已經做到一個可以同Deep Research互補嘅版本,至少達到咗我可以接受嘅水平。

Image


圖片

我哋要做嘅,就係將我哋已知嘅操作完整演練一次就得。

說實話時話,目前Record & Replay仍然依靠Computer Use,仍然靠圖片理解嚟操作,

操作起上嚟真係唔算快,間中會判斷錯應該㩒邊度。

更似人嘅操作,仲要等一個更強嘅視覺模型嚟做。

我覺得佢真正可能取代嘅,唔止係RPA,仲有一部分傳統Replay。

傳統Replay更加似係將過去錄低。

你返轉頭睇,返轉頭覆盤,返轉頭揾當時發生咗啲咩。

Codex更加激進啲。

佢唔係淨係保存過去。

佢將過去變成下一次可以執行嘅上下文。

你上次點樣做,佢唔止係回放畀你睇,而係整理成Skill,下次繼續用(人類撰寫證明)。

呢個就幾犀利喇。

因為對我呢種日日做內容、做產品、做啲小工具嘅人嚟講,

我最唔缺嘅就係錄影。

我缺嘅係可以重用嘅經驗。

我唔需要將每一次滑鼠移動都永久保存。

我需要嘅係,

下一次遇到同類任務嘅時候,

Agent記得我點樣判斷,點樣取捨,點樣驗收。

從呢個角度睇,

Record & Replay係將人嘅一次操作,

轉化成Agent下次可以用嘅經驗。

以前呢個係自動化嘅終點。

而家變咗自動化嘅起點。

@ 作者 / 卡爾


最後,多謝你睇到呢度👏如果鍾意呢篇文章,不妨順手畀我哋點讚|在看|轉發|留言 📣

如果想第一時間收到推送,不妨畀我個星標🌟

如果你有更加有趣嘅玩法,歡迎喺留言區傾下🤝

更多內容正在不斷填坑中……

圖片
這幾天一直忙着教CodeX一些複雜的活,

新出的操作回放功能Record & Replay是真好玩,當時我第一反應是,這不就是RPA嗎,區別應該就是換成AI寫步驟了,

但測完之後,發現完全不是一回事。 所以就有了今天這篇文章,講講它是怎麼把我兩個一直卡着的真實痛點給解決掉的。

而且測完這個功能,我越來越確定一件事,

Codex和 Claude Code,現在走的是兩條不同的路。

Codex在通用智能體的路上飛奔,

Record & Replay是最明顯的信號,它不是在幫你寫代碼,是在幫你把現實世界裏的重複操作變成可調用的單元(人類撰寫聲明)。

Claude Code這邊就是繼續卷編程卷Agent,

最近我用最多的就是Dynamic Workflows(動態工作流),多Agent的機制讓CC越來越擅長在一個編程任務裏動態調度多個步驟。

Image

(PS:左邊打開 Codex,右邊終端運行Claude Code)

那回到這兩個痛點是什麼。

第一個,定向信息搜索。

刷朋友圈刷羣突然碰到突發熱點,我們都知道在X上大概率是能看到更多的討論和測試case的。

我之前是直接用Grok去查,然後再把結果整理成文檔,其實用Computer Use也能完成這個操作,就是慢,超慢,那網頁頁面開關十幾次,還不如我自己上手,

我想要的其實很簡單,

像真人一樣打開X,搜這件事,翻結果,整理關鍵詞,在Grok再搜索一次做成表格,整理到本地。

第二個,視頻剪輯和上傳。

我基本上測試過大部分我刷到的視頻剪輯Skill,它們其實都有一些固定的模板,比方說靜音檢測、氣口處理、刪重複詞,還有在視頻裏面追加一些Remotion的動畫特效,基本上可以剪出一份能夠直接拖到剪映裏,追加一些特效和音樂就能導出的口播視頻。

但是這個方案跟我們日常要上傳到公眾號的視頻素材鏈路是不一樣的。

錄完演示視頻之後,我要剪輯,加速畫面,導出GIF,再貼到公眾號。

沒什麼操作難度,都是賊拉重複的固定流程,但是每次都省略不了。

因為你很難憋出來一段標準,去描述要在什麼時候加速,畫面裏出現什麼時加速,這些都是很難被說出來的

這些都是Record & Replay最擅長的地方。

很多步驟我們已經熟到不用猶豫回想,

鼠標往哪點,哪個狀態代表成功,這都成肌肉記憶了。

但讓你寫成規則、節點、條件分支,

就開始卡了。以前的RPA、Zapier、Make,基本都死在這裏。

它們一上來就只會問你,你想自動化什麼?

就算沒有做過RPA,有通過iphone手機的快捷指令搶紅包的朋友也能知道這過程有多複雜。

Image

也就是說,哪怕有AI的輔助,你也得先了解點鼠標,開關屏幕,點錄製等對應的操作,或者考慮是否要額外錄一個按鈕進去。

做的流程少了,我覺得沒必要浪費時間去弄 RPA,做的流程多了,一旦中間有一些按鍵或步驟發生遷移,鏈路裏的某個環節就要重建。

反正就是我留下來的RPA流程真不算多。

Record & Replay直接把這個摩擦給抹平了。

仔細回想一下,如果我要把這個流程交給一個人,讓TA以最快速度學會,我也更傾向於打開視頻會議,手把手教一遍,然後把錄屏存下來,TA自己操作的時候有什麼不懂,就直接看視頻就搞定了。因為其中有很多步驟,我會一邊操作一邊輔助說明,這更符合我們日常的直覺。

換到Codex這,就是在插件這裏把record添加進來,

Image

然後正常做一遍,該點哪點哪,該填什麼填什麼,

不用改自己的操作方式,也不用提前寫SOP。

Codex就在旁邊看着,等你停下來,它把這套過程整理成一份結構化的Skill,可以打開看,可以手動改,下次直接複用。

Image

好消息,成功了,壞消息,成功了一半。

對於視頻的剪輯以及加速,它是可以做的。但是剪輯之後的上傳,會被卡在瀏覽器自動化對於原有站點的安全策略上,所以會被明確地拒絕。

圖片

(1分鐘內的素材剪出來的質量還是可以的)

所以如果我們想做的話,做之前還是可以先讓CodeX出一個 Plan,看看你整體操作的所有過程環節裏會不會被卡。在不被卡的情況下再進行錄製,就會很簡單。

還有一個問題,在錄製的這個過程中,儘可能不要用快捷鍵,儘可能在操作的時候用全屏。

那除了剪輯,我剛剛還有一個痛點,就是多輪搜索,

通過Grok直接搜索一個信息,獲取 X上面的高贊帖子,然後我再可以根據這些帖子的關鍵詞再去補充搜索,下載一些視頻素材和表格。這樣操作下來,基本能滿足一篇圖文所需素材的 60% 到 70%。

我比較驚喜的點是,Codex並不是在簡單地照搬,它有自己的思路。

我在操作時演示得不算完整,

Image

我先搜了最近三個月、點贊數(Like)超過 100 的帖子,這是我常用的選項。

把這些帖子整理成表格,在最底下發現遊戲構建這個詞經常和Fable 5一起出現。

於是我把這兩個詞組成新的關鍵詞,回到X上繼續搜索,發現了一個點贊量很高表現不錯的視頻,並把它下載下來作為演示素材。

Codex 理解完這一系列操作後,會在輸入給Grok之前,自動增加一部分輸入文本,讓它輸出適合中文搜索的關鍵詞庫。我覺得這一點非常棒,因為它把一個很難具象化的細節操作給自動化了。

Image

我在進行信息搜索的時候,看到關鍵詞會自然地想着往下搜,但實際上你很難提前告訴 AI 該怎麼做,特別是不同的實體會有不同的關鍵詞。

Codex理解了我的這部操作,並用它自己的方式實現了出來。

所以最後能看到,codex用這個新skill給我們整理了完整的表格,輸出每個表格的互動指標。還提供了短關鍵詞,從思考過程中可以看到,它在搜索短關鍵詞時嘗試了很多不同的組合。

在不同組的查詢中,它發現多個關鍵詞指向的是同一批高互贊帖子,所以它會還額外補充一個相關查詢,並重新整理成表格。基本上,它已經能做到一個可以和Deep Research互補的版本,至少達到了我能接受的水平。

Image


圖片

我們要做的,就是把我們已知的操作完整演練一遍就可以了。

說實話,目前Record & Replay還是依賴Computer Use,還是靠圖片理解在操作,

操作起來真不算快,偶爾會判斷錯該點哪裏。

更類人的操作,還得等一個更強的視覺模型來做。

我覺得它真正可能替代的,不只是RPA,還有一部分傳統 Replay。

傳統Replay更像是把過去錄下來。

你回頭看,回頭覆盤,回頭找當時發生了什麼。

Codex更激進一點。

它不是隻保存過去。

它把過去變成下一次可執行的上下文。

你上次怎麼做的,它不只是回放給你看,是整理成 Skill,下次繼續用(人類撰寫證明)。

這就很騷了。

因為對我這種天天做內容,做產品,做點小工具的人來說,

我最不缺的就是錄像。

我缺的是可以複用的經驗。

我不需要把每一次鼠標移動都永久保存。

我需要的是,

下一次遇到同類任務時,

Agent記得我怎麼判斷,怎麼取捨,怎麼驗收。

從這個角度看,

Record & Replay是把人的一次操作,

轉化成Agent下次能用的經驗。

以前這是自動化的終點。

現在成了自動化的起點。

@ 作者 / 卡爾


最後,感謝你看到這裏👏如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論 📣

如果想要第一時間收到推送,不妨給我個星標🌟

如果你有更有趣的玩法,歡迎在評論區聊聊🤝

更多的內容正在不斷填坑中……

圖片