一人公司:當AI Agent擁有“bash”,她就什麼都能做
整理版優先睇
AI Agent 擁有 bash 後,能自主完成項目啟動、發票處理等任務,具備初級工程師能力閉環。
呢篇文章係作者分享佢畀 AI Agent 加咗 bash 工具嘅實驗。上一輪佢已經畀咗 Agent 圖片識別能力,今次就直接將操作系統嘅入口——bash——交畀佢。bash 本質上可以操控成個系統,所以呢個做法相當於畀咗 Agent「手同行動能力」。
作者用兩個案例展示效果:第一個係畀 Agent 一個新項目,佢自己用 ls 睇目錄、判斷環境、寫啓動腳本、檢查端口同進程,最後成功啓動並回報狀態。第二個係處理發票,Agent 自動識別圖片、提取信息、安裝 openpyxl 依賴,再導出成 Excel。成個過程冇人類幹預。
作者強調,呢個唔係傳統自動化——後者係人定義死流程,而 Agent 係自己理解目標、決定步驟、調用工具、修正錯誤,即係「生成流程」。結論係:只要畀 Agent bash,佢就具備初級工程師嘅完整能力閉環,你只需講句「搞掂呢件事」,佢就會自己諗辦法。
- 畀 AI Agent bash 工具等同於賦予佢操作系統控制權,可以直接執行命令。
- 實驗中 Agent 自行查看目錄、判斷環境、編寫啟動腳本、檢查端口,完成項目啟動。
- Agent 處理發票時自動識別圖片、提取信息、安裝依賴並導出 Excel,流程完整。
- 傳統自動化係固定流程,而 AI Agent 係自己生成流程,根據目標調整步驟。
- 你只需畀出目標,AI Agent 就能自主完成,減少人力介入,比唔少同事更可靠。
從眼睛到手:賦予 AI 行動能力
上回我畀 AI Agent 加咗圖片識別能力,佢開始識得「睇世界」。今次我做咗件更「危險」嘅事:畀佢一個 bash 工具。如果話之前係畀佢一對眼,咁今次就係將「手」同「行動能力」一齊交畀佢。
bash 本質上就係操作系統嘅入口,等於可以操控整個系統
點解 bash 咁關鍵?
你平時喺終端敲嘅每一行命令,都係話畀操作系統:去睇文件、去運行程序、去檢查端口、去安裝依賴。而家我將呢個能力交畀一個 AI Agent。就好似唔係叫 AI 幫你寫 code,而係叫佢直接去執行、驗證、修復、再執行。
案例一:佢令個項目自己跑起嚟
我畀咗佢一個項目,冇講任何嘢。佢冇問我點樣啟動,而係自己開始動手:先用 ls 睇目錄結構,判斷有冇 Python、FastAPI,依賴齊唔齊。然後寫咗一個啟動腳本 start.sh。
- 1 確認當前冇 Python 進程或 uvicorn 實例殘留
- 2 檢查 8000 端口有冇被佔用
- 3 確保一切正常之後先啟動項目
- 4 啟動完主動檢查服務係咪真係起咗
最後畀咗我一份結構清晰嘅報告。成個過程冇人類幹預。我第一反應唔係興奮,係 「後背發涼」——因為呢個已經唔係「AI 幫你做事」,而係 AI 喺替你做完整一件事,而且佢做嘅流程比好多人仲規範。講句唔客氣嘅:比唔少同事靠譜。
案例二:自動處理發票嘅完整工作流
我又試咗個更貼地嘅場景:報銷。一堆醫療發票,我特登冇話佢知文件名。佢首先去 睇環境,列出當前目錄嘅文件,然後 調用圖片識別工具 提取發票資訊,再整理彙報畀我。
我多講一句:「幫我導出成 Excel」。佢就自己睇 requirements,發現冇 openpyxl,就 自己安裝咗 openpyxl,然後寫 code 將數據結構化寫入 Excel。成個過程完全自動。
呢個能力閉環意味住咩?
當一個 Agent 能睇(圖片識別)、能做(bash 操作系統)、能寫(代碼生成)、能查(環境判斷),佢就具備咗 初級工程師嘅完整能力閉環。你唔需要話佢知「先做呢個,再做嗰個」,只需要講一句:「搞定呢件事」,佢自己會諗辦法。
以前遇到唔識嘅項目,我哋會睇文檔、搜 Google、問同事;而家多咗個選擇:直接扔畀 AI Agent。佢唔會抱怨、唔會偷懶、唔會漏步驟,仲會同你寫報告。呢個已經唔係工具,而係一個 開始「自己幹活」嘅嘢。
一人公司:當AI Agent擁有“bash”,她就什麼都能做

還記得上一次的實驗嗎?當時我只是給 AI Agent 加了一個能力——識別圖片。那時候已經有點意思了,她不再只是“讀文字”,而是開始“看世界”。

原圖是下面這張

但說實話,那還只是開胃菜。
這一次,我做了一件更“危險”的事情:我給了她一個 bash 工具。
如果說之前只是給她一雙眼睛,那麼這次,我是直接把“手”和“行動能力”一起交給了她。
什麼是 bash?為什麼這件事這麼離譜
很多人可能覺得 bash 很普通,但你仔細想一下:
bash 本質上就是操作系統的入口。
你平時在終端敲的每一行命令,本質上都是在告訴操作系統:
👉 去看文件
👉 去運行程序
👉 去檢查端口
👉 去安裝依賴
換句話說——
只要有 bash,就等於可以操控整個系統。
而我現在做的事情是:
👉 把這個能力,交給了一個 AI Agent
這就有點像什麼?
不是讓 AI 幫你寫代碼,而是讓她直接去執行、驗證、修復、再執行。
案例一:她自己把項目跑起來了
我給了她一個項目,沒有多說什麼。

接下來發生的事情,有點離譜。
她沒有問我“怎麼啓動”,也沒有讓我提供文檔,而是自己開始動手:
她先用 ls 看了一眼目錄結構,搞清楚當前環境是什麼樣子。
然後開始判斷:有沒有 Python?有沒有 FastAPI?依賴是否齊全?
接着,她沒有停下來,而是直接寫了一個啓動腳本 start.sh。
寫完之後,她也沒有盲目執行,而是做了一系列“工程師才會做的檢查”:
她確認當前沒有 Python 進程在運行,也沒有 uvicorn 實例殘留。
然後檢查 8000 端口有沒有被佔用。
這些步驟,其實就是我們平時排查問題時會做的事情——但這一次,是她自己完成的。
確認一切正常之後,她才啓動項目。
啓動完還不算結束,她還會主動檢查服務是否真的起來了。
最後,她給了我一份結構清晰的報告,大意是:
👉 項目已經成功啓動
👉 當前運行狀態正常

整個過程,沒有人類干預。
那一刻的真實感受
說實話,我第一反應不是興奮,而是有點“後背發涼”。
因為這已經不是“AI 幫你做事”,而是:
👉 AI 在替你做完整的一件事
而且她做的流程,比很多人還規範。
你可以吐槽同事忘記檢查端口、忘記清理進程、忘記寫腳本,但這個 Agent——她全都做了,而且一步不漏。
甚至有點不太客氣地說:
比不少同事靠譜。
案例二:她開始幫我處理發票了
然後我又試了一個更接地氣的場景:報銷。
如果你經常出差,一定懂那種痛苦:
👉 一堆發票
👉 各種字段要填
👉 最後還要整理到 Excel
這件事本身不難,但極其煩人。
於是我把一堆醫療發票丟給她,而且故意沒有告訴她文件名。
她是怎麼做的?

首先,她沒有慌,而是先去“看環境”——列出當前目錄的文件。
找到疑似目標之後,她調用了圖片識別工具,把發票裏的信息提取出來。
然後,她把關鍵信息整理好,直接彙報給我。
到這裏,其實已經比很多自動化工具強了。
但我又多說了一句:
👉 “幫我導出成 Excel”

接下來更精彩。
她先去看項目的 requirements,判斷當前環境有沒有相關依賴。
發現沒有之後,她自己安裝了 openpyxl。
然後寫了一段代碼,把剛剛識別出來的數據,結構化寫進 Excel 文件。
整個過程,完全自動完成。

當我打開那個 Excel 的時候,其實已經沒什麼驚訝了。

只是很平靜地覺得:嗯,這事她確實能幹。
這件事真正可怕的地方
很多人會覺得,這不就是“自動化”嗎?
但其實完全不是一個級別。
傳統自動化是:
👉 你定義好流程
👉 每一步怎麼走,都是人寫死的
而現在這個 Agent 是:
👉 自己理解目標
👉 自己決定步驟
👉 自己調用工具
👉 自己修正錯誤
換句話說:她不是在執行流程,她是在“生成流程”。
這才是本質的變化。
接下來會發生什麼?
當一個 Agent:
能看(圖片識別) 能做(bash 操作系統) 能寫(代碼生成) 能查(環境判斷)
那她其實已經具備了一個初級工程師的完整能力閉環。
你不再需要告訴她:
👉 “先做這個,再做那個”
你只需要說一句:
👉 “把這個事情搞定”
剩下的,她自己想辦法。
最後
以前遇到不會的項目,我們會:
👉 看文檔
👉 搜 Google
👉 問同事
現在多了一個選項:
👉 直接扔給 AI Agent
她不會抱怨,不會偷懶,不會忘步驟,還會給你寫報告。
有點誇張地說一句:
這已經不是工具了。
這是一個,開始“自己幹活”的東西。