一人公司:當AI Agent擁有“bash”,她就什麼都能做

作者:從零開始學AI
日期:2026年3月22日 上午6:54
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI Agent 擁有 bash 後,能自主完成項目啟動、發票處理等任務,具備初級工程師能力閉環。

整理版摘要

呢篇文章係作者分享佢畀 AI Agent 加咗 bash 工具嘅實驗。上一輪佢已經畀咗 Agent 圖片識別能力,今次就直接將操作系統嘅入口——bash——交畀佢。bash 本質上可以操控成個系統,所以呢個做法相當於畀咗 Agent「手同行動能力」。

作者用兩個案例展示效果:第一個係畀 Agent 一個新項目,佢自己用 ls 睇目錄、判斷環境、寫啓動腳本、檢查端口同進程,最後成功啓動並回報狀態。第二個係處理發票,Agent 自動識別圖片、提取信息、安裝 openpyxl 依賴,再導出成 Excel。成個過程冇人類幹預。

作者強調,呢個唔係傳統自動化——後者係人定義死流程,而 Agent 係自己理解目標、決定步驟、調用工具、修正錯誤,即係「生成流程」。結論係:只要畀 Agent bash,佢就具備初級工程師嘅完整能力閉環,你只需講句「搞掂呢件事」,佢就會自己諗辦法。

  • 畀 AI Agent bash 工具等同於賦予佢操作系統控制權,可以直接執行命令。
  • 實驗中 Agent 自行查看目錄、判斷環境、編寫啟動腳本、檢查端口,完成項目啟動。
  • Agent 處理發票時自動識別圖片、提取信息、安裝依賴並導出 Excel,流程完整。
  • 傳統自動化係固定流程,而 AI Agent 係自己生成流程,根據目標調整步驟。
  • 你只需畀出目標,AI Agent 就能自主完成,減少人力介入,比唔少同事更可靠。
整理重點

從眼睛到手:賦予 AI 行動能力

上回我畀 AI Agent 加咗圖片識別能力,佢開始識得「睇世界」。今次我做咗件更「危險」嘅事:畀佢一個 bash 工具。如果話之前係畀佢一對眼,咁今次就係將「手」同「行動能力」一齊交畀佢。

bash 本質上就係操作系統嘅入口,等於可以操控整個系統

整理重點

點解 bash 咁關鍵?

你平時喺終端敲嘅每一行命令,都係話畀操作系統:去睇文件、去運行程序、去檢查端口、去安裝依賴。而家我將呢個能力交畀一個 AI Agent。就好似唔係叫 AI 幫你寫 code,而係叫佢直接去執行、驗證、修復、再執行。

整理重點

案例一:佢令個項目自己跑起嚟

我畀咗佢一個項目,冇講任何嘢。佢冇問我點樣啟動,而係自己開始動手:先用 ls 睇目錄結構,判斷有冇 PythonFastAPI,依賴齊唔齊。然後寫咗一個啟動腳本 start.sh。

  1. 1 確認當前冇 Python 進程或 uvicorn 實例殘留
  2. 2 檢查 8000 端口有冇被佔用
  3. 3 確保一切正常之後先啟動項目
  4. 4 啟動完主動檢查服務係咪真係起咗

最後畀咗我一份結構清晰嘅報告。成個過程冇人類幹預。我第一反應唔係興奮,係 「後背發涼」——因為呢個已經唔係「AI 幫你做事」,而係 AI 喺替你做完整一件事,而且佢做嘅流程比好多人仲規範。講句唔客氣嘅:比唔少同事靠譜。

整理重點

案例二:自動處理發票嘅完整工作流

我又試咗個更貼地嘅場景:報銷。一堆醫療發票,我特登冇話佢知文件名。佢首先去 睇環境,列出當前目錄嘅文件,然後 調用圖片識別工具 提取發票資訊,再整理彙報畀我。

我多講一句:「幫我導出成 Excel」。佢就自己睇 requirements,發現冇 openpyxl,就 自己安裝咗 openpyxl,然後寫 code 將數據結構化寫入 Excel。成個過程完全自動。

整理重點

呢個能力閉環意味住咩?

當一個 Agent 能睇(圖片識別)、能做(bash 操作系統)、能寫(代碼生成)、能查(環境判斷),佢就具備咗 初級工程師嘅完整能力閉環。你唔需要話佢知「先做呢個,再做嗰個」,只需要講一句:「搞定呢件事」,佢自己會諗辦法。

以前遇到唔識嘅項目,我哋會睇文檔、搜 Google、問同事;而家多咗個選擇:直接扔畀 AI Agent。佢唔會抱怨、唔會偷懶、唔會漏步驟,仲會同你寫報告。呢個已經唔係工具,而係一個 開始「自己幹活」嘅嘢。

從零開始學AI!
我都可以?你一定也可以!
專欄 - 從零開始學AI
專欄 - 寫出神提示:小白也能掌握的提示詞魔法

一人公司:當AI Agent擁有“bash”,她就什麼都能做

圖片

還記得上一次的實驗嗎?當時我只是給 AI Agent 加了一個能力——識別圖片。那時候已經有點意思了,她不再只是“讀文字”,而是開始“看世界”。

圖片

原圖是下面這張

圖片

但說實話,那還只是開胃菜。

這一次,我做了一件更“危險”的事情:我給了她一個 bash 工具。

如果說之前只是給她一雙眼睛,那麼這次,我是直接把“手”和“行動能力”一起交給了她。

什麼是 bash?為什麼這件事這麼離譜

很多人可能覺得 bash 很普通,但你仔細想一下:

bash 本質上就是操作系統的入口。

你平時在終端敲的每一行命令,本質上都是在告訴操作系統:
👉 去看文件
👉 去運行程序
👉 去檢查端口
👉 去安裝依賴

換句話說——

只要有 bash,就等於可以操控整個系統。

而我現在做的事情是:
👉 把這個能力,交給了一個 AI Agent

這就有點像什麼?

不是讓 AI 幫你寫代碼,而是讓她直接去執行、驗證、修復、再執行

案例一:她自己把項目跑起來了

我給了她一個項目,沒有多說什麼。

圖片

接下來發生的事情,有點離譜。

她沒有問我“怎麼啓動”,也沒有讓我提供文檔,而是自己開始動手:

她先用 ls 看了一眼目錄結構,搞清楚當前環境是什麼樣子。
然後開始判斷:有沒有 Python?有沒有 FastAPI?依賴是否齊全?

接着,她沒有停下來,而是直接寫了一個啓動腳本 start.sh

寫完之後,她也沒有盲目執行,而是做了一系列“工程師才會做的檢查”:

她確認當前沒有 Python 進程在運行,也沒有 uvicorn 實例殘留。
然後檢查 8000 端口有沒有被佔用。

這些步驟,其實就是我們平時排查問題時會做的事情——但這一次,是她自己完成的。

確認一切正常之後,她才啓動項目。

啓動完還不算結束,她還會主動檢查服務是否真的起來了。

最後,她給了我一份結構清晰的報告,大意是:

👉 項目已經成功啓動
👉 當前運行狀態正常

圖片

整個過程,沒有人類干預。

那一刻的真實感受

說實話,我第一反應不是興奮,而是有點“後背發涼”。

因為這已經不是“AI 幫你做事”,而是:

👉 AI 在替你做完整的一件事

而且她做的流程,比很多人還規範。

你可以吐槽同事忘記檢查端口、忘記清理進程、忘記寫腳本,但這個 Agent——她全都做了,而且一步不漏。

甚至有點不太客氣地說:

比不少同事靠譜。

案例二:她開始幫我處理發票了

然後我又試了一個更接地氣的場景:報銷。

如果你經常出差,一定懂那種痛苦:

👉 一堆發票
👉 各種字段要填
👉 最後還要整理到 Excel

這件事本身不難,但極其煩人。

於是我把一堆醫療發票丟給她,而且故意沒有告訴她文件名。

她是怎麼做的?

圖片

首先,她沒有慌,而是先去“看環境”——列出當前目錄的文件。
找到疑似目標之後,她調用了圖片識別工具,把發票裏的信息提取出來。

然後,她把關鍵信息整理好,直接彙報給我。

到這裏,其實已經比很多自動化工具強了。

但我又多說了一句:

👉 “幫我導出成 Excel”

圖片

接下來更精彩。

她先去看項目的 requirements,判斷當前環境有沒有相關依賴。
發現沒有之後,她自己安裝了 openpyxl

然後寫了一段代碼,把剛剛識別出來的數據,結構化寫進 Excel 文件。

整個過程,完全自動完成。

圖片

當我打開那個 Excel 的時候,其實已經沒什麼驚訝了。

圖片

只是很平靜地覺得:嗯,這事她確實能幹。

這件事真正可怕的地方

很多人會覺得,這不就是“自動化”嗎?

但其實完全不是一個級別。

傳統自動化是:

👉 你定義好流程
👉 每一步怎麼走,都是人寫死的

而現在這個 Agent 是:

👉 自己理解目標
👉 自己決定步驟
👉 自己調用工具
👉 自己修正錯誤

換句話說:她不是在執行流程,她是在“生成流程”。

這才是本質的變化。

接下來會發生什麼?

當一個 Agent:

  • 能看(圖片識別)
  • 能做(bash 操作系統)
  • 能寫(代碼生成)
  • 能查(環境判斷)

那她其實已經具備了一個初級工程師的完整能力閉環。

你不再需要告訴她:

👉 “先做這個,再做那個”

你只需要說一句:

👉 “把這個事情搞定”

剩下的,她自己想辦法。

最後

以前遇到不會的項目,我們會:

👉 看文檔
👉 搜 Google
👉 問同事

現在多了一個選項:

👉 直接扔給 AI Agent

她不會抱怨,不會偷懶,不會忘步驟,還會給你寫報告。

有點誇張地說一句:

這已經不是工具了。

這是一個,開始“自己幹活”的東西。