Hermes Agent 分析師養成記 · 第七篇(終篇):它是怎麼把自己變得更強的
整理版優先睇
GEPA引擎係Hermes自我進化核心,透過三層積累令Agent越用越強
呢篇文章係Hermes Agent分析師養成記嘅第七篇,亦係終篇。作者努力撞蘑菇AI一直專注AI Agent深度實踐,佢喺呢一系列拆解咗Hermes嘅六層能力:記憶、技能、沙箱、Jupyter內核、子代理、定時調度。每一篇都指出Hermes唔係只係執行任務,而係會積累經驗。但積累本身唔會自動發生——需要一套機制,喺每次任務完成後將經驗沉澱落嚟,變成下次更快、更準嘅能力。呢個就係GEPA引擎要做嘅事。
GEPA全稱Generative Experience and Procedural Accumulation,即係生成式經驗與程序性積累。佢嘅核心思路係將「經驗」拆成三種類型,分別存到唔同層次:情境記憶記錄做過嘅任務類型、工具順序、錯誤同解決方法;程序性技能將做法固化為可複用嘅技能文件;用戶模型透過觀察用戶行為自動推斷偏好同工作習慣。呢三層積累令Hermes唔係由頭開始,而係越用越瞭解用戶。
GEPA唔係一個獨立模塊,而係貫穿所有模塊嘅學習層——佢將六個模塊產生嘅數據同經驗,轉化成下次更好嘅執行能力。短期內感受唔明顯,但用耐咗就會發現技能庫入面有你項目專屬嘅分析流程,記憶入面有你嘅數據結構偏好,用戶模型入面有你嘅工作習慣。呢種「越用越好」嘅特性,正正係「The Agent That Grows With You」嘅真正含義:佢唔係因為你教佢而變強,係因為觀察你而變強。
- GEPA引擎將經驗分成三層積累:情境記憶、程序性技能、用戶模型,係Hermes自我進化嘅核心。
- 情境記憶記錄每次任務嘅類型、工具順序、錯誤同解決方法,下次類似任務可以快速檢索。
- 程序性技能透過skill-creator自動提煉做法結構,生成可複用嘅Markdown技能文件,支援/trigger呼叫。
- 用戶模型透過Honcho dialectic觀察用戶行為模式,自動推斷偏好並更新,無需手動配置。
- 技能有自我改進閉環:根據真實使用軌跡更新技能文件;RL訓練支持將執行軌跡轉化為微調數據,實現更深層進化。
內容片段
任務執行完成 ↓GEPA 分析執行軌跡 ↓提煉出「做法的結構」(不是某次具體的結果) ↓生成結構化的 Markdown 技能文件 ↓寫入技能庫,賦予 /trigger 命令 ↓下次同類任務:直接 /觸發技能,無需重新描述
GEPA引擎係咩?
GEPA,全稱
生成式經驗與程序性積累
,係Hermes整個自我進化機制嘅核心架構。佢回答嘅問題得一個:「一個Agent完成咗一百次任務,佢同完成咗一次任務時,有咩實質性嘅唔同?」
普通AI工具嘅答案係:冇唔同。每次對話由頭開始,冇記憶,冇沉澱,昨日教過佢嘅嘢今日要重新教。GEPA嘅答案係:完全不同。每一次任務都係一次學習機會,經驗喺三個層面上被結構化咁積累落嚟。
三層積累:情境記憶、程序性技能、用戶模型
- 1 情境記憶(Episodic Memory):「你做過咩,結果點樣」。每次任務完成後,GEPA提取關鍵信息:任務類型、用咗咩工具、順序、邊步出錯、點解決、最終輸出質量。下次遇到類似任務,Hermes會先查「我做過類似嘅事嗎?點做的?」
- 2 程序性技能(Procedural Skills):「點樣做」。當Hermes完成一個複雜任務,GEPA會評估解法有冇足夠通用性,值得提煉成技能。佢會自動觸發skill-creator流程:分析執行軌跡 → 提煉做法結構 → 生成Markdown技能文件 → 寫入技能庫 → 賦予/trigger命令。下次同類任務直接觸發技能,無需重新描述。
- 3 用戶模型(User Model):「你係邊個、你習慣點工作」。呢個係利用Honcho dialectic核心能力,每次對話中觀察你的行為模式,推斷偏好,自動更新模型。例如你總係先睇分佈再睇趨勢,Hermes會默認咁做;你唔鍾意超過200字嘅報告摘要,Hermes會記低。呢啲唔係手動配置,係Hermes從你嘅行為入面推斷出嚟。
呢個用戶模型機制嘅技術名稱係
Honcho dialectic
,係Hermes同Honcho集成後嘅核心能力。
「The Agent That Grows With You」真正含義:佢唔係因為你教佢而變強,係因為觀察你而變強。
技能嘅自我改進:進化閉環
最初嘅技能係透過
skill-creator
流程生成嘅。但光係生成仲唔夠,如果從來唔更新,好快就會過時。GEPA入面有一個專門機制處理呢件事:
技能使用軌跡追蹤
。每次調用某個技能時,系統會記錄:呢次調用成功咗未?有冇需要手動修正嘅步驟?最終輸出同預期差幾多?
當一個技能被調用足夠多次,而且有足夠多嘅修正記錄時,GEPA會觸發
skill-updater
流程,基於真實使用數據重新改寫技能文件。呢個係一個完整嘅閉環:技能被創建 → 被使用多次 → 軌跡積累 → GEPA分析偏差同改進點 → 技能文件更新 → 下次調用更準更快。
對於開發者嚟講,GEPA仲有一層更深嘅能力:
強化學習訓練數據生成
。Hermes內置Atropos環境,可以將Agent執行軌跡(邊啲決策導向好結果,邊啲冇)轉換成強化學習訓練數據。呢啲數據可以用嚟微調更專門化嘅模型,令模型更懂你嘅業務場景。
用Agent系統收集訓練數據,再用訓練數據改進Agent底層模型——呢個閉環喺更深層面實現。
GEPA同前六篇嘅關係
到呢度,可以將整個系列串埋一齊睇:
記憶系統、技能系統、代碼執行沙箱、Jupyter內核、子代理系統、定時調度
分別係GEPA情境記憶層嘅存儲介質、程序性積累層嘅存儲介質、收集執行軌跡嘅環境、收集探索性軌跡嘅環境、並行積累多個任務經驗嘅結構、同埋喺無人監管時持續運行持續積累嘅機制。
GEPA唔係一個獨立模塊,而係貫穿所有模塊嘅學習層。佢將六個模塊產生嘅數據同經驗,轉化成下次更好嘅執行能力。可以用一個更直觀嘅比喻:前六篇嘅機制係Hermes嘅肌肉;
GEPA係Hermes嘅神經可塑性
。
最後講一件反直覺嘅事:
GEPA驅動嘅進化,短期內感受唔明顯
。你第一日用Hermes,佢係一個有記憶、有技能、能跑代碼嘅Agent。你用咗三個月,佢先開始真正「懂你」。呢個同大多數工具係反向嘅:大多數工具第一日體驗最好(新鮮感),然後進入平台期;GEPA驅動嘅Hermes係越用越好——但前提係你真係在用,唔係偶爾問一次問題。
頭六篇,我哋拆解咗 Hermes 嘅六層能力:
記憶、技能、沙箱、Jupyter 內核、子代理、定時調度。
每一篇嘅結論都指向同一件事:Hermes 唔單止執行任務,佢仲喺度累積。
但係累積本身唔會自動發生——需要有套機制,喺每次任務完成之後,將經驗沉澱落嚟,變成下次更快、更準嘅能力。
呢個就係 GEPA 引擎要做嘅嘢。

GEPA 係乜嘢
GEPA,全稱 Generative Experience and Procedural Accumulation——生成式經驗與程序性累積。
呢個係 Hermes 成個自我進化機制嘅核心架構,亦都係 Hermes 口號「The Agent That Grows With You」最底層嘅支撐。
佢回答嘅問題得一個:
“一個 Agent 完成咗一百次任務,佢同完成咗一次任務時,有乜嘢實質性嘅分別?
普通 AI 工具嘅答案係:冇分別。 每次對話由零開始,冇記憶,冇沉澱,噚日教過佢嘅嘢今日要重新教。
GEPA 嘅答案係:完全唔同。 每一次任務都係一個學習機會,經驗喺三個層面上被結構化咁累積落嚟。
三層累積:GEPA 嘅工作機制
GEPA 嘅核心思路係將「經驗」拆成三種類型,分別存到唔同嘅層裏面:
第一層:情境記憶(Episodic Memory)
呢個係最直接嘅累積——你做過啲乜嘢,結果點樣。
每次任務執行完成之後,GEPA 唔係簡單噉將對話存檔,而係提取關鍵信息:
呢個任務嘅類型係乜嘢 用咗邊啲工具、按乜嘢順序 邊一步出咗問題、點樣解決嘅 最終嘅輸出質量點樣
呢啲資訊以結構化嘅方式寫入記憶系統。下次遇到類似任務,Hermes 唔係由空白開始推理,而係先查「我做過類似嘅事嗎?點樣做㗎?」
呢個就係第一篇講嘅記憶系統——GEPA 賦予咗佢意義:記憶唔止係「你講過啲乜」,而係「你哋一齊做過啲乜、學到啲乜」.
第二層:程序性技能(Procedural Skills)
呢個係累積最有形嘅部分——將做法固化成為可複用嘅技能文件。
當 Hermes 完成一個複雜任務時,GEPA 會評估:
“呢個任務嘅解法,係唔係有足夠嘅通用性,值得提煉成一個技能?
如果係,佢會自動觸發 skill-creator 流程:
任務執行完成
↓
GEPA 分析執行軌跡
↓
提煉出「做法的結構」(不是某次具體的結果)
↓
生成結構化的 Markdown 技能文件
↓
寫入技能庫,賦予 /trigger 命令
↓
下次同類任務:直接 /觸發技能,無需重新描述
注意一個細節:GEPA 提煉嘅係「做法嘅結構」,而唔係「某次任務嘅結果」。呢個係程序性記憶同情境記憶嘅本質區別——前者係「點樣做」,後者係「做過啲乜」.
用人類學習嚟類比:你學踩單車,踩嘅次數越多,「點樣保持平衡」呢個技能就越嚟越熟練——呢個係程序性記憶。但你唔需要每次都記起「第一次踩單車喺邊度」——嗰啲係情境記憶,兩者分開儲存,各司其職。
第三層:用戶模型(User Model)
呢個係最隱性、亦都最深遠嘅一層累積——Hermes 喺持續建立一個關於「你係邊個、你習慣點樣工作」嘅模型。
呢個機制嘅技術名稱叫 Honcho dialectic,係 Hermes 同 Honcho 集成之後嘅核心能力。
佢做嘅嘢係:喺每次對話中,觀察你嘅行為模式,推斷你嘅偏好,更新用戶模型。具體嚟講:
你總係喺拎到數據之後先睇分佈,再睇趨勢——Hermes 開始默認俾你分佈圖先 你唔鍾意超過200字嘅報告摘要——Hermes 將呢條寫入記憶 你提到某個字段時習慣用縮寫——Hermes 記住呢個映射 你喺禮拜一上午嘅任務通常係週報類型——Hermes 開始預加載相關技能
呢啲唔係你手動配置嘅——係 Hermes 由你嘅行為裏面推斷出嚟的。
呢個亦都係「The Agent That Grows With You」真正嘅含義:佢唔係因為你教佢而變強,而係因為觀察你而變強。
技能嘅自我改進:GEPA 嘅進化閉環
淨係「生成技能」係唔夠嘅。生成嘅技能如果從來唔更新,好快就會過時。
GEPA 裏面有一個專門嘅機制處理呢件事:技能使用軌跡追蹤。
每次調用某個技能時,系統會記錄:
呢次調用成功咗未? 有冇需要手動修正嘅步驟? 最終輸出同預期偏差幾大?
當一個技能被調用足夠多次、而且有足夠多嘅修正記錄時,GEPA 會觸發 skill-updater 流程,基於真實使用數據重新改寫技能文件。
呢個係一個完整嘅閉環:
技能被創建
↓
技能被使用(多次)
↓
使用軌跡積累
↓
GEPA 分析偏差與改進點
↓
技能文件被更新
↓
下次調用:更準、更快
關鍵在於:改進嘅依據係真實嘅使用數據,唔係猜測。 技能唔係喺理論上被優化,而係喺你實際用佢完成任務嘅過程中被打磨嘅。
RL 訓練支持:研究向嘅嗰一層
如果你係開發者,GEPA 仲有一層更深嘅能力:強化學習訓練數據生成。
Hermes 內置咗 Atropos 環境支持——佢可以將 Agent 嘅執行軌跡(邊啲決策帶嚟好結果,邊啲冇)轉換成強化學習嘅訓練數據。
呢個意味住乜嘢?
你可以用 Hermes 處理真實任務,然後將呢啲任務嘅軌跡導出,用嚟微調一個更專門嘅模型。呢個模型比通用嘅 LLM 更瞭解你嘅業務場景,因為佢嘅訓練數據嚟自你嘅真實工作。
呢個係 Nous Research 嘅研究基因喺工程裏面留低嘅痕跡:用 Agent 系統收集訓練數據,再用訓練數據改進 Agent 底層嘅模型。 閉環喺更深嘅層面上實現咗。
當然,對大部份「分析師」用戶嚟講,唔需要觸及呢一層——GEPA 嘅前三層累積已經夠用。呢一層更加係俾想做 Agent 研究嘅開發者準備嘅。
GEPA 同前六篇嘅關係
到呢度,可以將成個系列串起嚟睇:
記憶系統 ← GEPA 情境記憶層的存儲介質
技能系統 ← GEPA 程序性積累層的存儲介質
代碼執行沙箱 ← GEPA 收集執行軌跡的環境
Jupyter 內核 ← GEPA 收集探索性軌跡的環境
子代理系統 ← GEPA 並行積累多個任務經驗的結構
定時調度 ← GEPA 在無人監管時持續運行、持續積累的機制
GEPA 唔係一個獨立嘅模塊,佢係貫穿所有模塊嘅學習層——將六個模塊產生嘅數據同經驗,轉化成下次更好嘅執行能力。
可以用一個更直觀嘅方式理解兩者嘅關係:
“前六篇嘅機制,係 Hermes 嘅肌肉——佢決定 Hermes 能做啲乜、能做幾快。
GEPA 係 Hermes 嘅神經可塑性——佢決定呢啲肌肉能唔能夠喺使用中變得更強。
一個需要時間嘅系統
最後講一件反直覺嘅事。
GEPA 驅動嘅進化,喺短期內感受唔明顯。
你第一日用 Hermes,佢係一個有記憶、有技能、能跑代碼嘅 Agent。你用咗三個月,佢先開始真正「懂你」——技能庫裏面有你項目專屬嘅分析流程,記憶裏面有你嘅數據結構偏好,用戶模型裏面有你嘅工作習慣。
呢個同大部份工具係相反嘅:大多數工具第一日體驗係最好嘅(新鮮感),然後進入平台期。GEPA 驅動嘅 Hermes 係越用越好——但前提係你真係用緊,唔係偶爾嚟問一次問題。
呢個亦都解釋咗「The Agent That Grows With You」呢句話入面,最重要嘅兩個字唔係「Grows」,而係 「With You」。
佢嘅成長,唔係自己發生嘅。係同你一齊發生嘅。
系列小結
七篇寫完曬,回頭睇成個系列:
每一層都喺回答同一個更大嘅問題:
點解叫「分析師」,而唔係「分析工具」?
工具唔會記住你。工具唔會主動學習。工具唔會因為同你合作三個月而變得更瞭解你嘅業務。
Hermes 設計上想做到嘅,係後者。
至於佢做到咗幾多——取決於你用佢做咗幾多真實嘅嘢。
前六篇,我們拆解了 Hermes 的六層能力:
記憶、技能、沙箱、Jupyter 內核、子代理、定時調度。
每一篇的結論都指向同一件事:Hermes 不只是執行任務,它在積累。
但積累本身不是自動發生的——需要有一套機制,在每次任務完成後,把經驗沉澱下來,變成下次更快、更準的能力。
這就是 GEPA 引擎要做的事。

GEPA 是什麼
GEPA,全稱 Generative Experience and Procedural Accumulation——生成式經驗與程序性積累。
這是 Hermes 整個自我進化機制的核心架構,也是 Hermes 口號「The Agent That Grows With You」最底層的支撐。
它回答的問題只有一個:
“一個 Agent 完成了一百次任務,它和完成了一次任務時,有什麼實質性的不同?
普通 AI 工具的答案是:沒有不同。 每次對話從零開始,沒有記憶,沒有沉澱,昨天教過它的東西今天要重新教。
GEPA 的答案是:完全不同。 每一次任務都是一次學習機會,經驗在三個層面上被結構化地積累下來。
三層積累:GEPA 的工作機制
GEPA 的核心思路是把「經驗」拆成三種類型,分別存到不同的層裏:
第一層:情境記憶(Episodic Memory)
這是最直接的積累——你做過什麼,結果怎樣。
每次任務執行完成後,GEPA 不是簡單地把對話存檔,而是提取關鍵信息:
這個任務的類型是什麼 用了哪些工具、按什麼順序 哪一步出了問題、怎麼解決的 最終的輸出質量如何
這些信息以結構化的方式寫入記憶系統。下次遇到類似任務,Hermes 不是從空白開始推理,而是先查「我做過類似的事嗎?怎麼做的?」
這就是第一篇裏說的記憶系統——GEPA 賦予了它意義:記憶不只是「你說過什麼」,而是「你們一起做過什麼、學到了什麼」。
第二層:程序性技能(Procedural Skills)
這是積累最有形的部分——把做法固化成可複用的技能文件。
當 Hermes 完成一個複雜任務時,GEPA 會評估:
“這個任務的解法,是不是有足夠的通用性,值得提煉成一個技能?
如果是,它會自動觸發 skill-creator 流程:
任務執行完成
↓
GEPA 分析執行軌跡
↓
提煉出「做法的結構」(不是某次具體的結果)
↓
生成結構化的 Markdown 技能文件
↓
寫入技能庫,賦予 /trigger 命令
↓
下次同類任務:直接 /觸發技能,無需重新描述
注意一個細節:GEPA 提煉的是「做法的結構」,而不是「某次任務的結果」。這是程序性記憶和情境記憶的本質區別——前者是「怎麼做」,後者是「做過什麼」。
用人類學習來類比:你學騎自行車,騎的次數越多,「如何保持平衡」這個技能越來越熟練——這是程序性記憶。但你不需要每次都想起「第一次騎車是在哪裏」——那是情境記憶,兩者分開存儲,各司其職。
第三層:用戶模型(User Model)
這是最隱性、也最深遠的一層積累——Hermes 在持續建立一個關於「你是誰、你習慣怎麼工作」的模型。
這個機制的技術名稱叫 Honcho dialectic,是 Hermes 與 Honcho 集成後的核心能力。
它做的事情是:在每次對話中,觀察你的行為模式,推斷你的偏好,更新用戶模型。具體來說:
你總是在拿到數據後先看分佈,再看趨勢——Hermes 開始默認先給你分佈圖 你不喜歡超過200字的報告摘要——Hermes 把這條寫進記憶 你提到某個字段時習慣用縮寫——Hermes 記住這個映射 你在週一上午的任務通常是週報類型——Hermes 開始預加載相關技能
這不是你手動配置的——是 Hermes 從你的行為裏推斷出來的。
這也是「The Agent That Grows With You」真正的含義:它不是因為你教它而變強,而是因為觀察你而變強。
技能的自我改進:GEPA 的進化閉環
光是「生成技能」還不夠。生成的技能如果從來不更新,很快就會過時。
GEPA 裏有一個專門的機制處理這件事:技能使用軌跡追蹤。
每次調用某個技能時,系統會記錄:
這次調用成功了嗎? 有沒有需要手動修正的步驟? 最終輸出和預期有多大偏差?
當一個技能被調用足夠多次、且有足夠多的修正記錄時,GEPA 會觸發 skill-updater 流程,基於真實使用數據重新改寫技能文件。
這是一個完整的閉環:
技能被創建
↓
技能被使用(多次)
↓
使用軌跡積累
↓
GEPA 分析偏差與改進點
↓
技能文件被更新
↓
下次調用:更準、更快
關鍵在於:改進的依據是真實的使用數據,不是猜測。 技能不是在理論上被優化,而是在你實際用它完成任務的過程中被打磨的。
RL 訓練支持:研究向的那一層
如果你是開發者,GEPA 還有一層更深的能力:強化學習訓練數據生成。
Hermes 內置了 Atropos 環境支持——它可以把 Agent 的執行軌跡(哪些決策導向了好的結果,哪些沒有)轉換成強化學習的訓練數據。
這意味着什麼?
你可以用 Hermes 處理真實任務,然後把這些任務的軌跡導出,用來微調一個更專門化的模型。這個模型比通用的 LLM 更懂你的業務場景,因為它的訓練數據來自你的真實工作。
這是 Nous Research 的研究基因在工程裏留下的痕跡:用 Agent 系統收集訓練數據,再用訓練數據改進 Agent 底層的模型。 閉環在更深的層面上實現了。
當然,對大多數「分析師」用戶來說,不需要觸達這一層——GEPA 的前三層積累已經夠用了。這一層更多是給想做 Agent 研究的開發者準備的。
GEPA 和前六篇的關係
到這裏,可以把整個系列串起來看了:
記憶系統 ← GEPA 情境記憶層的存儲介質
技能系統 ← GEPA 程序性積累層的存儲介質
代碼執行沙箱 ← GEPA 收集執行軌跡的環境
Jupyter 內核 ← GEPA 收集探索性軌跡的環境
子代理系統 ← GEPA 並行積累多個任務經驗的結構
定時調度 ← GEPA 在無人監管時持續運行、持續積累的機制
GEPA 不是一個獨立的模塊,它是貫穿所有模塊的學習層——把六個模塊產生的數據和經驗,轉化成下次更好的執行能力。
可以用一個更直觀的方式理解兩者的關係:
“前六篇的機制,是 Hermes 的肌肉——它決定 Hermes 能做什麼、能做多快。
GEPA 是 Hermes 的神經可塑性——它決定這些肌肉能不能在使用中變得更強。
一個需要時間的系統
最後說一件反直覺的事。
GEPA 驅動的進化,在短期內感受不明顯。
你第一天用 Hermes,它是一個有記憶、有技能、能跑代碼的 Agent。你用了三個月,它才開始真正「懂你」——技能庫裏有你項目專屬的分析流程,記憶裏有你的數據結構偏好,用戶模型裏有你的工作習慣。
這和大多數工具是反向的:大多數工具第一天體驗是最好的(新鮮感),然後進入平台期。GEPA 驅動的 Hermes 是越用越好——但前提是你真的在用,不是偶爾來問一次問題。
這也解釋了「The Agent That Grows With You」這句話裏,最重要的兩個字不是「Grows」,而是 「With You」。
它的成長,不是自己發生的。是和你一起發生的。
系列小結
七篇寫完了,回頭看整個系列:
每一層都在回答同一個更大的問題:
為什麼叫「分析師」,而不是「分析工具」?
工具不會記住你。工具不會主動學習。工具不會因為和你合作三個月而變得更懂你的業務。
Hermes 設計上想做到的,是後者。
至於它做到了多少——取決於你用它做了多少真實的事。