好東西都是總結出來的,創造 Skill 的 Skill,元 Skill 方法論,全文2w字

作者:01fish
日期:2026年3月20日 上午8:00
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

好東西都係總結出嚟嘅OTF+JIT+Bootstrap 自舉式知識增殖方法論

整理版摘要

呢篇文係由一個做開源AI《史記》知識庫嘅作者寫嘅,佢喺處理57萬字史記、10萬個實體、3185個事件嘅過程中,歸納出一套「元元技能」——即係關於「點樣總結」嘅方法論。作者想解決嘅問題係:點樣可以系統性地將執行經驗轉化為可複用嘅知識資產,唔使每次都從頭開始。佢整體結論係:好嘢都係總結出嚟嘅,唔係設計出嚟嘅。

作者提出咗三大核心機制OTF(即時總結,邊做邊總結)、JIT(及時交付,先出版本再迭代)、Bootstrap(知識自舉,每一輪都長出更高階嘅知識)。佢認為傳統嘅Post-Mortem總結太遲、Big Bang交付風險大,而應該用小步快跑、即時沉澱嘅方式。最終,呢套方法令到自動化率從0%提升到99%,人工投入大幅減少,而且沉澱出14個跨項目通用嘅元技能。

文章仲詳細拆解咗五層抽象金字塔:案例→模式→原則→洞察→哲學,解釋點樣將大量具體錯誤壓縮成可執行嘅規則同方法。作者用史記項目嘅真實數據(實體標註、事件年代、柳葉刀方法)做實戰覆盤,展示咗點樣通過OTFJIT逐步收斂質量,最後提煉出跨領域通用嘅方法論。

  • 核心公式:好東西 = 總結出來 ≠ 設計出來;OTF(邊做邊總結)+ JIT(小步快跑)+ Bootstrap(知識自舉)形成自增殖系統。
  • 實踐方法:先執行最小版本,邊做邊總結模式,即時沉澱成規則、腳本、Skill,再反向餵畀下一輪執行。
  • 關鍵區別:傳統方式係項目結束後先總結(Post-Mortem),容易遺漏細節;而OTF係發現模式嗰一刻就總結,即時應用,減少返工。
  • 知識演化路徑:從人工執行(0%自動)→腳本輔助(20%)→Skill工作流(60%)→自動總結(90%)→元技能自治(99%+)。
  • 可行動點:每次迭代只改變一個變量;每10個樣本做微總結,每50個樣本做中總結;將錯誤模式寫成Lint規則,將重複步驟寫成腳本。
結構示例

內容片段

內容片段 text
1. 觀察層:記錄現象
- 做了什麼?結果如何?
- 數據是什麼?異常在哪裏?2. 分析層:識別關鍵
- 哪一步是關鍵步驟?
- 哪個因素影響最大?3. 歸納層:提取模式
- 有哪些重複規律?
- 其他案例是否支持這個規律?4. 演繹層:形成方法
- 如何應用到新場景?
- 邊界條件是什麼?
整理重點

核心命題:好嘢都係總結出嚟嘅

呢篇文章嘅定位係「元元技能」——即係關於點樣總結嘅總結。佢貫穿冷啓動、迭代、反思、質量控制等所有工序,核心公式係「好東西 = 總結出來 ≠ 設計出來」。作者指出,傳統做法係先設計完美方案再執行,但現實中需求唔確定、認知有限,好易導致大規模返工。正確做法係先執行最小版本,邊做邊總結,知識自然增長。

  1. 1 唔係先設計完美方案再執行,而係先執行最小版本,邊做邊總結優化。
  2. 2 唔係等項目結束再總結,而係每輪迭代都總結,知識實時沉澱。
  3. 3 唔係追求一次性完美,而係快速交付60%質量,再迭代收斂到95%。呢啲觀點顛覆咗傳統項目管理思維。
整理重點

OTF + JIT + Bootstrap:自舉式知識增殖系統

OTFOn-The-Fly)即時總結,提倡發現模式嗰一刻就立即記錄、歸納、應用。作者設定咗三個觸發時機:發現重複(同一個錯誤出現3次)、發現異常(意外情況)、批次邊界(每N個樣本)。OTF嘅產出包括規則更新、本體演化同工具開發。

JITJust-In-Time)及時交付,唔追求一次完美,而係及時交付最小可用版本,快速迭代

JIT分三個層次:功能JIT(按需開發,唔做冗餘功能)、質量JIT(梯度收緊,從60%逐步提升到97%)、知識JIT(文檔隨項目演化,唔係完結後先寫)。作者用史記事件年代標註嘅真實時間線展示咗JIT點樣喺1.5日內達到97%準確率,而傳統一次性完美需要1周以上。

自舉嘅五階演化

  1. 1 第一階:人工勞動 + 記錄(Week 1),自動化率0%,產出對話記錄、錯誤日誌
  2. 2 第二階:腳本化 + 局部自動化(Week 2),自動化率20%,產出檢查腳本、統計腳本
  3. 3 第三階SKILL總結 + 工作流自動化Week 3-4),自動化率60%,產出結構化Skill文檔
  4. 4 第四階:自動總結SKILLWeek 5-8),自動化率90%,Agent自動更新Skill
  5. 5 第五階:元進化(Week 9+),自動化率99%,產出元Skill,系統接近自治
整理重點

五層抽象金字塔:從案例到哲學

知識壓縮嘅過程:從10,000個案例→100條模式→10條原則→1個洞察

作者提出五層抽象層次:層1係案例(具體錯誤、修正記錄),層2係模式(錯誤模式、工具模式),層3係原則(OTF+JIT+Bootstrap),層4係洞察(總結係唯一嘅知識來源),層5係哲學(演進>設計)。呢個金字塔解釋咗點樣將大量混亂數據逐步壓縮成可執行嘅智慧。

不能跳過中間層:直接從13,000個錯誤跳到一個哲學洞察係無執行力嘅

作者用史記實體標註做例:第一次總結從5章標註提煉出4+1類本體;第二次總結從30章提煉出8類;第三次總結從130章提煉出18類;第四次總結加入屬性;第五次總結提煉出「本體係長出嚟嘅」呢個洞察。壓縮比極高:32,022個實體最終提煉成3條核心原則同1個洞察。

迭代原則(從事件年代案例提煉)

  • 廣度優先:先全覆蓋60%質量,再迭代提升
  • 模式驅動:每輪核心產出係錯誤模式表,而唔係修正數據
  • 指數衰減:修正量應該指數級下降,否則代表有系統性遺漏
  • 新模式歸零:收斂標誌係連續兩輪無新模式
  • 交叉驗證:單章質量高唔等於全局質量高,需要跨章檢查
整理重點

實戰案例:史記項目全流程覆盤

作者以開源AI《史記》知識庫項目做實戰示範,涵蓋實體標註、事件年代、關係提取三大任務。呢個項目最終產出57萬字史記結構化數據、10萬個實體、3185個事件、7652條關係,並沉澱出26個可複用Skill同14個元技能。

實體標註嘅本體唔係設計出嚟嘅,而係由數據「長」出嚟嘅

實體標註從最細嘅4+1類本體開始,經過四次總結最終穩定喺18類。關鍵發現係「其他」類中隱藏咗邦國、氏族、器物等模式,透過OTF即時歸納先至逐步細化。作者強調「先有具體嘅語義,再有抽象嘅語義網」。

事件年代修正嘅五輪迭代數據

  1. 1 P0(2小時):交付3,092事件初版年份,準確率60%
  2. 2 P1(半天):第一輪反思修正1010處,準確率80%
  3. 3 P2(2小時):第二輪修正431處,準確率88%
  4. 4 P3(2小時):第三輪修正465處,準確率92%(發現錨點污染問題)
  5. 5 P4-5:第四輪修正167處,第五輪修正46處,最終準確率97%

柳葉刀方法嘅混合方案矩陣係從A/B/C實驗中總結出嚟嘅,唔係預先設計

作者處理7652條事件關係時,先後試咗純LLM(成本$41,000)、純規則(召回68%)、簡單混合($2,100),最終通過三次總結得出按關係類型分工、規則前置篩選加LLM精煉嘅混合方案,成本降至$380,精度達98%。呢個過程完美示範咗「好嘢係總結出嚟嘅」。


道可道,非常道

定位:所有元技能的元技能,貫穿冷啓動、迭代、反思、質量控制、柳葉刀方法等所有工序的核心哲學。 

附:本篇實踐可參考案例為  一個開源的AI《史記》知識庫與26個可複用構造知識庫Skill,57萬字史記,10萬個實體、3185個事件、7652條關係全部結構化


全文可視化概覽(一頁紙)

核心公式

好東西 = 總結出來 ≠ 設計出來
OTF(邊做邊總結) + JIT(小步快跑) + Bootstrap(自舉)
知識自動增長,人工投入遞減

演進規律:從執行到自治

冷啓動:人工執行,0% 自動,產出數據。
模式湧現:邊做邊總結,20% 自動,產出模式。
知識固化:Agent 學習,60% 自動,產出 Skill。
系統自治:自主運行,90%+ 自動,產出 META。

知識資產:四層複用金字塔

腳本工具:Lint / Extract / Render / Transform,90%+ 主要是微調參數。
項目 Skill:實體標註 / 事件識別 / 消歧,60%-80% 需要適配。
META 技能:反思 / 迭代 / 冷啓動,100% 跨項目通用。
元元方法:演進式方法論,100% 跨領域通用。

五層抽象:知識壓縮過程

層1 案例:具體錯誤、修正記錄。
層2 模式:錯誤模式、工具模式。
層3 原則:OTF + JIT + Bootstrap。
層4 洞察:總結是唯一的知識來源。
層5 哲學:演進 > 設計。

三個反常識

不是先設計完美方案再執行,而是先執行最小版本,邊做邊總結優化。
不是等項目結束再總結,而是每輪迭代都總結,知識實時沉澱。
不是追求一次性完美,而是快速交付 60% 質量,再迭代收斂到 95%。

閲讀導航

零、核心命題:3 分鐘快速理解。
一、通用方法論框架:OTF + JIT + Bootstrap 詳解。
二、五層抽象金字塔:如何提煉知識。
三、為什麼總結:認知科學與信息論基礎。
四、實戰案例:史記項目全流程覆盤。
五、Agent 學習路徑:如何讓 AI 自主總結。


零、核心命題

一句話

好東西都是總結出來的,不是發明出來的。

核心方法論:OTF + JIT + Bootstrap

OTF = On-The-Fly,即時總結

不是做完再總結,而是邊做邊總結。
發現模式的那一刻,就立即記錄、歸納、應用。
總結不是項目結束時的附加動作,而是執行過程的一部分。

JIT = Just-In-Time,即時交付

不是一次性做完美,而是及時交付最小可用版本。
先跑起來,再拿反饋,再改進,再收斂。
重點不是“第一次就對”,而是“每一輪都更對”。

Bootstrap = 知識自舉

每一步迭代,都會產生下一步可複用的元知識。
知識會在迭代中自我增殖,自動化程度遞增,人工干預遞減。
一開始是人帶系統跑,後面是系統反過來加速人。

OTF + JIT + Bootstrap = 自舉式知識增殖系統

維度
傳統方式
OTF + JIT
總結時機
項目結束後(Post-Mortem)
實時/每輪(On-The-Fly)
交付節奏
大批量一次性(Big Bang)
小批量高頻次(Just-In-Time)
質量策略
追求首次完美
快速迭代逼近完美
知識積累
項目結束才總結
每輪迭代都總結
風險控制
後期集中爆發
早期快速暴露

三個推論

  1. 知識是壓縮
     — 從10,000個案例→100條模式→10條原則→1個洞察
  2. 理解是歸納
     — 看到規律才算真正理解,沒有規律就沒有知識
  3. 方法是沉澱
     — 做一次是經驗,做十次總結出來才是方法論

演進式方法論總綱

一、基本原則

演進 > 設計:多總結,少設計。
聚焦 > 全面:一次只做一件事。
實踐 > 理論:好東西都是總結出來的。

二、操作層次

觀察現象:先記錄案例。
識別關鍵:判斷什麼最影響結果。
提取模式:從重複現象裏發現規律。
固化方法:把規律寫成文檔、腳本、Skill。

三、迭代策略

小粒度:從小問題開始。
小工具:優先解決最痛的重複勞動。
小週期:快速反饋,快速迭代。

四、價值導向

防止重複犯錯:把隱性知識顯性化。
降低認知負荷:把方法標準化。
提高複用效率:讓模式可以遷移。

所有元技能清單

本項目最終形成14個元技能(13個方法論+1個元元技能)。

核心元技能(本文涉及):

編號
元技能
核心理念
與本文檔關係
00-META-00好東西都是總結出來的
OTF+JIT+Bootstrap自舉增殖
本文檔
(元元技能)
00-META-01
反思
Agent自主發現錯誤模式
反思=自動化的OTF總結
00-META-02
迭代工作流
廣度優先、模式驅動、指數衰減
每輪總結錯誤模式表
00-META-03
冷啓動
5個樣本建立直覺
快速總結初步模式
00-META-04
柳葉刀方法
精細分解、混合驅動、成本意識
混合方案矩陣是總結出來的
00-META-07
可讀性
中間產物人類可讀、Git友好
總結的前提是數據可讀
00-META-08
標註體系設計
本體從數據中"長"出來
本體演化是總結的過程
00-META-09
Agent提示詞工程
SKILL作為Agent的"DNA"
所有SKILL都是總結出來的
00-META-10
質量控制
Lint規則來自錯誤案例
錯誤案例→總結→規則
00-META-11
數據體感培養
多維觀察數據異常
觀察→發現→總結

注:另有00-META-05(知識作為上下文壓縮)、00-META-06(SKILL優化與演化)、00-META-12(數據融合)、00-META-13(技能遷移)共14個元技能。

層級關係

元元技能

本文檔討論的是“如何總結”本身,也就是關於總結的總結。

往下一層,是方法論元技能

迭代工作流、冷啓動、柳葉刀方法、標註體系設計、可讀性、質量控制。
它們回答的是:複雜知識工程任務,應該怎麼做。

再往下一層,是執行層元技能

實體標註、事件識別、消歧、渲染、發佈、數據融合、技能遷移。
它們回答的是:具體任務,實際怎麼落地。

核心關係

所有元技能都不是預先設計出來的,而是從大量任務裏總結出來的。
每個元技能都遵循同一套抽象路徑:案例 → 模式 → 原則 → 洞察 → 哲學。
本文檔不是替代其他元技能,而是解釋這些元技能為什麼會長成現在這樣。

核心關係: - 所有8個元技能都是通過總結提煉出來的(而非預先設計) - 每個元技能的形成都遵循五層抽象金字塔(案例→模式→原則→洞察→哲學) - 本文檔(元元技能)是對"如何總結"的遞歸總結


一、通用方法論框架

本章導航:本章分為兩部分 1. 通用原則(1.1-1.6節):從多年實踐中抽象出的知識處理方法論 2. 實踐機制(1.7-1.8節):OTF + JIT 作為方法論的具體落地機制


1.1 總結的雙重目標

目標1:決策優化 — 在實踐中檢驗邏輯,建立優先級的深刻共識

總結有兩個目標:一是理解更深,二是方法更穩。

目標1:決策優化

理解深度不是停在 Framework,而是繼續追到 Rationale,最後長出 Insight。
Framework 解決“怎麼做”,Rationale 解決“為什麼這樣做”,Insight 解決“下一次還會發生什麼”。

目標2:方法沉澱

沉澱路徑不是一句空話,而是清晰的五級演化:案例 → 方法 → 流程 → 制度 → 文化。
一次是經驗,三次可以總結為方法,十次才能穩定成流程。

實踐方法: - 每件事都追問:為什麼做?為什麼不做其他? - 記錄決策過程,而非只記錄決策結果 - 週期性回顧:這個決策的rationale現在還成立嗎?

目標2:方法沉澱 — 將有效方法固化為可複用模式

實踐方法: - 一次是經驗,三次總結為方法,十次固化為流程 - 方法文檔化:寫成SKILL文檔、檢查清單、自動化腳本 - 定期審查:哪些方法已失效?哪些需要更新?


1.2 知識提煉的四個層次

基於"覆盤四步法"抽象出的通用框架:

1. 觀察層:記錄現象
   - 做了什麼?結果如何?
   - 數據是什麼?異常在哪裏?

2. 分析層:識別關鍵
   - 哪一步是關鍵步驟?
   - 哪個因素影響最大?

3. 歸納層:提取模式
   - 有哪些重複規律?
   - 其他案例是否支持這個規律?

4. 演繹層:形成方法
   - 如何應用到新場景?
   - 邊界條件是什麼?

核心價值: - 防止Agent在同一個地方犯錯 - 將隱性知識顯性化(人類執行經驗 → Agent可讀的SKILL) - 從單次執行提升為可複用的Agent知識資產

實踐案例(抽象版本):

觀察:處理了130章數據,發現13,000個錯誤
  ↓
分析:60%是消歧問題,這是關鍵瓶頸
  ↓
歸納:消歧錯誤遵循25個模式(如"同名不同人")
  ↓
演繹:開發自動檢查工具,規則覆蓋80%的情況

1.3 創新的邊界與節奏

聚焦原則:一次只解決一個核心問題

失敗模式:"換四個引擎"
  同時改變數據模型 + 處理工具 + 工作流程 + 評價標準
  → 無法定位問題根源
  → 認知負荷過大
  → 反饋週期過長

成功模式:"單點突破"
  只改變數據模型,工具/流程/標準保持不變
  → 快速驗證效果
  → 明確歸因
  → 容易回滾

實踐建議: - 每個迭代週期只改變一個變量 - 如果必須同時改變多個,至少要能清晰解耦 - 警惕"全面革新"的誘惑

認知負荷管理

降低學習成本的三個策略:
  1. 漸進式複雜化
     - 先用簡單方案建立直覺
     - 再逐步引入複雜特性

  2. 利用現有知識
     - 新工具儘量與舊工具接口兼容
     - 新方法儘量基於現有方法演化

  3. 分層隱藏細節
     - Agent初始階段只需瞭解最簡模型
     - Agent成熟後才需要了解全部細節

短週期迭代

對比:
  瀑布模式:規劃3個月 → 開發2個月 → 測試1個月 → 發現問題回到起點
  迭代模式:規劃3天 → 開發2天 → 測試1天 → 調整再來

優勢:
  - 快速反饋 > 完美規劃
  - 真實數據 > 理論推導
  - 早期暴露問題 > 後期集中爆發

1.4 知識工作的"小"策略

小粒度:從小問題開始,避免過早抽象

錯誤路徑:
  Day 1 → 設計通用本體框架
  Day 10 → 發現框架不適用於實際數據
  Day 20 → 推翻重來

正確路徑:
  Day 1 → 處理5個具體案例
  Day 2 → 歸納初步模式
  Day 3 → 處理30個案例驗證
  Day 5 → 提煉通用框架

原則: - 先有具體的"語義",再有抽象的"語義網" - 先解決特定問題,再提煉通用方案 - 容忍局部不一致,在演化中逐步收斂

小工具:降低工具使用門檻

工具演進的三個階段:
  1. 人工操作(人類執行,Agent觀察學習)
  2. 半自動腳本(固化重複步驟,Agent輔助執行)
  3. 全自動工具(Agent自主執行,人類審查)

關鍵:
  - 工具演進 = Agent能力演進
  - 好工具來自真實執行過程的痛點
  - 充分利用現有工具生態(不要重新發明輪子)

小週期:精益迭代,減少浪費

懶處理策略:
  - 需要時再處理(不是提前處理所有可能情況)
  - 高頻問題優先(80%的價值來自20%的問題)
  - 自動化ROI分析(工具開發成本 vs 節省時間)

Build-Measure-Learn循環:
  1. Build:最小可用版本(1天)
  2. Measure:實際使用反饋(1周)
  3. Learn:總結問題和改進點(1天)
  → 重複

1.5 演進優於設計

核心原則:"多總結,少設計"

設計思維:
  - 預先規劃完美方案
  - 追求一次性正確
  - 標準化、規範化

演進思維:
  - 從現狀出發小步改進
  - 容忍多樣性、試錯
  - 在競爭中自然選擇

為什麼演進更有效?

1. 未來需求不可預測
   - 設計時無法考慮所有場景
   - 演進可以根據實際需求調整

2. 認知能力有限
   - 很難一次性設計出完美方案
   - 通過迭代逐步逼近最優解

3. 環境持續變化
   - 今天的完美方案,明天可能過時
   - 演進保持系統的適應性

實踐策略:允許"重新發明輪子"

傳統觀點:
  - 避免重複造輪子
  - 統一標準、統一工具

演進觀點:
  - 百花齊放,在競爭中進化
  - 不同場景可能需要不同的"輪子"
  - 最終收斂到最優方案(自然選擇)

漸進式改進

三個原則:
  1. 在現有基礎上演化
     - 充分利用現有工具/方法
     - 不要從零開始

  2. 每個階段有自身核心任務
     - 不要試圖一步到位
     - 階段性目標要明確

  3. 總結優於規劃
     - 從實踐中提煉模式
     - 多觀察、多實驗、多總結

1.6 方法文檔化的價值

文檔化循環

文檔不是結項紀念冊,而是持續工作的反饋迴路。

實踐先發生。
在實踐中發現重複步驟和異常邊界。
發現模式之後,把它寫進文檔。
文檔再反過來指導新實踐。
新實踐又暴露出新邊界,再推動文檔更新。

這就是文檔化循環:實踐 → 發現模式 → 寫入文檔 → 指導新實踐 → 再更新。
所以文檔不應該項目結束後一次性寫完,而應該隨項目一起演進。

文檔的兩種形式

規範性文檔:
  - "應該怎麼做"
  - 示例:標註規範、質量標準

描述性文檔:
  - "為什麼這樣做"
  - 示例:決策歷史、演化過程

兩者都重要:
  - 規範性:指導執行
  - 描述性:傳遞理解

元認知:容忍多樣性

洞察:"世界觀的attention"
  - 同一問題可能需要多個schema
  - 不同的人/場景可能有不同的理解
  - 不強求統一,在使用時選擇/對齊

實踐:
  - 允許多個標註體系並存
  - 在應用層做映射/轉換
  - 演化中逐步收斂(而非強制統一)

1.7 實踐機制:OTF(On-The-Fly)即時總結

定位:以下1.7-1.8節介紹OTF + JIT作為上述通用方法論的具體落地機制

核心理念:不等做完再總結,而是發現模式的那一刻立即總結

為什麼OTF有效?

認知科學依據: - 記憶衰減 — 做完130章再總結,前面的細節已遺忘 - 模式識別 — 人腦擅長識別模式(看到3次重複就能歸納) - 即時強化 — 總結後立即應用,形成正反饋循環

傳統方式(Post-Mortem)的問題

Post-Mortem 的問題

Day 1-90 一直執行,不總結。
Day 91 才開始回頭整理。
結果通常是:細節忘了,總結質量低;錯誤已經重複了 90 次,返工成本高;總結也很難反哺項目本身,因為項目已經做完。

On-The-Fly 的做法

Day 1 做 5 個樣本,就開始總結。
Day 2 把總結出來的規則反過來用於新樣本。
Day 3-10 持續邊做邊改,錯誤率在執行中就開始下降。

OTF方式(On-The-Fly): OTF 的基本工作方式是:執行中發現模式,立即長出規則,再把規則反向喂回執行。

OTF的三個時機

時機1:發現重複(3次規則)

OTF觸發器邏輯: - 維護錯誤模式的重複計數器 - 對每個任務,檢測執行結果是否為錯誤 - 如果是錯誤,識別其模式並累加計數 - 當某個模式重複≥3次時: - 立即總結該模式 - 將總結的規則寫入規則庫 - 記錄OTF總結日誌

時機2:發現異常(意外情況)

案例:標註時發現"周公"既是人名又是官職

傳統:繼續標註,等做完再處理
OTF:
  ├─ 立即停下(5分鐘)
  ├─ 分析:需要新分類"兼職"(如"周公"= 人名+官職)
  ├─ 更新標註體系
  └─ 繼續標註(後續不再遇到此類困惑)

時機3:批次邊界(每N個樣本)

每10個樣本 → 微總結(5分鐘)
  - 發現了什麼模式?
  - 需要調整什麼規則?

每50個樣本 → 中總結(30分鐘)
  - 哪些模式高頻(寫入自動化腳本)
  - 哪些模式低頻(記錄但不自動化)

每130個樣本 → 大總結(2小時)
  - 形成完整錯誤模式表
  - 提煉方法原則

本項目的OTF實踐

實體標註的OTF過程

Day 1(5章):
  OTF-1: 發現"武王"需消歧 → 規則:"諡號必須加邦國"

Day 2(30章):
  OTF-2: 發現"邦國"≠"地名" → 本體演化:4類→6類

Day 5(130章):
  OTF-3: 發現"官職"≠"爵位" → 本體演化:6類→8類

Day 10(第一輪反思):
  OTF-4: 發現系統性消歧遺漏 → 開發自動檢查工具

Day 15(第二輪反思):
  OTF-5: 發現格式不一致 → 開發Lint工具

每次OTF的產出: - 規則更新(立即應用於後續樣本) - 本體演化(本體是"長"出來的) - 工具開發(自動化重複勞動)


1.8 JIT(Just-In-Time):及時交付的威力

核心理念:不追求一次完美,而是及時交付最小可用版本,快速迭代

為什麼JIT有效?

工程經驗依據: - 需求不確定 — 前期對"好"的標準認知模糊 - 反饋驅動 — 只有交付了才能獲得反饋 - 風險可控 — 小批量迭代比大批量返工成本低

傳統方式(Big Bang)的問題

Week 1-4: 設計完美方案(50屬性本體)
Week 5-8: 一次性執行(發現方案不適配)
Week 9: 大規模返工(本體重構,數據重錄)

→ 總耗時9周,質量未必高(前期決策錯誤)

JIT方式(Just-In-Time)

Week 1:
  JIT-v0.1: 最小本體(4類)+ 標註5章
  ├─ 交付:初版數據(質量60%)
  └─ 反饋:需要"邦國"類

Week 2:
  JIT-v0.5: 本體演化(4類→8類)+ 標註30章
  ├─ 交付:擴展數據(質量75%)
  └─ 反饋:需要"器物"類

Week 3:
  JIT-v1.0: 本體穩定(18類)+ 標註130章
  ├─ 交付:全量數據(質量85%)
  └─ 反饋:系統性錯誤模式

Week 4:
  JIT-v1.5: 第一輪反思修正
  ├─ 交付:高質量數據(質量92%)
  └─ 反饋:收斂

→ 總耗時4周,質量92%(漸進收斂)

JIT的三個層次

層次1:功能JIT(最小可行產品)

不是:設計完整工具鏈(Lint + Validate + Transform + Export)
而是:
  Day 1: 需要格式校驗 → 開發 lint_format.py(30分鐘)
  Day 5: 需要統計分析 → 開發 stats.py(1小時)
  Day 10: 需要導出功能 → 開發 export.py(2小時)

→ 按需開發(JIT),無冗餘功能

層次2:質量JIT(梯度收緊)

不是:所有數據都要求95%準確率
而是:
  P0: 60%準確率(2天完成130章)
  P1: 80%準確率(1周)
  P2: 90%準確率(1周)
  P3: 97%準確率(1周)

→ 及時交付可用版本,逐輪提升質量

層次3:知識JIT(按需沉澱)

不是:項目結束後寫一份完整文檔(50頁)
而是:
  Week 1: 冷啓動文檔(3頁,夠用)
  Week 2: 本體設計文檔(5頁,基於實際演化)
  Week 4: 反思方法文檔(8頁,基於第一輪經驗)
  Week 8: 完整META技能文檔(20頁,基於全流程總結)

→ 文檔也是JIT,隨項目演化

本項目的JIT實踐

事件年代標註的JIT過程(真實時間線):

P0(2小時):
  交付:3,092事件初版年份(準確率60%)
  方法:LLM快速標註全部事件
  質量目標:能用即可,快速覆蓋

P1(半天):
  交付:第一輪反思修正(1010處,準確率80%)
  方法:Agent自動反思 + 批量修正
  質量目標:系統性錯誤消除

P2(2小時):
  交付:第二輪反思修正(431處,準確率88%)
  方法:基於P1模式庫的增量修正
  質量目標:模式驅動修正

P3(2小時):
  交付:第三輪反思修正(465處,準確率92%)
  方法:跨章一致性檢查
  質量目標:跨章一致性

P4(1小時):
  交付:第四輪反思修正(167處,準確率95%)
  質量目標:接近收斂

P5(1小時):
  交付:第五輪反思修正(46處,準確率97%)
  質量目標:收斂完成

總耗時:約1.5天(vs 一次性完美需要1周+)

JIT的收益: - 2小時即可交付可用版本(P0,60%質量) - 避免一次性完美的返工風險 - 每輪都有可交付成果(持續價值) - 總時間反而更短(1.5天 vs 1周+)


1.9 OTF + JIT 的協同效應

單獨OTF的問題: - 總結太頻繁 → 執行效率低 - 總結質量受限於樣本量

單獨JIT的問題: - 迭代無方向 → 可能震盪不收斂 - 缺乏方法積累 → 每輪都是新探索

OTF + JIT 協同

JIT 提供大循環,OTF 提供小循環。

JIT 的節奏是:P0 → P1 → P2 → P3 → 收斂。
OTF 的節奏是:每一輪內部持續發現模式、總結模式、應用模式。

所以真實協同關係是:

P0 階段先交付 60% 的版本。
在 P0 內部,通過 OTF 長出第一批規則、本體調整和工具。
P1 再把 P0 的總結結果吃進去,系統性修正。
後面每一輪,都建立在前一輪沉澱出的模式之上。

JIT 提供框架,OTF 提供燃料。
JIT 負責把版本往前推,OTF 負責把知識往上提。

具體協同

P0階段(JIT框架):
  Day 1: 標註5章
    ├─ OTF-1: 發現消歧模式 → 更新規則
  Day 2: 標註30章
    ├─ OTF-2: 發現分類模式 → 本體演化
  Day 3-4: 標註130章
    ├─ OTF-3: 發現格式模式 → 開發Lint
  Day 5: P0交付(60%質量,25條OTF總結的模式)

P1階段(JIT框架):
  應用P0的25條模式(OTF產出)
  ├─ 系統性修正1010處
  ├─ OTF-4: 發現新模式1條
  └─ P1交付(80%質量,26條累計模式)

→ JIT提供框架,OTF提供燃料(模式)

複利效應: - OTF總結的模式 → JIT迭代的基礎 - JIT交付的版本 → OTF總結的樣本 - 兩者相互促進,形成正反饋


二、Bootstrap:知識自舉的五階演化

2.1 核心理念:知識增殖與自動化遞進

傳統觀念(錯誤)

傳統觀念

人工勞動 → 完成任務 → 項目結束 → 下個項目從頭再來。

自舉觀念

人工勞動會產生中間知識,比如日誌、腳本、檢查規則。
中間知識會進一步總結成 Skill。
Skill 會再長出自動化工具。
工具使用過程又會產生更高階的模式。
最後,系統開始具備自動總結、自動演化的能力。

自舉理念(正確): Bootstrap 不是重複跑流程,而是每一輪都長出更高階知識。

核心洞察: - 每一步迭代都是下一步的燃料(知識增殖) - 自動化程度指數增長(從0%→20%→60%→90%→99%) - 人的角色從執行者→監督者→設計者


2.2 第一階:人工勞動 + 記錄(Week 1)

狀態: - 自動化率:0% - 人工佔比:100% - 中間產物:聊天記錄、操作日誌、臨時筆記

典型場景

Day 1-2: 手動標註5章
  ├─ Claude對話:30輪問答,探索標註規範
  ├─ 產出數據:5章標註文件
  └─ 副產品:
      - 30輪對話記錄(包含決策過程)
      - errors.txt(記錄了12個犯錯案例)
      - questions.md(3個未解決的模糊問題)

關鍵點: - 不要丟棄中間過程(對話、日誌、草稿) - 這些"廢料"是下一階段的"原料" - 人工階段已經在積累"隱性知識"


2.3 第二階:腳本化 + 局部自動化(Week 2)

狀態: - 自動化率:20% - 人工佔比:80% - 中間產物:檢查腳本、統計腳本、格式轉換腳本

典型場景

Day 3-4: 標註30章,發現重複勞動
  ├─ 人工:標註(80%時間)
  └─ 發現模式:
      - 每章結束都要手動統計實體數 → 寫 count_entities.py(10分鐘)
      - 每次提交前都要檢查格式 → 寫 lint_format.py(30分鐘)
      - 每次都要生成markdown索引 → 寫 generate_index.py(1小時)

Day 5-7: 使用腳本標註30章
  ├─ 人工:標註(60%時間,↓20%)
  ├─ 腳本:自動檢查/統計/生成(20%時間,但只需運行命令)
  └─ 節省時間:20% → 用於標註更多章節

關鍵進展: - 從"純手工"到"腳本輔助" - 腳本是第一層知識固化(從隱性→顯性) - 但腳本還需人工觸發(半自動化)


2.4 第三階:SKILL 總結 + 工作流自動化(Week 3-4)

狀態: - 自動化率:60% - 人工佔比:40% - 中間產物:SKILL文檔、Agent反思工作流

典型場景

Week 3: 完成130章初版,回顧30個腳本
  ├─ 發現:腳本之間有共同模式
  ├─ 總結:寫 SKILL_02_實體標註反思.md
  │   - 記錄:18類實體的識別規則
  │   - 記錄:12條常見錯誤模式
  │   - 記錄:腳本使用的最佳順序
  └─ 自動化升級:
      - 寫 workflow_entity_reflect.sh(串聯所有腳本)
      - Agent讀取SKILL → 自主執行反思流程
      - 人工只需:啓動workflow + 審查結果

Week 4: 第一輪反思,Agent自動修正1010處
  ├─ 人工:啓動Agent + 審查(10%時間)
  ├─ Agent:讀SKILL → 自動識別問題 → 自動修正(90%時間)
  └─ 新產出:
      - 反思報告(Agent自動生成)
      - 新發現的25條錯誤模式(Agent總結)

關鍵進展: - SKILL = 工作流的"DNA"(可被Agent讀取和執行) - 從"人寫腳本"到"Agent讀SKILL自動執行" - 人從"執行者"變為"審查者"(人工佔比從100%→40%)


2.5 第四階:自動總結 SKILL(Week 5-8)

狀態: - 自動化率:90% - 人工佔比:10% - 中間產物:自動生成的SKILL更新、模式庫自動擴展

典型場景

Week 5: 第二輪反思,發現新模式
  ├─ Agent執行反思(自動)
  ├─ Agent發現新模式(自動)
  └─ **Agent自動更新SKILL**(新!)
      - 讀取 SKILL_02_實體標註反思.md
      - 檢測到新模式P26:"確定性分層不清晰"
      - 自動追加到SKILL文檔:
        ```
        ### 模式P26: 確定性分層不清晰
        - 發現於:第二輪反思(2026-03-10)
        - 頻率:431處
        - 修正方法:明確"確定"/"推定"/"估算"三級
        ```
      - 人工只需審查是否合理

Week 6-8: 連續三輪反思
  ├─ Agent讀取不斷更新的SKILL
  ├─ 每輪自動總結新模式(如果有)
  ├─ 自動更新SKILL → 下輪自動應用
  └─ 人工:每輪只需10%時間審查

關鍵進展: - 總結本身自動化了! - SKILL從"人寫"變為"Agent寫+人審" - 知識增殖進入自循環(SKILL → Agent → 新SKILL → Agent')


2.6 第五階:元進化(進化的進化)(Week 9+)

狀態: - 自動化率:99% - 人工佔比:1%(只管理異常情況) - 中間產物:元SKILL(關於如何總結SKILL的SKILL)

典型場景

Week 9-10: 跨章節事件關係提取
  ├─ Agent讀取 SKILL_05_事件關係提取.md
  ├─ 發現:這個SKILL和 SKILL_02_實體標註 有共同模式
  └─ **Agent自動提煉元SKILL**:
      - 創建 00-META_迭代工作流.md
      - 提煉通用原則:廣度優先、模式驅動、指數衰減...
      - 這些原則可應用於任何反思任務

Week 11+: 新任務(戰爭事件提取)
  ├─ Agent讀取 00-META_迭代工作流.md(元SKILL)
  ├─ Agent自動生成任務專用SKILL:SKILL_05e_戰爭事件識別.md
  │   - 基於元SKILL的模板
  │   - 自動適配具體任務
  └─ 執行任務(99%自動,1%人工審查異常)

進化的進化:
  ├─ 元SKILL本身也在進化
  ├─ Agent觀察到5個具體SKILL的共同演化模式
  └─ 自動更新元SKILL:"SKILL演化三階段模型"

關鍵進展: - 進化機制本身在進化! - SKILL → 元SKILL → 元元SKILL(遞歸抽象) - 系統接近"自治"(Self-Sustaining)


2.7 自舉的數學模型

知識增殖公式

第N輪知識量 = 第N-1輪知識量 × (1 + 總結效率)

示例(史記項目)

Week 1(人工階段):
  知識量 = 5章數據 + 30輪對話
  總結效率 = 0(未總結)

Week 2(腳本階段):
  知識量 = 30章數據 + 10個腳本
  總結效率 = 0.2(腳本複用20%勞動)

Week 3(SKILL階段):
  知識量 = 130章數據 + 10個腳本 + 5個SKILL
  總結效率 = 0.6(Agent自動化60%)

Week 4-8(自動總結階段):
  知識量 = 數據 + 腳本 + SKILL + 元SKILL
  總結效率 = 0.9(Agent自動化90%,包括總結本身)

累計增長:
  1.0 → 1.2 → 1.8 → 3.4 → 6.5
  (指數增長)

自動化率增長曲線

人工佔比隨時間遞減:
Week 1:   100% ████████████████████
Week 2:    80% ████████████████
Week 3:    40% ████████
Week 4:    20% ████
Week 8:    10% ██
Week 12+:   1% ▌

2.8 自舉的關鍵條件

條件1:中間產物可讀

✓ 對話記錄(Markdown)
✓ 腳本(Python,有註釋)
✓ SKILL文檔(結構化Markdown)

✗ 二進制文件(Agent無法讀取)
✗ 隱性知識(只在人腦中)

條件2:知識可被Agent讀取和執行

✓ SKILL用結構化格式(## 模式P01: ...)
✓ 規則用可執行形式(if X then Y)

✗ 模糊描述("儘量做好")
✗ 隱喻表達("像梳頭髮一樣")

條件3:迭代週期足夠短

✓ 每輪1-2周(快速反饋)
✗ 每輪3個月(反饋太慢,知識衰減)

條件4:人類審查閉環

✓ Agent生成SKILL → 人審查 → 確認/修正
✗ Agent生成SKILL → 直接應用(可能積累錯誤)

2.9 自舉的湧現效應

湧現1:質量突變點

前三輪:修正量 1010 → 431 → 465(緩慢下降)
第四輪:修正量突降至 167(-64%)
  ↑
原因:積累的模式達到臨界點(25條)→ 系統性覆蓋

湧現2:跨領域遷移

史記項目(12周):
  → 方法沉澱為14個META技能

漢書項目(預估6周):
  → 直接複用14個META技能
  → 節省50%時間(從12周→6周)
  ↑
原因:知識從"項目專有"湧現為"領域通用"

注:6周預估基於方法複用,但仍需冷啓動驗證、邊界情況處理、反思修正

湧現3:認知躍遷

執行層:修正了2119處錯誤
  ↓ 壓縮
模式層:總結出35條錯誤模式
  ↓ 壓縮
原則層:提煉出5條迭代原則
  ↓ 壓縮
洞察層:頓悟"AI質量提升是模式驅動的"
  ↑
原因:遞歸壓縮到第4層,本質自動湧現

2.10 本項目的自舉軌跡

完整演化鏈

[人工階段] Week 1
  - 產出:5章數據 + 30輪對話記錄
  - 自動化率:0%
    ↓
[腳本階段] Week 2
  - 產出:30章數據 + 10個腳本(lint/stats/export)
  - 自動化率:20%
    ↓
[SKILL階段] Week 3-4
  - 產出:130章數據 + 5個SKILL(標註/反思/質量)
  - 自動化率:60%
    ↓
[Agent自動反思] Week 5-8
  - 產出:5輪反思修正(2119處)+ 35條錯誤模式
  - 自動化率:90%(Agent讀SKILL自動執行)
    ↓
[自動總結SKILL] Week 9-10
  - 產出:Agent自動更新SKILL(新模式→自動追加)
  - 自動化率:95%(包括總結本身)
    ↓
[元SKILL提煉] Week 9-11
  - 產出:8個META技能文檔(迭代/柳葉刀/反思...)
  - 自動化率:98%(跨任務通用方法)
    ↓
[元元SKILL] Week 12+
  - 產出:本文檔(好東西都是總結出來的)
  - 自動化率:99%(關於總結本身的總結)
    ↓
[系統自治] Future
  - 目標:Agent自主完成新古籍項目(漢書/資治通鑑)
  - 自動化率:99.9%(人只管理1%的異常情況)

人工時間投入

階段                  總工作量    人工投入    自動化率
Week 1(冷啓動)        40小時     40小時       0%
Week 2(模式湧現)      40小時     32小時      20%
Week 3-4(批量執行)    80小時     32小時      60%
Week 5-8(反思迭代)    40小時      4小時      90%
Week 9-12(元知識)     20小時      1小時      95%

總計:220小時總工作,109小時人工
節省:vs 傳統400小時全人工,節省73%人工成本

知識資產增長(真實數據):

腳本工具:5個 → 25個 → 59個(最終)
項目SKILL:0個 → 15個 → 41個(史記專用)
META技能:0個 → 8個 → 14個(跨項目通用)
元元SKILL:0個 → 0個 → 1個(本文檔,跨領域)

資產價值(漢書項目複用預估):
  - 腳本工具:90%可複用(只需微調參數)
  - 項目SKILL:60%可遷移(需適配古籍差異)
  - META技能:100%直接用(方法論通用)
  - 元元SKILL:100%直接用(演進式方法論)

三、本項目的總結實踐

3.1 實體標註:從混亂到18類本體

第零次總結(Day 1-2,冷啓動)

手動標註5章,發現需要的類型:
  - 人物(明確)
  - 地點(明確)
  - 官職(明確)
  - 時間(明確)
  - 其他(模糊,暫時全放這裏)

→ 最小本體v0.1:4+1類

第一次總結(Day 5,模式湧現)

全量標註30章,發現"其他"類中隱藏的模式:
  - 邦國(齊、楚、秦...)不是地名,需單獨分類
  - 氏族(姬、嬴、羋...)不是人名,需單獨分類
  - 器物(劍、鼎、鍾...)不是普通名詞,需標註
  - 典籍(《詩》、《書》...)高頻出現,需標註

→ 本體v0.5:4+4=8類

第二次總結(Day 10,分類細化)

全量標註130章,發現8類仍不夠:
  - 官職需拆分為"官職"和"爵位"(語義不同)
  - 地名需拆分為"地名"和"山川"(用法不同)
  - 時間需拆分為"朝代"、"年號"、"節氣"
  - 新增"制度"類(如"井田制"、"分封制")
  - 新增"事件名"類(如"長平之戰"、"鴻門宴")

→ 本體v1.0:18類(穩定)

第三次總結(P1反思後,屬性補全)

18類本體穩定,但發現需要屬性:
  - 人物:需要"生卒年"、"籍貫"、"官職"
  - 地名:需要"今地對照"(如"咸陽 → 今陝西咸陽")
  - 官職:需要"設立年代"、"職責"
  - 邦國:需要"建國/滅國年份"、"都城"

→ 本體v1.5:18類 + 平均6屬性/類

第四次總結(跨項目,方法論提煉)

史記經驗應用到《漢書》,發現:
  - 80%類型可複用(人/地/官/時/邦/族...)
  - 20%需調整(新增"年號"類,漢代年號複雜)
  - 屬性繼承90%

→ 通用古籍本體框架v2.0(可遷移)

第五次總結(本文檔,方法論)

從史記+漢書的實踐中總結出:
  - 本體不是設計的,是"長"出來的
  - 最小可行本體 + 數據驅動演化
  - 屬性按需增加,不預設

→ Lean Semantic Web方法論(可傳播)

壓縮比分析

原始數據:32,022個實體標註
  ↓ [第一次總結]
18類實體類型
  ↓ [第二次總結]
平均6屬性/類 = 108個屬性定義
  ↓ [第三次總結]
3條核心原則(最小本體、數據驅動、按需演化)
  ↓ [第四次總結]
1個洞察(本體是長出來的)

3.2 事件年代:從1010處錯誤到5條原則

第一輪總結(1010處修正 → 25條模式)

原始錯誤(部分):
  - 001章:"武王伐紂"標註為-1050,實際-1046
  - 003章:"齊桓公即位"標註為-705,實際-685
  - 005章:"晉文公稱霸"標註為-632,實際-636
  ... (1010處)

總結出25條錯誤模式:
  P01: 單錨點塌縮(多個事件共享同一個錨點年份,未展開)
  P02: 確定性不足(能從編年表驗證的未標註為"確定")
  P03: 世系年代估算(父子/兄弟之間的年代推算錯誤)
  P04: 跨章不一致(同一事件在不同章節年份矛盾)
  ...
  P25: 諸侯在位年錯誤(某些諸侯在位年數據庫有誤)

第二輪總結(431處修正 → 新模式1條)

原始錯誤(部分):
  - 006章:"秦穆公卒"年份需升級為確定(-621)
  - 015章:"趙武靈王即位"需修正為-325
  ... (431處)

新模式:
  P26: 確定性分層不清晰(需明確"確定"/"推定"/"估算"三級)

第三輪總結(465處修正 → 錨點污染問題)

發現:第二輪修正量未減少 → 說明有新問題

新問題:
  - 第二輪的"確定性升級"引入了錨點污染
  - 部分"確定"年份本身有誤,污染了其他事件

→ 新原則:在修正前先驗證錨點質量

第四輪總結(167處修正 → 跨章驗證原則)

發現:跨章同事件年份不一致

新原則:
  - 建立"事件標準年份表"(canonical year)
  - 所有章節引用同一事件時,年份必須一致

第五輪總結(46處修正 → 收斂)

修正量<5%,新模式=0

→ 方法收斂

最終總結(五輪 → 5條迭代原則)

原則1: 廣度優先
  - 來源:P0階段如果深度優先,會因系統性錯誤大量返工
  - 表述:先130章全覆蓋(60%質量),再迭代提升

原則2: 模式驅動
  - 來源:1010處錯誤→25條模式,壓縮比40:1
  - 表述:每輪核心產出是錯誤模式表,而非修正數據

原則3: 指數衰減
  - 來源:修正量1010→431→465→167→46(平均衰減率43%)
  - 表述:修正量應指數衰減,否則說明有系統性遺漏

原則4: 新模式歸零
  - 來源:P2後仍發現新模式 → 說明P0/P1質量太低
  - 表述:收斂的標誌是新模式=0(連續兩輪)

原則5: 交叉驗證
  - 來源:跨章不一致問題在第四輪才暴露
  - 表述:單章質量高不等於全局質量高,需跨章交叉驗證

再次總結(5條原則 → 1個洞察)

洞察: AI生成內容的質量提升不是線性的,是模式驅動的
  - AI的錯誤是系統性的(不是隨機的)
  - 發現模式比修正數據更重要
  - 迭代收斂比一次完美更現實

3.3 柳葉刀方法:從大量實驗到混合方案矩陣

實驗階段(Week 1-2)

任務:提取7652條事件關係

嘗試方案A(純LLM):
  - 成本:507萬對 × $0.01 = $41,000
  - 時間:11小時
  - 精度:87%
  - 召回:92%
  → 成本太高,不可接受

嘗試方案B(純規則):
  - 成本:$50(開發時間)
  - 時間:5分鐘
  - 精度:95%
  - 召回:68%
  → 召回太低,遺漏大量關係

嘗試方案C(簡單混合:規則+LLM順序執行):
  - 成本:$2,100
  - 時間:3小時
  - 精度:89%
  - 召回:85%
  → 改進,但仍有優化空間

第一次總結(Week 3,分類策略)

總結:不同關係類型適合不同方法

跨章關係(co_person, co_location, concurrent):
  - 特點:結構化匹配(實體共現、時間對齊)
  - 方案:代碼自動化(精度98%,成本$0)

章內關係(sequel, causal, part_of):
  - 特點:語義理解(時序、因果、層次)
  - 方案:LLM推理(精度87%,成本$380)

→ 混合方案v1.0:按關係類型分工

第二次總結(Week 4,進一步優化)

發現:跨章也有因果關係,但候選太多

優化:規則前置篩選 + LLM二次推理
  1. 規則篩選:共享實體+時間接近 → 2.5萬候選對
  2. LLM推理:語義判斷因果關係 → 352條

→ 混合方案v2.0:規則篩選 + LLM精煉

第三次總結(跨項目,方法論提煉)

從事件關係、人名消歧、戰爭提取的實踐中總結:

決策樹:
  ├─ 有明確規則?→ 規則+代碼
  ├─ 結構化匹配?→ 代碼算法
  ├─ 需語義理解?→ LLM
  └─ 可安全自動?→ 規則+LLM+人工

→ 任務分工決策樹(通用框架)

第四次總結(方法論文檔)

從決策樹中再次總結:

核心原則:
  1. 精細分解(複雜任務→可優化模塊)
  2. 混合驅動(LLM/規則/代碼各取所長)
  3. 成本意識(不盲目用LLM)

→ 柳葉刀方法(00-META_柳葉刀方法.md)

第五次總結(本文檔)

從柳葉刀方法的形成過程中提煉:

洞察: 最優方案不是設計出來的,是從對比實驗中總結出來的
  - 預設"LLM最好"或"規則最好" = 教條
  - 實驗A/B/C → 總結混合策略 = 科學
  - 混合方案矩陣 = 歸納的產物

四、為什麼好東西都是總結出來的?

4.1 認知科學基礎

人類理解的本質是模式識別

原始數據(低熵,無結構)
    ↓ [歸納/總結]
模式/規律(高熵,有結構)
    ↓ [壓縮/抽象]
原理/洞察(極高熵,本質)

示例:從案例到洞察

案例層(130章×平均100次標註錯誤 = 13,000個錯誤)
  ↓ [第一次總結]
模式層(25條錯誤模式:"單錨點塌縮"、"確定性不足"...)
  ↓ [第二次總結]
原則層(5條迭代原則:"廣度優先"、"模式驅動"...)
  ↓ [第三次總結]
哲學層(1個核心洞察:"AI質量提升不是線性的,是模式驅動的")

為什麼不能跳過: - 直接從13,000個錯誤→1個哲學 = 沒有中間抽象層 = 無法執行 - 模式層是可操作的知識("下次遇到X,就做Y") - 原則層是可遷移的方法(適用於漢書、資治通鑑) - 哲學層是可傳播的洞察(適用於所有AI知識工程)


4.2 工程實踐基礎

預設 vs 總結的對比

維度
預設(設計)
總結(歸納)
時機
數據之前
數據之後
依據
理論/經驗/直覺
實際案例
風險
與現實不符→大規模返工
初期粗糙→迭代改進
適用
問題清晰、規則明確
問題複雜、規則模糊
典型失敗
50屬性本體,50%缺失值
冷啓動太粗糙,收斂太慢

本項目的核心選擇:總結驅動

傳統方案(預設):
  Week 1-4: 設計18類實體的完整本體(50屬性/類)
  Week 5: 開始標註,發現:
    - "族"類需要"分支"屬性(本體沒有)
    - "官"類不需要"籍貫"屬性(本體有,但無數據)
    - "邦"類需要拆分為"邦國"和"地名"(本體未區分)
  Week 6: 本體重構,數據返工
  → 總耗時6周,士氣低落

本項目方案(總結):
  Day 1-2: 最小本體(4類:人/地/官/事件)
  Day 3-4: 標註30章(發現需要"族"、"邦"、"物"...)
  Day 5: 總結出18類實體(基於實際數據)
  Day 6-10: 全量標註130章
  → 總耗時2周,本體自然湧現

為什麼總結更優: - 現實優先 — 數據告訴我們需要什麼,而非我們猜測 - 增量演化 — 本體從簡到繁,每次增加都有數據支撐 - 風險可控 — 即使初期本體不完美,後期可迭代修正


4.3 知識複用基礎

總結的複利效應

項目1(史記,12周)
  ├─ 產出數據:32,022實體、3,092事件、7,652關係
  └─ 產出方法:9階段管線、5個META技能、20+工具

項目2(漢書,預估6周)
  ├─ 數據從零開始
  └─ 方法繼承80%(只需微調)
      → 節省6周(50% ↓)

項目3(資治通鑑,預估20周)
  ├─ 數據從零開始
  └─ 方法繼承90%
      → 節省20周(50% ↓)

累計收益:
  - 項目1:12周
  - 項目2:6周(節省6周)
  - 項目3:20周(節省20周)
  - 總耗時:38周 vs 預估76周(傳統方案)

總結是資產,數據是消耗品

資產類型
項目1
項目2
項目3
複用率
數據(實體/事件)
0%
本體(18類分類)
80%
工具(Lint/Extract)
90%
方法(META技能)
100%
洞察(Lean原則)
100%

啓示:投入時間總結方法 = 長期ROI最高的活動


五、如何總結?五層抽象金字塔

5.1 第一層:原始案例(具體事實)

特徵: - 具體、獨立、不可複用 - 數量巨大(13,000+ 錯誤案例) - 信息密度低(大量冗餘)

示例

案例1: 001章第37段,"周武王"誤標為"武王"(缺消歧符)
案例2: 003章第52段,"齊桓公"誤標為"桓公"(缺消歧符)
案例3: 005章第89段,"晉文公"誤標為"文公"(缺消歧符)
...
案例423: 089章第12段,"漢武帝"誤標為"武帝"(缺消歧符)

問題:423個案例,每個都單獨處理 = 不可擴展


5.2 第二層:錯誤模式(歸納規律)

特徵: - 抽象、通用、可批量修正 - 數量適中(20-30條/輪) - 信息密度高(一條模式覆蓋數百案例)

示例(從上述案例總結):

模式P01: 短名缺消歧符
  ├─ 定義:諡號/爵位(如"武王"、"桓公")未標註所屬邦國
  ├─ 頻率:423處(覆蓋37章)
  ├─ 修正方法:掃描上下文,提取前置邦國標記(如&周&@武王@ → &周武王&)
  └─ 自動化:可編寫腳本批量修正(準確率95%+)

價值: - 1條模式 = 423個案例的壓縮 - 壓縮比:423:1 - 下次遇到類似問題,直接應用模式(不再逐個處理)


5.3 第三層:方法原則(通用策略)

特徵: - 跨任務通用(不限於具體錯誤類型) - 數量少(5-10條) - 可指導整個工序

示例(從25條錯誤模式中再次總結):

原則1: 廣度優先
  ├─ 來源:模式P01-P25顯示,系統性錯誤只有全量處理後才能發現
  ├─ 適用:所有需要質量迭代的工序
  └─ 表述:"先快速覆蓋全部數據(60%質量),再迭代提升(→97%)"

原則2: 模式驅動
  ├─ 來源:修正量從1010→431→465呈指數衰減(基於模式積累)
  ├─ 適用:所有Agent反思任務
  └─ 表述:"每輪迭代的核心產出是錯誤模式表,而非修正數據"

原則3: 梯度收緊
  ├─ 來源:P0階段追求完美 → 進度慢;P3階段標準松 → 質量差
  ├─ 適用:所有質量標準設計
  └─ 表述:"質量基線隨輪次動態調整(P0-60% → P1-80% → P2-90% → P3-97%)"

價值: - 3條原則 = 25條模式的壓縮 - 可遷移到其他任務(事件提取、關係構建...) - 形成可執行的工作流程


5.4 第四層:核心洞察(本質認知)

特徵: - 跨領域通用(不限於古籍知識工程) - 數量極少(1-3條) - 改變認知框架

示例(從5條原則中再次總結):

洞察1: AI生成內容的質量提升不是線性的,是模式驅動的
  ├─ 來源:5輪迭代,修正量指數衰減(1010→431→465→167→46)
  ├─ 本質:AI的錯誤不是隨機的,而是系統性的
  ├─ 推論:
  │   - 發現模式 > 修正數據
  │   - 迭代收斂 > 一次完美
  │   - 廣度優先 > 深度優先
  └─ 適用:所有LLM驅動的知識工程項目

洞察2: 好的本體不是設計出來的,是從數據中"長"出來的
  ├─ 來源:本體從4類→18類的演化過程
  ├─ 本質:預設本體 vs 數據現實 總有鴻溝
  ├─ 推論:
  │   - 最小本體起步
  │   - 按需增加屬性
  │   - 數據驅動演化
  └─ 適用:所有語義建模任務(Lean Semantic Web)

洞察3: 總結是壓縮,壓縮是理解,理解是價值
  ├─ 來源:13,000案例→25模式→5原則→2洞察 的遞歸壓縮
  ├─ 本質:信息熵的遞增 = 知識密度的提升
  ├─ 推論:
  │   - 沒有總結就沒有方法論
  │   - 沒有壓縮就沒有複用
  │   - 沒有抽象就沒有遷移
  └─ 適用:所有知識工作

價值: - 改變思維方式(從"做事"到"總結做事的方法") - 跨領域複用(不限於古籍,適用於RegTech、醫療知識抽取...) - 可傳播、可教學


5.5 第五層:元哲學(認識論)

特徵: - 超越具體領域 - 關於"知識如何產生"的知識 - 本文檔本身

示例

元命題: 好東西都是總結出來的
  ├─ 不是:"好東西都是設計出來的"(傳統工程觀)
  ├─ 不是:"好東西都是學習出來的"(端到端深度學習)
  ├─ 而是:"好東西是從大量實踐中歸納/壓縮/抽象出來的"
  └─ 適用:所有創造性知識工作

推論1: 總結先於設計
  - 設計是基於總結的(先有經驗,再有理論)
  - 沒有總結的設計 = 空中樓閣

推論2: 歸納優於演繹(在模糊問題域)
  - 演繹需要完備公理(古籍知識工程沒有)
  - 歸納從數據出發(更魯棒)

推論3: 迭代優於一次性
  - 總結需要樣本(第一次總結質量有限)
  - 迭代 = 多次總結 + 遞歸壓縮

六、如何培養"總結思維"?

6.1 三個核心習慣

習慣1: 每次做完就問"規律是什麼"

反例(只做不總結)

Week 1-12: 標註130章(逐章處理錯誤)
  - 每章獨立處理,不總結模式
  - 每次遇到同類錯誤都重新思考
  - 累計處理2600+個錯誤,全部人工判斷

→ 耗時12周,無方法積累
→ 下次做《漢書》還得從頭來,又是12周

正例(邊做邊總結)

Week 1: 標註5章(冷啓動)
  → 總結:錯誤類型分佈(消歧60%、格式25%、分類15%)

Week 2: 標註30章(發現模式)
  → 總結:重複模式→開發自動檢查工具(Lint規則)
  → 產出:消歧規則庫、格式檢查腳本

Week 3-4: 批量執行130章
  → 工具自動檢查→Agent修正→人類審核異常
  → 產出:5個SKILL文檔(可複用)

Week 5-12: 反思迭代 + 提煉META技能
  → Agent自主修正2119處
  → 產出:14個META技能文檔

→ 耗時12周,產出115個可複用組件
→ 下次做《漢書》預估6周(50%時間節省)
   理由:冷啓動仍需1-2周驗證本體適配性
        批量執行雖自動化但數據量在
        新的邊界情況仍需人工處理

啓示: - 不是"做完130個→總結1次",而是"做5個→總結→做30個→總結→做130個" - 總結越早,後續效率越高 - 總結不是額外成本,是降低未來成本的投資


習慣2: 記錄"為什麼這樣做"

反例(只記錄結果)

## 實體分類規則

1. 人名用@標註
2. 地名用&標註
3. 官職用%標註
...
18. 朝代用~標註

正例(記錄決策過程)

## 實體分類規則演化史

### v0.1(Day 1)
- 人名:@
- 地名:&
- 官職:%
- 其他:無標註

### v0.5(Day 5,基於30章數據總結)
- 發現:邦國(齊、楚)與地名(咸陽、邯鄲)語義不同
  → 決策:邦國單獨分類,用^標註
- 發現:氏族(姬、嬴)高頻出現
  → 決策:氏族單獨分類,用#標註

### v1.0(Day 10,基於130章數據總結)
- 發現:"長平之戰"、"鴻門宴"既是事件又是名稱
  → 決策:新增"事件名"類,用$標註
- 發現:朝代(夏、商、周)與年號(元年、二年)需區分
  → 決策:朝代用~、年號用*

### 為什麼最終是18類?
  - 不是預設的(Day 1只有4類)
  - 是從數據中湧現的(每次總結都基於實際需求)
  - 穩定性驗證:130章後無新類型 → 18類已收斂

啓示: - "為什麼"比"是什麼"更重要 - 決策歷史 = 可複用的經驗 - 下次遇到類似問題,回顧決策歷史可避免重複探索


習慣3: 定期"遞歸壓縮"

什麼是遞歸壓縮

第一次壓縮(案例→模式)
  13,000個錯誤 → 25條錯誤模式
  壓縮比:520:1

第二次壓縮(模式→原則)
  25條錯誤模式 → 5條迭代原則
  壓縮比:5:1

第三次壓縮(原則→洞察)
  5條迭代原則 → 1個核心洞察
  壓縮比:5:1

總壓縮比:13,000:1

操作方法

每週五下午:遞歸壓縮時間(2小時)

Week 1:
  - 回顧:本週標註了30章,發現78個錯誤
  - 總結:錯誤模式表(6條新模式)
  - 壓縮:6條 → 2條原則("消歧規則庫優先"、"格式Lint自動化")

Week 2:
  - 回顧:本週完成全量130章
  - 總結:錯誤模式表(25條累計)
  - 壓縮:25條 → 5條原則

Week 3:
  - 回顧:第一輪反思,1010處修正
  - 總結:反思方法文檔
  - 壓縮:5條原則 → 1個洞察

Week 4:
  - 回顧:五輪反思全部完成
  - 總結:迭代工作流方法論
  - 壓縮:洞察 → META技能文檔

為什麼每週: - 太頻繁(每天):案例不夠,總結質量低 - 太稀疏(每月):細節遺忘,總結困難 - 每週:平衡點(案例足夠 + 記憶清晰)


6.2 三個思維工具

工具1: 對比表(發現差異才能總結規律)

示例:傳統 vs Lean Semantic Web

維度
傳統語義網
Lean Semantic Web
規律
本體設計時機
數據錄入前
數據標註後
延遲決策
本體完整性
追求預設完整
最小可用
簡單起步
容錯策略
不允許缺失值
允許缺失
漸進嚴格
演化能力
本體修改=數據重構
本體演化=增量迭代
低耦合

從對比中總結: - 規律1: 延遲決策(先數據後本體) - 規律2: 簡單起步(最小本體) - 規律3: 漸進嚴格(容錯→收緊) - 規律4: 低耦合設計(本體演化不影響數據)


工具2: 演化鏈(看到變化才能理解本質)

示例:本體演化鏈

v0.1 (Day 1)
  ├─ 4類:人/地/官/事件
  └─ 為什麼?→ 最小可行,快速啓動

v0.5 (Day 5)
  ├─ 8類:人/地/官/事件/邦/族/物/典
  └─ 為什麼?→ 數據顯示需要(30章總結)

v1.0 (Day 10)
  ├─ 18類(細分)
  └─ 為什麼?→ 分類不夠細(官≠爵,地≠山)

v1.5 (Week 3)
  ├─ 18類 + 屬性
  └─ 為什麼?→ 分類穩定,需補充屬性

v2.0 (跨項目)
  ├─ 通用框架
  └─ 為什麼?→ 漢書複用,提煉通用部分

從演化鏈中總結: - 規律1: 從簡到繁(4→8→18) - 規律2: 數據驅動(每次變化都有數據依據) - 規律3: 收斂特徵(v1.0後無新類型) - 規律4: 抽象提升(v2.0跨項目通用)


工具3: 決策樹(結構化決策過程)

示例:混合方案決策樹

任務分析
  ├─ 有明確規則?
  │   ├─ 是 → 規則+代碼
  │   │   └─ 示例:類型過濾、格式校驗
  │   └─ 否 ↓
  ├─ 結構化匹配?
  │   ├─ 是 → 代碼算法
  │   │   └─ 示例:實體共現、時間對齊
  │   └─ 否 ↓
  ├─ 需語義理解?
  │   ├─ 是 → LLM
  │   │   └─ 示例:因果推理、情感分析
  │   └─ 否 ↓
  └─ 可安全自動?
      ├─ 是 → 規則+LLM
      │   └─ 示例:規則篩選候選 + LLM確認
      └─ 否 → 人工審查

從決策樹中總結: - 規律1: 優先級(規則>代碼>LLM>人類審查) - 規律2: 成本梯度(規則最低,LLM中等,人類審查最高) - 規律3: 精度梯度(規則確定性,LLM可能錯,人類審查最準) - 規律4: 混合最優(不同任務用不同方案,Agent自動選擇)


6.3 養成總結習慣

每日(10分鐘):
  - 今天做了什麼?(案例記錄)
  - 遇到了什麼問題?(異常記錄)
  - 有什麼重複模式?(初步歸納)

每週(2小時):
  - 本週案例彙總(X個案例)
  - 提取錯誤模式(Y條模式)
  - 更新規則庫/工具(Z個改進)

每月(半天):
  - 本月方法演化(v0.X → v1.X)
  - 跨任務規律總結(通用原則)
  - 文檔化沉澱(META技能更新)

七、總結的邊界與反模式

7.1 什麼時候不應該總結?

場景1: 樣本量不足

反例

Day 1: 標註3章,發現5個錯誤
  → 立即總結:"所有人名都缺消歧符"
  → 錯誤:樣本太少,規律可能是偶然

Day 2: 標註30章,發現78個錯誤
  → 重新總結:60%是消歧問題,40%是其他
  → 正確:樣本足夠,規律可靠

判斷標準: - 定量任務:樣本量>30(統計顯著性) - 定性任務:樣本量>10(模式可靠性) - 複雜任務:樣本量>100(覆蓋邊界情況)


場景2: 規律尚未穩定

反例

第一輪:發現25條錯誤模式
  → 立即寫入正式文檔:"這就是全部模式"
  → 錯誤:第二輪又發現10條新模式 → 文檔過時

第三輪:新模式歸零(連續兩輪)
  → 此時總結:"25+10=35條是穩定模式集"
  → 正確:規律已收斂

判斷標準: - 新模式歸零(連續2輪) - 修正量<5%(相對總量) - 跨樣本一致性>95%


場景3: 過度泛化

反例

從史記項目總結:
  "所有古籍都應該用18類實體分類"
  → 錯誤:漢書需要"年號"類(史記沒有),資治通鑑需要"官署"類

正確總結:
  "古籍實體分類應從4-5類最小本體開始,基於數據演化到15-20類"
  → 抽象了方法(最小本體+演化),而非具體分類

判斷標準: - 總結的是方法(可遷移),而非具體方案(項目專有) - 保留一定抽象層次,不過度具體化


7.2 總結的反模式

反模式1: 總結代替思考

表現

遇到問題 → 立即查文檔 → 套用模式
  → 從不思考"為什麼這個模式有效"
  → 模式失效時無法應對

正確做法

遇到問題 → 回顧模式的來源 → 理解本質 → 判斷是否適用
  → 適用:直接套用
  → 不適用:理解差異,創造新方案 → 新一輪總結

反模式2: 追求完美總結

表現

花3天時間寫一份"完美"的總結文檔
  → 文檔太長(50頁),無人閲讀
  → 細節太多,核心洞察被淹沒

正確做法

第一版:用1小時寫核心要點(1頁)
  → 夠用即可,不追求完美

第二版:使用過程中發現不足,補充(3頁)
  → 基於實際需求演化

第三版:跨項目複用,提煉通用部分(5頁)
  → 穩定版本

原則: - 總結也要迭代(不要追求一次性完美) - 夠用就好(過度總結 = 浪費計算資源) - 讓Agent執行反饋(總結是否有用,實際效果說了算)


反模式3: 只總結成功經驗

表現

總結文檔:
  ✓ 成功案例:混合方案節省$40,000
  ✓ 成功案例:迭代收斂準確率97%
  ✗ 失敗案例:無

→ 問題:後來者不知道哪些坑已經踩過

正確做法

總結文檔:
  ✓ 成功案例:混合方案節省$40,000
  ✓ 成功案例:迭代收斂準確率97%
  ✗ 失敗案例1:純LLM方案成本爆炸($41,000)
  ✗ 失敗案例2:深度優先導致大量返工(浪費2周)
  ✗ 失敗案例3:預設50屬性本體,50%缺失值(Week 6本體重構)

→ 價值:失敗經驗 > 成功經驗(避免重複踩坑)

啓示: - 失敗案例是反向的成功經驗 - "不要做X" 比 "應該做Y" 更容易記住 - 失敗的代價 > 成功的收益 → 避免失敗更重要


八、總結的總結:元元技能清單

8.1 三個核心認知

  1. 知識是壓縮
     — 從10,000案例→1個洞察 = 信息熵的遞增
  2. 理解是歸納
     — 看到規律才算真正理解,沒有規律就沒有知識
  3. 方法是沉澱
     — 做一次是經驗,做十次總結出來才是方法論

8.2 五層抽象金字塔

第五層:元哲學(認識論)
  ↑
第四層:核心洞察(本質認知)
  ↑
第三層:方法原則(通用策略)
  ↑
第二層:錯誤模式(歸納規律)
  ↑
第一層:原始案例(具體事實)

8.3 三個核心習慣

  1. 每次做完就問"規律是什麼"
     — 不是做130個再總結,而是做5個就總結
  2. 記錄"為什麼這樣做"
     — 決策歷史比結果更重要
  3. 定期"遞歸壓縮"
     — 每週2小時,從案例→模式→原則→洞察

8.4 三個思維工具

  1. 對比表
     — 發現差異才能總結規律
  2. 演化鏈
     — 看到變化才能理解本質
  3. 決策樹
     — 結構化決策過程

8.5 兩個邊界判斷

何時總結: - ✓ 樣本量足夠(定量>30,定性>10) - ✓ 規律已穩定(新模式=0,連續2輪) - ✓ 有實際用途(下次遇到可直接套用)

何時不總結: - ✗ 樣本量不足(偶然規律) - ✗ 規律未收斂(仍在快速變化) - ✗ 過度泛化(方法 vs 具體方案)

8.6 一個元洞察

好東西都是總結出來的 = 所有其他元技能的基礎

迭代工作流 ← 基於總結(錯誤模式表)
Lean Semantic Web ← 基於總結(本體從數據中"長"出來)
柳葉刀方法 ← 基於總結(混合方案矩陣)
反思工作流 ← 基於總結(Agent審查的核心是模式發現)
質量控制 ← 基於總結(Lint規則來自錯誤案例)
冷啓動 ← 基於總結(先5個樣本建立直覺)
數據體感 ← 基於總結(觀察數據的異常模式)

遞歸性: - 本文檔本身就是總結的產物(元元技能) - 總結如何總結 = 元認知 - 好東西都是總結出來的 = 終極元技能


九、實踐檢查清單(Agent自主執行版)

重要說明:本檢查清單及所有SKILL文檔都是由Agent執行、給Agent看的。 人類的角色是:引導方向、審核異常、驗收成果,而非逐步執行。

Agent執行任務時(自動觸發)

Agent在執行標註/分析/提取等任務時,自動檢查:

  • [ ] 每處理5-10個樣本,自動分析:"當前批次有什麼重複模式?"
  • [ ] 遇到決策點時,在日誌記錄:"為什麼選擇方案A而非方案B?"
  • [ ] 自動分配時間:90%執行任務 + 10%模式總結與SKILL更新

人類引導:設定任務目標、檢查清單閾值(如"樣本量>10才總結")


Agent每輪迭代後(自動總結)

Agent完成一輪標註/修正後,自動執行:

  • [ ] 生成本輪統計:處理X個案例,發現Y個問題,分佈如何
  • [ ] 提取錯誤模式:自動歸類為Z條模式,更新模式庫
  • [ ] 更新SKILL文檔:將新模式寫入對應SKILL的"常見錯誤"章節
  • [ ] 遞歸壓縮:從案例→模式→原則(自動升維)

人類引導:審核Agent總結的模式是否合理,指出過度泛化或遺漏


Agent階段性覆盤(按設定週期)

Agent按設定週期(如每完成30章、或每5輪迭代)自動覆盤:

  • [ ] 生成方法演化史:從v0.1→v1.0,記錄每次調整及原因
  • [ ] 提取跨任務規律:標註/反思/消歧中的共性原則
  • [ ] 構建失敗案例庫:自動記錄錯誤案例,防止重複犯錯

人類引導:設定覆盤觸發條件,審核跨任務規律的通用性


Agent項目結束時(自動生成文檔)

Agent完成全部章標註後,自動生成:

  • [ ] 完整方法論文檔(META技能文檔,如"迭代工作流"、"反思機制")
  • [ ] 核心洞察提煉(1-3條,如"本體是長出來的")
  • [ ] 複用價值評估(統計:自動化率、人工時間節省、可遷移組件數)

人類引導:審核文檔質量,提煉更高層次的元洞察(如本文檔)


人類的三種介入模式

  1. 事前引導
    :設定目標、閾值、檢查清單內容
  2. 事中監督
    :審核Agent總結的模式、抽查異常案例
  3. 事後提煉
    :從多個META技能中提煉元元技能(如本文檔)

核心理念:Agent執行重複性的總結工作,人類負責方向性的洞察提煉。


十、與其他元技能的關係

本文檔的位置

它不是替代別的元技能,而是解釋這些元技能是怎麼長出來的。

真實路徑是:

項目實踐 → 41 個項目 Skill → 14 個 META 技能 → 本文檔。
執行經驗先沉澱成項目 Skill。
多個項目 Skill 再被壓縮成 META 技能。
多個 META 技能 再繼續壓縮成元方法論。

所以本文檔的價值,不在於多發明了一個新概念,而在於解釋了已有方法論的共同生長機制。

核心關係: - 所有元技能都是"總結出來的"(而非預設的) - 每個元技能的形成過程都遵循五層抽象金字塔 - 元元技能是方法論的方法論


十一、後記:本文檔本身的形成過程

元技能也是從技能中總結出來的

這份元元技能文檔是如何"總結出來"的?

它遵循了完整的五層抽象過程,從具體的項目SKILL文檔中逐層提煉:

層1:原始數據(執行層)

史記項目 12 周實踐,包含 32,022 個實體、3,092 個事件、7,652 條關係。
背後還有數千個錯誤案例、數十次工具開發、數百次具體決策。

層2:項目 Skill(任務級總結)

從執行過程中,長出 41 個項目 Skill 文檔。
每個 Skill 記錄:這項任務怎麼做、遇到什麼問題、如何解決。
這是第一次壓縮:執行經驗 → 可複用 Skill。

層3:META 技能(方法論級總結)

再從 41 個 Skill 裏,提煉出 14 個 META 技能。
比如迭代工作流、柳葉刀方法、反思機制。
這是第二次壓縮:項目 Skill → 跨項目方法論。

層4:元元技能(哲學級總結)

再從 14 個 META 技能裏,發現共同結構:它們其實都是總結出來的。
OTF、JIT、Bootstrap 也因此被進一步提煉出來。
這是第三次壓縮:META 技能 → 元方法論。

層5:元哲學(本質認知)

最後收斂成一句話:好東西都是總結出來的。
這句話本身,也是總結出來的。
本文檔本身,就是這套方法論的自證。

關鍵洞察

  • 元技能不是預先設計出來的,而是從大量具體SKILL中歸納出來的
  • 每個META技能都有10-30個SKILL案例支撐
  • 本文檔(元元技能)有14個META技能支撐
  • 這驗證了核心命題:好東西都是總結出來的,包括"總結"這個方法本身

用時: - 實踐:4個月(2025年11月-2026年3月) - 第一次總結:各工序完成後(每週2小時,累計32小時) - 第二次總結:各META技能文檔(每月半天,累計16小時) - 第三次總結:本文檔(2小時)

壓縮比: - 960小時實踐 + 48小時總結 → 本文檔(2小時閲讀) - 壓縮比:500:1

複用價值: - 本文檔可指導所有知識工程項目(不限古籍) - 預估節省:每個新項目至少20%時間(基於方法論複用)


最後一句話

如果你記住本文檔的唯一一句話,那就是標題:好東西都是總結出來的。

然後,去總結你的工作。