用AI將圖片生成大模型做成垂直領域產品：我是怎麼搭起AI數據飛輪的？

作者：彭俊旗的AI工具箱

日期：2026年5月2日上午1:17

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

將每次生成變成學習機會：搭建數據飛輪先於追求一次性神作

整理版摘要

作者係做生圖應用嘅開發者，燒咗近20億Token之後先發現自己跌入咗典型嘅Builder誤區——拼命調Prompt、換模型、搞多Agent協作，以為提示詞寫得夠細就能穩定出神作。結果質量靠運氣，復現靠玄學。

佢停低複盤之後，得到一個殘酷真相：AI本質係概率。如果將每次生成當終點，佢就係隨機數生成器；如果當起點，佢先係學習機。數據飛輪唔係功能，而係將「交互」變成「資產」嘅底層機制。每次生成都係一次假設驗證，每次反饋都係一次模型校準。呢個認知改變咗成個架構設計思路，由追求「一錘子買賣」轉為死磕點樣令數據自己轉起來。

具體方法包括：反饋要拆成兩層（先整體感受再歸因到具體維度），全鏈路快照確保每一步都得追溯，雙Pipeline策略（Sniper求穩、Discovery求野）喺確定與混沌之間揾平衡，同埋由Hermes Agent自動分析數據調整權重。最終建立L1生成期評分、L2用戶行為、L3實際銷量三級數據信號，將數據飛輪變成銷量飛輪，技術邏輯同商業邏輯咬合。作者體會係，AI項目嘅護城河唔係Prompt寫得幾花，而係能否將用戶每次交互都變成有結構嘅數據表。

核心係將每次生成視為假設驗證，每次反饋視為模型校準，而唔係追求一次好結果。
將反饋拆成兩層——先定整體感受，再歸因到具體維度（視覺結構/創意效果等），令系統得到可操作信號。
比起黑盒系統，全鏈路快照（Pipeline每一步留痕，JSONB落庫）先可以秒級定位問題，令每一次「翻車」變成系統疫苗。
雙Pipeline策略（Sniper求穩 vs Discovery求野）喺確定與混沌之間動態平衡，避免飛輪內卷或失控。
建立三級數據信號（L1生成期評分、L2用戶行為、L3實際銷量），將數據飛輪變為銷量飛輪，讓技術最終對齊商業。

整理重點

由調Prompt到系統思維

作者最初做生圖應用時，陷入典型嘅Builder誤區：拼命調Prompt、換模型、搞多Agent協作，以為提示詞夠細就能穩定出神作。結果質量靠運氣，復現靠玄學。

Builder誤區

佢停低複盤後發現殘酷真相：AI本質係概率。如果將每次生成當終點，佢就係隨機數生成器；如果當起點，佢先係學習機。

隨機數生成器 vs 學習機

整理重點

反饋歸因與全鏈路快照

作者指出，簡單嘅「贊/踩」反饋冇用，因為AI唔知「踩」喺邊。所以佢將反饋拆成兩層：先定整體感受，再歸因到具體維度（視覺結構、創意效果、主題一致等）。

歸因反饋

100條「整體踩 + 視覺結構差」嘅數據，比100條單純嘅「踩」值錢一百倍，因為前者直接告訴Pipeline下次要避開邊條路徑。

另外，為咗避免黑盒，佢強制要求Pipeline每一步留痕——LLM推演嘅受眾心理、配方白名單約束、constraint_trace全部JSONB落庫。咁樣出錯時可以秒級定位係配方、結構定模型幻覺問題。

全鏈路快照

黑盒系統永遠長唔大

整理重點

雙Pipeline：穩盤與拓荒

作者設計咗兩套生成邏輯：Sniper（狙擊模式）負責用戶明確需求，經LLM推演心理、匹配歷史高分結構，求準求穩；Discovery（探索模式）則用隨機種子逆向推演適合咩人，故意撞反常規組合，求野求破圈。

Sniper

Discovery

兩者數據同源但策略互補。底層邏輯係：冇探索，飛輪會內捲到死；冇狙擊，飛輪會失控到散。雙Pipeline嘅本質係喺確定與混沌之間揾動態平衡。

整理重點

數據飛輪嘅商業閉環

作者唔指望用戶成日畀反饋，所以令Hermes Agent每週跑一次批量評估：將100條人類評分丟入去，AI自動交叉比對，找出高分冷門結構、必死組合衝突、持續低效配方，然後自動調整Pipeline權重。

Hermes Agent

另外，數據信號分三級：L1生成期評分（主觀但快，即時調優），L2用戶行為（點擊、收藏、停留，客觀驗證市場偏好），L3實際銷量/復購（終極權威，決定商業權重）。

L1生成期評分：主觀但快，即時反饋，用嚟調優Prompt同結構。
L2用戶行為：點擊、收藏、停留，客觀真實，中期驗證市場偏好。
L3實際銷量/復購：終極權威，長期反饋，用嚟決定商業權重。

當L3數據回灌，AI就變成懂市場規律嘅操盤手，權重根據真實成交自動傾斜：高分但不賣貨嘅結構降權，冷門但爆單嘅配方加權。數據飛輪真係轉成銷量飛輪。

銷量飛輪

最近整緊個生圖應用，燒咗差唔多 20 億 Token。

開頭我都中咗一個典型嘅 Builder 誤區：死命改 Prompt，換模型，搞多 Agent 協作。以為只要提示詞寫得夠仔細、結構夠複雜，就可以穩定出神作。

結果呢？質素全靠運氣，復現全靠玄學。

直到我停低複盤，先發現一個好殘酷嘅真相：

核心認知

我哋太執着於「點樣生成一次好結果」，但完全唔記得「系統點樣從呢次結果裏面變聰明」。

AI 嘅本質係概率。你將每一次生成當成終點，咁佢就係一個隨機數生成器。你當佢係起點，佢先係學習機。

飛輪唔係功能，而係將「交互」變成「資產」嘅底層機制。

如果用戶睇完卡片，㩒個讚或者划走，數據就斷咗，咁呢個系統就係一個漏水嘅桶。

真正嘅邏輯應該係：每一次生成都係一次假設驗證。每一次反饋，都係一次模型校準。

諗通咗呢點之後，成個架構嘅設計思路就完全變曬。

我唔再追求「一錘子買賣」，而係死磕點樣令數據自己轉起嚟。

反饋唔係「打分」，而係「歸因」

好多人做 AI 產品嘅反饋，就整個簡單嘅「讚/踩」。

講真，冇用。因為 AI 唔知「踩」喺邊度。係畫面太暗？構圖亂？定係同主題唔夾？

所以我將反饋拆成兩層：

先定整體感受，再歸因到具體維度（視覺結構 / 創意效果 / 主題一致等）。

100 條「整體踩 + 視覺結構差」嘅數據，比 100 條單純嘅「踩」值錢一百倍。因為前者可以直接話畀 Pipeline 聽下次應該避開咩路徑。

關鍵判斷

冇歸因嘅反饋，只係情緒垃圾。系統需要嘅係可操作嘅信號，而唔係用戶嘅嘆氣。

拒絕黑盒：點解我死磕「全鏈路快照」

好多 AI 系統生成完就唔記得過程。圖出咗，Prompt 冇咗，中間 AI 偷換咗邊個元素、路由行咗邊條分支，全部變曬黑盒。

喺工程上，我強制要求：Pipeline 嘅每一步必須留低痕跡。

LLM 推演嘅受眾心理、配方嘅白名單約束、甚至 constraint_trace（約束追蹤日誌），全部 JSONB 化落庫。

呢個唔係技術潔癖，而係生存底線。

喺 Generation Detail 裏面，任何一張卡嘅生成邏輯都可以完整追溯。出咗錯，可以秒級定位係配方問題、結構問題，定係模型幻覺。

黑盒系統，永遠大唔大。
只有透明化，先可以令每一次「翻車」變成系統嘅疫苗。

點解要設兩條 Pipeline？穩盤與拓荒嘅博弈

飛輪唔可以得一條腿行路。業務要穩，但創新要野。

所以我做咗兩套生成邏輯：

Sniper（狙擊模式）：

用戶輸入明確需求 → LLM 推演心理 → 匹配歷史高分結構 → 生成。求準，求穩，負責守住基本盤同轉化率。

Discovery（探索模式）：

畀隨機種子 → 逆向推演適合咩人 → 故意去撞「反常規」嘅組合 → 生成。求野，求破圈，負責拓荒。

兩者數據同源，但策略互補。

底層邏輯

冇探索，飛輪會內捲到死；冇狙擊，飛輪會失控到散。AI 嘅創造力需要邊界，但邊界唔可以係死嘅。雙 Pipeline 嘅本質，就係令系統喺「確定」同「混沌」之間揾動態平衡。

等 AI 做分析師，而唔係畫師

我唔指望用戶日日畀反饋。人性係懶嘅。

所以等 Hermes Agent 每星期跑一次批量評估。將 100 條人類評分掉入去，AI 自動交叉比對，揾出「高分冷門結構」、「必死組合衝突」、「持續低效嘅配方」，然後自動調整 Pipeline 權重。

人類評分係火種，AI 分析係鼓風機。
資訊密度被放大咗幾倍，系統迭代嘅速度先跟得上業務需求。

數據嘅終點唔係技術，係生意賬

好多人覺得數據飛輪係技術團隊嘅事。

錯咗。飛輪嘅終點，一定係商業決策。

MagicCard 嘅數據信號，我分咗三級：

L1 生成期評分：

主觀但快，即時反饋，用嚟調優 Prompt 同結構。

L2 用戶行為：

點擊、收藏、停留。客觀真實，中期驗證，用嚟驗證市場偏好。

L3 實際銷量/復購：

終極權威，長期反饋，用嚟決定商業權重。

當 L3 嘅數據回灌返嚟，AI 就唔再係一個畫師喇。佢變咗一個識市場規律嘅操盤手。

權重會根據真實成交自動傾斜：高分但賣唔到嘅結構會被降權，冷門但爆單嘅配方會被加權。

終局思考

到咗呢個時候，數據飛輪先真正轉成「銷量飛輪」。技術邏輯，終於同商業邏輯咬合埋一齊。

寫喺最後

做完呢套系統，我最大嘅體感係：

AI 項目嘅護城河，從來唔係 Prompt 寫得有幾花巧，亦唔係接咗幾多個 API。

而係你可唔可以將「用戶嘅每一次交互、每一次猶豫、每一次划走」，都變成數據庫裏面一張有結構嘅表。

唔好再做一次性生成嘅 AI 玩具喇。
將採集、反饋、追溯、優化嘅齒輪咬合起嚟。
等數據自己行起嚟。
淨低嘅，交畀時間。

Resona · 鳴 · 令每一次對話，都有迴響

2026-05-02 · 彭俊旗

最近做一款生圖應用，燒了近 20 億 Token。

一開始我也陷入一個典型的 Builder 誤區：拼命調 Prompt，換模型，搞多 Agent 協作。以為只要提示詞寫得夠細、結構夠複雜，就能穩定出神作。

結果呢？質量全靠運氣，復現全靠玄學。

直到我停下來複盤，發現了一個很殘酷的真相：

核心認知

我們太執着於"怎麼生成一次好結果"，卻完全忘了"系統怎麼從這次結果裏變聰明"。

AI 的本質是概率。你把每一次生成當成終點，那它就是個隨機數生成器。你把它當成起點，它才是學習機。

飛輪不是功能，是把"交互"變成"資產"的底層機制。

如果用戶看完卡片，點個贊或划走，數據就斷了，那這個系統就是個漏水的桶。

真正的邏輯應該是：每次生成都是一次假設驗證。每次反饋，都是一次模型校準。

想通這一點後，整個架構的設計思路就全變了。

我不再追求"一錘子買賣"，而是死磕怎麼讓數據自己轉起來。

反饋不是"打分"，是"歸因"

很多人做 AI 產品的反饋，就搞個簡單的"贊/踩"。

說實話，這沒用。因為 AI 不知道"踩"在哪。是畫面太暗？構圖亂？還是跟主題不搭？

所以我把反饋拆成了兩層：

先定整體感受，再歸因到具體維度（視覺結構 / 創意效果 / 主題一致等）。

100 條"整體踩 + 視覺結構差"的數據，比 100 條單純的"踩"值錢一百倍。因為前者能直接告訴 Pipeline 下次該避開什麼路徑。

關鍵判斷

沒有歸因的反饋，只是情緒垃圾。系統需要的是可操作的信號，而不是用戶的嘆氣。

拒絕黑盒：為什麼我死磕"全鏈路快照"

很多 AI 系統生成就忘了過程。圖出來了，Prompt 丟了，中間 AI 偷換了哪個元素、路由走了哪條分支，全成了黑盒。

在工程上，我強制要求：Pipeline 的每一步必須留下痕跡。

LLM 推演的受眾心理、配方的白名單約束、甚至 constraint_trace（約束追蹤日誌），全部 JSONB 化落庫。

這不是技術潔癖，是生存底線。

在 Generation Detail 裏，任何一張卡的生成邏輯都能完整追溯。出了錯，能秒級定位是配方問題、結構問題，還是模型幻覺。

黑盒系統，永遠長不大。
只有透明化，才能讓每一次"翻車"變成系統的疫苗。

為什麼要設兩條 Pipeline？穩盤與拓荒的博弈

飛輪不能只靠一條腿走路。業務要穩，但創新要野。

所以我做了兩套生成邏輯：

Sniper（狙擊模式）：

用戶輸入明確需求 → LLM 推演心理 → 匹配歷史高分結構 → 生成。求準，求穩，負責守住基本盤和轉化率。

Discovery（探索模式）：

給隨機種子 → 逆向推演適合什麼人 → 故意去撞"反常規"的組合 → 生成。求野，求破圈，負責拓荒。

兩者數據同源，但策略互補。

底層邏輯

沒有探索，飛輪會內捲到死；沒有狙擊，飛輪會失控到散。AI 的創造力需要邊界，但邊界不能是死的。雙 Pipeline 的本質，就是讓系統在"確定"和"混沌"之間找動態平衡。

讓 AI 當分析師，而不是畫師

我不指望用戶天天給反饋。人性是懶惰的。

所以讓 Hermes Agent 每週跑一次批量評估。把 100 條人類評分丟進去，AI 自動交叉比對，找出"高分冷門結構"、"必死組合衝突"、"持續低效的配方"，然後自動調整 Pipeline 權重。

人類評分是火種，AI 分析是鼓風機。
信息密度被放大了數倍，系統迭代的速度才跟得上業務需求。

數據的終點不是技術，是生意賬

很多人覺得數據飛輪是技術團隊的事。

錯了。飛輪的終點，必須是商業決策。

MagicCard 的數據信號，我分了三級：

L1 生成期評分：

主觀但快，即時反饋，用來調優 Prompt 和結構。

L2 用戶行為：

點擊、收藏、停留。客觀真實，中期驗證，用來驗證市場偏好。

L3 實際銷量/復購：

終極權威，長期反饋，用來決定商業權重。

當 L3 的數據回灌進來，AI 就不再是個畫師了。它變成了懂市場規律的操盤手。

權重會根據真實成交自動傾斜：高分但不賣貨的結構會被降權，冷門但爆單的配方會被加權。

終局思考

這時候，數據飛輪才真正轉成了"銷量飛輪"。技術邏輯，終於和商業邏輯咬合在了一起。

寫在最後

做完這套系統，我最大的體感是：

AI 項目的護城河，從來不是 Prompt 寫得有多花，也不是接了多少個 API。

而是你能不能把"用戶的每一次交互、每一次猶豫、每一次划走"，都變成數據庫裏一張有結構的表。

別再做一次性生成的AI玩具了。
把採集、反饋、追溯、優化的齒輪咬合起來。
讓數據自己跑起來。
剩下的，交給時間。

Resona · 鳴 · 讓每一次對話，都有迴響

2026-05-02 · 彭俊旗