AI繪畫是下一個十年的船票

作者:Draco正在VibeCoding
日期:2026年5月31日 上午11:45
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

作者認為AI繪畫係下個十年嘅關鍵,因為人類係多模態生物,而Agent已經夠成熟,瓶頸在於創意同詞彙封裝。

整理版摘要

呢篇文章嘅作者係一個AI Agent嘅重度用家,佢最近發現Agent能力已經好足夠,瓶頸反而係自己嘅創意唔夠。所以佢開始由Agent轉向AI繪畫,認為呢個先係未來嘅方向。

佢回顧咗五月自己build嘅幾個項目,包括一個將書本地名標註喺3D地球儀嘅應用、AI信源集合站、微信讀書個人看板、AI短劇Skill,同埋爆肝咗1112張AI繪圖。佢特別強調AI繪畫嘅難點在於「概念封裝」,即係要用準確詞彙表達腦海入面嘅意象,呢個需要刻意練習。

作者認為人類係多模態生物,圖像嘅信息密度遠高於文字,未來大部分人就業喺服務業甚至娛樂業,學習都應該娛樂化。所以佢建議大家從而家開始積累AI繪畫詞彙,為可視化時代做好準備,呢個就係下一個十年嘅船票。

  • Agent能力已足夠強,瓶頸在於人類創意不足,唔好再折騰工具,要專注用Agent嚟build乜嘢。
  • 作者開發咗Book: Space & Time,將書中地名標註喺3D地球儀,大幅提升歷史閲讀體驗。
  • AI繪畫比文字更能高效傳遞信息,因為人腦處理圖像嘅比特率遠高於文字。
  • AI繪畫嘅難點係「概念封裝」,要用準確詞彙描述意象,需要刻意練習積累詞彙。
  • 建議從而家開始學AI繪畫,為多模態時代攢基本功,呢個係未來十年嘅船票。
值得記低
工具 book-space-time-web.vercel.app

Book: Space & Time

將書中地名標註喺Cesium 3D地球儀上嘅應用,適合歷史書籍閲讀。需DeepSeek API KEY。

連結 hermes.aigc.green

AI信源集合站

基於Horizon開源項目構建嘅AI新聞信息源集合站。

整理重點

告別Agent,回歸創意

作者成日被問點解最近少咗寫Agent,原因好簡單:Agent能力已經足夠強,已經過咗「人等Agent」嗰條金線,而家係Agent等緊你,瓶頸明顯係你自己。

無論係複雜CodingCodex,定係遠程嘴控用Hermes,定係本地知識庫用Obsidian,Agent真係夠用。唔好再折騰五花八門嘅Agent,關鍵係你諗住用Agent嚟build啲乜。

整理重點

五月Build咗嘅項目

呢個月作者爆肝咗幾個項目,最自豪嘅係Book: Space & Time,將書入面嘅地名同事件標註喺Cesium 3D地球儀,睇歷史書嗰時山川河流一目瞭然,真係大殺器。

  • Book: Space & Time - 將書本內容自動化為3D地圖,仲有《從敦煌到撒馬爾罕》等案例。
  • AI信源集合站 - 基於Horizon項目整理AI新聞同Agent資訊。
  • 微信讀書個人看板 - 整合微信讀書進度同豆瓣評分。
  • AI短劇Skill開源 - 用GPT-Image-2 + SeeDance2.0整AI短劇,但成本仍然好高。
  • AI繪畫系列 - 爆肝1112張圖,推出咗人物繪畫手冊同動漫風百科。

其中AI繪畫係作者呢個月嘅重心,佢強調使用GPT-Image-2需要思維模式轉變,要構造Meta-Prompt模板,仲整咗Graphics Academy

整理重點

點解轉向AI繪畫?

其實唔係「轉向」,而係「回到」。作者2023年已經為Stable Diffusion裝備咗3090,一年畫咗幾萬張圖。最近HTML vs Markdown之爭揭露咗一個本質:人終究係多模態生物,睇得圖就唔想淨係睇字。

人腦處理文字嘅比特率太慢,但圖像一眼掃過去就接收咗上億像素。既然圖片生成嘅速度、質量、成本都夠好,點解唔直接用圖片?作者直覺未來社會可能只需要1%甚至0.1%人處理第一、第二產業,其餘都係服務業同泛娛樂業,學習本身都應該娛樂化。

佢舉咗個例:研究AI繪畫關鍵詞時遇到bokeh effects,Agent直接生成圖解,將成個概念拍咗上塊面,呢啲邊係學習定娛樂?總之,能用多模態嘅就唔好用文字,而家視頻成本高,圖片就係最好平衡點。

AI繪畫嘅難點係「概念封裝」。要將腦中意象用準確詞彙表達,否則AI唔明你想畫乜。普通人詞彙貧乏,連風格、構圖、服飾都講唔出。作者爆肝咗關鍵詞百科,經過刻意練習,而家已經可以拆解甚至描述睇到嘅圖片。

整理重點

呢個年代要點樣分配知識?

作者提出一個重要問題:邊啲know-how可以交畀Agent,邊啲必須留喺自己大腦?佢認為最少AI繪畫能力必須自己掌握,因為你唔可以同Agent講「我要一張好靚嘅圖」,搞笑。

所以佢呼籲大家從而家開始下功夫,積累詞彙,咁樣先可以喺下個多模態十年拎到船票。呢篇文本身冇靚排版,但內容絕對值得你一讀再讀。

五月最後一日啦,做個全月總結,都想講下點解最近由Agent相關內容全面轉向AI繪畫。

呢篇文章冇好似平時咁喺飛書度寫好然後用skill自動渲染推送去公眾號草稿箱,而係直接喺公眾號後台寫同發佈,所以冇乜靚排版。


Part1: 
首先,成日睇我公眾號嘅朋友最近成日問點解寫Agent寫少咗。
原因好簡單,我覺得目前嘅大模型同Agent能力都已經夠曬強,已經超過咗嗰條「人等Agent」嘅金線,而家基本上係Agent喺度等我,「我」明顯變咗瓶頸;而家,幾乎冇辦法俾自己揾到一個怪責Agent嘅理由,「太蠢/太傻」呢啲詞已經好難用得著,如果真係要講個「太」,只能問自己:「係咪自己創意太唔夠用?」
複雜Coding嘅話,你就用Codex(CC Switch最新版本甚至可以俾桌面版嘅Codex接入任意第三方模型)!
圖片
如果你鍾意喺飛書/釘釘/等IM工具上遠距離嘴控Agent做嘢,你就用Hermes!
圖片
如果你鍾意積累自己嘅本地知識庫,你就用Obsidian配合任何一個稱手嘅Agent就得。
圖片
我唔建議同學們再繼續過度搞咁多五花八門嘅Agent喇,Agent能力真係已經夠用;而且呢啲Agent都係階段性嘅,出年呢個時候,99%嘅人大概率會用巨頭封裝好嘅同自身平台、生態有更深度融合嘅Agent。(當然,國內巨頭可能會cut第三方Agent一啲關鍵權限嚟達到呢個目的,好似過去二十幾年咁;但呢度唔講對錯只講可能性)關鍵係你要用Agent嚟build啲乜,關鍵從來唔喺工具,而係你使用工具嘅目的/目標。冇一個八級鉗工係因為佢可以將鉗子玩到好似武林高手一樣,而係因為佢能夠解決機械設備嘅疑難雜症。
你嘅問題從來唔係你能否讓Hermes喺一個group入面互相@討論問題,而係就算你做到咗,然後呢? (其實呢個係錯誤嘅multi-agent使用方法,anyways今日唔做過多討論)
Part2:總結一下呢個月自己build咗啲乜
1. 首先,最令我自己興奮嘅係呢個項目 Book: Space & Time (連結係一個demo site)   https://book-space-time-web.vercel.app/showcase
圖片
圖片
圖片
尋晚讀完咗近30萬字嘅《波斯之劍:納迪爾沙與現代伊朗的崛起》,絕對係本神書,講嘅係18世紀初伊朗/波斯出咗咁一位:一生騎行徵戰2萬英里,打遍伊斯蘭世界幾乎冇敵手,征服咗伊朗、阿富汗、印度、中亞,幾乎征服奧斯曼土耳其,差啲消弭咗伊斯蘭什葉派同遜尼派之爭嘅天才戰神納迪爾。
圖片

書真係好書,就係佢呢2萬英里嘅征程橫跨中亞/南亞/西亞幾十個城市,書入面只有一頁黑白版冇海拔線嘅局部地圖,你睇唔到山川河流,睇唔到海拔高度,睇唔到呢個地區周邊毗鄰,真係讀得好辛苦。
圖片

於是就vibe咗咁一個應用:將一本書嘅電子版輸入去,自動將書入面嘅地名同事件標註喺Cesium 3D地球儀上,山川地理海拔高度周邊毗鄰一目瞭然~ 讀歷史書嘅大殺器!
我喺demo站仲放咗《從敦煌到撒馬爾罕》、《康熙的紅票》等幾本優秀歷史著作嘅case,有興趣嘅同學可以去玩下~ 
呢個應用仲喺度優化,目前最大問題係有10%左右嘅false positive,會將同名嘅地名搞錯,等我繼續優化,6月份封裝一個桌面版應用出嚟!(你基本只需要一個DeepSeek嘅API KEY就可以用得起)
圖片
圖片
2. AI信源集合站:https://hermes.aigc.green/horizon-openrouter/index.html
圖片
卡茲克卡神開放咗佢嘅AIHOT,但唔係開源,但其實用開源項目Horizon可以用嚟構建自己嘅AI新聞信息源集合站
另外,仲有之前用Hermes搭建嘅Hermes專項及AIGC信源站:https://hermes.aigc.green/daily/hermes-features/2026-05-31/ Hermes會自動總結Hermes Agent喺過去24小時嘅commit/Release,以及AIGC相關信息~  
圖片
3. 微信讀書個人看板
微信讀書官方Skills發佈之後,我呢個書蟲狂喜之餘,順手將自己嘅讀書看板搭咗喺飛書上,邊啲書讀完咗,進度如何,一目瞭然;Agent仲補返咗微信讀書一直唔俾提供嘅豆瓣評分;
圖片
圖片
圖片
4. AI短劇Skill:AI短劇Skill開源啦!點樣用GPT-Image-2+SeeDance2.0製作AI短劇
架構搭起咗,但坦白講,目前AI短視頻仲係太貴,對於我呢種需要密集產出嘅人嚟講,成本實在太高,我都的確自認仲做唔出Zombie Scanvenger呢種神作,所以就暫時將AI短劇放喺度,底子有咗,保持關注,直到成本再降一個數量級。
5. 呢個月重心喺AI繪畫上:
1112張圖!從「詞不達意」到「言出法隨」!AI人物繪畫手冊完整版正式發佈!
又一期爆肝:AI繪畫動漫風格百科#1
使用GPT-Image-2需要有個思維模式上嘅轉變:構造Meta-Prompt模板
我將各種風格嘅美術作品集合成咗一個圖譜館~Graphics Academy第二期上線!
真係爆肝咗太多圖喇(Codex生圖嘅quota令我燒到冒煙,唔睇係你嘅損失,哈哈哈))。
唔多講了。

Part3:點解轉向AI繪畫
其實唔係「轉向」,而係「回到」。
2023年就為咗Stable Diffusion+ComfyUI 裝備咗當時最新嘅3090顯示卡,一年時間畫咗幾萬張圖。
另外,最近HTML vs MARKDOWN之爭都的確揭露咗一個本質:
人終究係「多模態」生物,見到圖形圖像就唔想淨係睇文字。
雖然文字係人類社會信噪比最佳嘅信息傳遞方式,但人嘅大腦淨係處理文字嘅bitrate實在太低(據講前額葉主動處理文字信息嘅速度只有每秒幾十bit...),圖形圖像就唔同,一眼掃過去,上億像素嘅信息一下就接收埋入去仲可以快速處理好,就算唔係所有細節都get到,但係嗰種透過顏色、形狀帶嚟嘅『roughly so』感受係文字做唔到嘅。
既然係咁,點解一定要係HTML呢?
如果圖片生成嘅速度、質量、成本都夠好,直接生成圖片唔得咩?
另外,我好強烈嘅直覺係:將來人類社會可能只需要1%甚至0.1%負責處理當前第一產業同第二產業嘅事就得,其餘99%或者99.9%嘅人都係第三產業,係服務業,甚至絕大多數都係『泛娛樂業』... 
我甚至認為將來嘅「學習」本質上都應該係「泛娛樂」化嘅!
俾你哋睇下我最近研究AI繪畫關鍵詞時嘅一個case:
圖片
圖片
我遇到咗一個詞彙『bokeh effects』,於是叫Agent用gpt-image-2生成咗一張圖解,呃...呢個效果真係唔錯!唔係一段話嘅解釋,人哋Agent直接將你關於呢個概念需要了解嘅知識一次過拍咗上你塊面!
你話呢個係學習定係娛樂呢?(關鍵係gpt-image-2嘅東方審美都幾好,哈哈哈)
總之,能用多模態方式呈現嘅,就唔好用文字去呈現。如果你從娛樂嘅角度去睇呢件事,就唔會覺得有乜嘢難理解。只不過前文提過,視頻而家成本太高,所以圖片可能係目前最好嘅balance point;而且,視頻都係一秒24幀圖構成嘅嘛(當然,H.264/265算法實現上肯定唔係圖片x24,如果唔係視頻體積會爆,但唔影響你咁理解
但AI繪畫嘅難點在於「概念嘅封裝」。
目前嘅AI繪畫大模型喺人類自然語言同圖像之間搭咗一條快車道,如果你無法用準確嘅詞彙去表達自己腦中嘅意象,你就無法得到你想要嘅圖,就係咁簡單。
但係,我的天,日常生活中,普通人嘅詞彙係幾咁貧乏啊(我都係)!
當你見到一張視覺衝擊力強嘅圖片時,你係講得出佢嘅風格呢,定係講得清佢嘅構圖呢?
當你腦中出現一個人物形象時,你係用得準確嘅詞彙描述佢嘅服飾、髮型、姿態呢,定係概括得清佢周圍嘅環境呢,定係精準約束到鏡頭嘅角度、焦段、景別呢?
你再將以上呢啲要素組合埋一齊,係近乎無窮嘅組合,唔係咩?
我無法接受同面對腦海中存在意象但卻無法將佢帶到現實中嘅深深無力感,所以爆肝咗上文已經列出嘅各種同AI繪畫嘅關鍵詞百科(其實我手仲有幾套,未來逐步放出)。
經過呢將近一個月嘅刻意練習,我似乎已經慢慢能夠喺見到一張圖片時就知道仲可以透過咩樣嘅方式拆解並描述呢張圖,對腦海中嘅意象都係類似。
此外,仲有個問題:
邊啲know-how可以交俾Agent,邊啲必須放喺自己嘅大腦中(都係個大模型)其實係喺Agent時代需要時刻謹慎對待嘅問題。
我認為,最少AI繪畫能力必須要放喺自己大腦中。
你唔可以同Agent講:「我要一張好靚嘅圖!」
搞笑。
我好強烈建議大家由而家開始喺AI繪畫上多啲下功夫,多做啲刻意練習,多積累同封裝啲詞彙,為下個可視化、多模態嘅10年,多儲啲基本功。
呢個就係下一個十年嘅船票。
五月最後一天了,做個全月總結,也想聊聊為什麼最近從Agent相關內容全面轉向了AI繪畫。

這篇文章沒有像往常一樣先在飛書上寫好然後用skill自動渲染並推送到公眾號草稿箱,而是直接在公眾號後台撰寫和發佈,因此沒有什麼好看的排版。


Part1: 
首先,經常看我公眾號的朋友最近會經常問為啥寫Agent寫的少了。
原因很簡單,我認為目前的大模型和Agent能力都已經足夠強了,已經超過了那條“人等Agent”的金線,現在基本上是Agent在等“我”,“我”明顯成了瓶頸;現在,幾乎無法給自己找到一個責怪Agent的理由,“太笨/太傻”這些詞已經很難用得上,如果真要說個“太”,只能問自己:“是不是自己創意太不夠用了?”
複雜Coding的話,你就用Codex(CC Switch最新版本甚至可以讓桌面版的Codex接入任意第三方模型)!
圖片
如果你喜歡在飛書/釘釘/等IM工具上遠程嘴控Agent幹活,你就用Hermes!
圖片
如果你喜歡積累自己的本地知識庫,你就用Obsidian配合任何一個稱手的Agent就行了。
圖片
我不建議同學們再繼續過於折騰各種五花八門的Agent了,Agent能力真的已經夠用了;而且這些Agent也都是階段性的,明年這個時候,99%的人大概率是用巨頭封裝好的和自身平台、生態有更深度融合的Agent(當然,國內巨頭可能會掐斷第三方Agent的一些關鍵權限來達到這個目的,就像過去二十多年那樣;但這裏不論對錯只講可能性)關鍵是你要用Agent來build什麼,關鍵從來不在工具,而在你使用工具的目的/目標。沒有一個八級鉗工是因為他能把鉗子玩的像武林高手一樣,而在於他能解決機械設備的疑難雜症。
你的問題從來就不是你能不能讓Hermes在一個羣裏互相@討論問題,而是即便你能讓他們這麼做了,然後呢? (其實這是個錯誤的multi-agnet使用方法,anyways今天不做過多討論)
Part2:總結一下這個月自己build了點啥
1. 首先,最令我自己興奮的是這個項目 Book: Space & Time (連結中試一個demo site)   https://book-space-time-web.vercel.app/showcase
圖片
圖片
圖片
昨晚讀完了近30萬字的《波斯之劍:納迪爾沙與現代伊朗的崛起》,絕對是本神書,寫的是18世紀初伊朗/波斯出了這麼一位:一生騎行征戰2萬英里,打遍伊斯蘭世界幾無敵手,征服了伊朗、阿富汗、印度、中亞,幾乎征服奧斯曼土耳其,差點消弭了伊斯蘭什葉派和遜尼派之爭的天才戰神納迪爾。
圖片

書真是好書,就是他這2萬英里的征程歷經中亞/南亞/西亞數十座城市,書裏只有一頁黑白版沒有海拔線的局部地圖,你看不到山川河流,看不到海拔高度,看不到這個地區周邊毗鄰,實在是讀的太痛苦了。
圖片

於是就vibe了這麼一個應用:把一本書的電子版輸入進去,自動把書中的地名和事件標註在Cesium 3D地球儀上,山川地理海拔高度周邊毗鄰一目瞭然~ 讀歷史書的大殺器!
我在demo站還放了《從敦煌到撒馬爾罕》、《康熙的紅票》等幾優秀歷史著作的case,有興趣的同學可以去玩一玩~ 
這個應用還在優化,目前最大的問題是有10%左右的false positive,會把同名的地名搞錯,等我繼續優化,6月份封裝一個桌面版應用出來!(你基本只需要一個DeepSeek的API KEY就能用起來了)
圖片
圖片
2. AI信源集合站:https://hermes.aigc.green/horizon-openrouter/index.html
圖片
卡茲克卡神開放了他的AIHOT,但並不是開源,但其實用開源項目Horizon可以用來構建自己的AI新聞信息源集合站
另外,還有之前用Hermes搭建的Hermes專項及AIGC信源站:https://hermes.aigc.green/daily/hermes-features/2026-05-31/ Hermes會自動總結Hermes Agent在過去24小時的commit/Release,以及AIGC相關信息~  
圖片
3. 微信讀書個人看板
微信讀書官方Skills發佈之後,我這個書蟲狂喜之餘,順手把自己的讀書看板搭在了飛書上,哪些書讀完了,進度如何,一目瞭然;Agent還補上了微信讀書一直不給提供的豆瓣評分;
圖片
圖片
圖片
4. AI短劇Skill:AI短劇Skill開源啦!如何用GPT-Image-2+SeeDance2.0製作AI短劇
架子搭起來了,但坦白講,目前AI短視頻還是太貴,對於我這種需要密集產出的,成本實在太高,我也的確自認還做不出Zombie Scanvenger這種神作,所以就先把AI短劇放在那裏,底子有了,保持關注,直到成本再降一個數量級。
5. 這個月重心在AI繪畫上:
1112張圖!從“詞不達意”到“言出法隨”!AI人物繪畫手冊完整版正式發佈!
又一期爆肝:AI繪畫動漫風格百科#1
使用GPT-Image-2需要有個思維模式上的變化:構造Meta-Prompt模板
我把各種風格的美術作品集合成了一個圖譜館~Graphics Academy第二期上線!
真的爆肝了太多圖了(Codex生圖的quota讓我燒冒煙了,不看是你的損失,哈哈哈)。
不贅述了。

Part3:為什麼轉向AI繪畫
其實並不是“轉向”,而是“回到”。
2023年就為了Stable Diffusion+ComfyUI 裝備了當時最先進的3090顯卡,一年時間畫了幾萬張圖。
另外,最近HTML vs MARKDOWN之爭也的確揭露了一個本質:
人終究是“多模態”生物,能看到圖形圖像的就不想只看文字。
雖然文字是人類社會信噪比最佳的信息傳遞方式,但人的大腦只處理文字的比特率實在是太低了(據說前額葉主動處理文字信息的速度只有每秒幾十比特...),圖形圖像就不一樣了,一眼掃過去,上億像素的信息一下就接受進去並且可以快速處理好,即便不是所有細節都get了,但那種通過顏色、形狀所帶來的‘roughly so’的感受是文字無法實現的。
既然如此,為什麼一定是HTML呢?
如果圖片生成的速度、質量、成本都足夠好了,直接生成圖片不就好了麼?
另外,我強烈的直覺是:未來人類社會可能只需要1%甚至0.1%負責處理當前第一產業和第二產業的事就好了,剩下99%或者99.9%的人都是第三產業,是服務業,甚至絕大多數都是‘泛娛樂業’... 
我甚至認為在未來的“學習”在本質上都應該是“泛娛樂”化的!
給你們看一個我最近在研究AI繪畫關鍵詞時的case:
圖片
圖片
我遇到了一個詞彙‘bokeh effects’,於是讓Agent用gpt-image-2生成了一張圖解,呃...這個效果不要太好啊!不是一段話的解釋,人家Agent直接把你關於這個概念需要了解的知識一次性拍到臉上了!
你說這是學習還是娛樂呢?(關鍵是gpt-image-2的東方審美還不錯,哈哈哈)
總之,能用多模態方式呈現的,就不要用文字去呈現。如果你從娛樂的角度去看這個事,就不會覺得有什麼難以理解的。只不過前文提過,視頻現在成本太高了,所以圖片可能是目前最好的balance point;並且,視頻也是一秒24幀圖構成的嘛(當然,H.264/265算法實現上肯定不是圖片x24,要不視頻體積就炸了,但不影響你這麼理解
但AI繪畫的難點是在於“概念的封裝”。
目前的AI繪畫大模型在人類自然語言和圖像之間搭建了一條快車道,如果你無法用準確的詞彙去表達自己腦中的意象,你就無法得到你希望得到的圖,就這麼簡單。
但是,我的天,日常生活中,普通人的詞彙是如何貧乏啊(我也是)!
當你看到一張視覺衝擊力強的圖片時,你是能說得出它的風格呢,還是能講地清楚它的構圖呢?
當你腦中出現一個人物形象時,你是能用準確的詞彙描述ta的服飾、髮型、姿態呢,還是能用概括清楚ta周圍的環境呢,還是能精準約束鏡頭的角度、焦段、景別呢?
你再把以上的這些要素組合在一起,那是近乎無窮的組合,不是麼?
我無法接受和麪對腦海中存在意象但卻無法把ta帶到現實中的深深的無力感,因此爆肝了上文已經列出的各種和AI繪畫的關鍵詞百科(其實我手裏還有幾套,未來逐步釋出)。
經過這將近一個月的刻意練習,我似乎已經漸漸能夠在看到一張圖片時就知道還通過什麼樣的方式拆解並描述這張圖了,對腦海中的意象也是類似的。
此外,還有個問題:
哪些know-how可以交付給Agent,哪些必須放在自己的大腦中(也是個大模型)其實是個在Agent時代需要時刻謹慎對待的問題。
我認為,最少AI繪畫能力必須是要放在自己大腦中的。
你不能跟Agent說:“我要一張好看的圖!”
搞笑。
我強烈建議大家從現在開始在AI繪畫上多下點功夫,多做做刻意練習,多積累和封裝點詞彙,為下個可視化、多模態的10年,多攢點基本功。
這就是下一個十年的船票。