從零搭了個AI全文配圖工具後,分享這套快又好的模型調用方案。
整理版優先睇
從零搭AI配圖工具,分享火山方舟Coding Plan呢個順心模型調用方案
呢篇文章係阿真分享佢Vibe Coding一個AI全文配圖工具嘅經驗。佢見到B站有個科普賬號用AI圖片轉視頻,畫面統一,就想整一個工具,扔篇文章入去就自動生成配圖,仲要人物一致。佢本身成日做視頻同寫公眾號,最煩就係配圖,所以話做就做,用Trea等工具搭咗個丐版出嚟。
開發過程好折騰,同模型來回對話消耗好多Token,改個bug又用幾分鐘,錢包好快被掏空。佢試過幾個平台散住用,管理API Key好亂,仲成日卡頓。後來睇羣友用火山方舟Coding Plan,佢都盤咗個套餐,40蚊一個月有18000次請求,接埋OpenClaw、Trea等工具,方便好多。佢詳細講咗工具嘅功能:全文配圖、分段配圖、手動選段,仲有風格參考同主體一致性功能,一路開發一路改進,翻車好多次。
整體嚟講,呢個工具做到1.0版本,可以生成圖片,但仲有好多bug,開源放咗GitHub。佢覺得Coding Plan令工作流順咗,唔使再操心模型調用,仲可以輪住試幾個模型揀最好結果。佢推薦GLM-4.7、DeepSeek V3.2、Kimi-K2.5、Doubao-seed-2.0-code呢啲模型,各有特色。如果大家成日Vibe Coding,可以考慮試下呢個聚合套餐。
- Vibe Coding開發AI配圖工具,模型調用成本高,用火山方舟Coding Plan後工作流穩定好多,唔使再煩管理API Key同卡頓。
- 工具功能包括全文配圖、分段配圖、手動選段,支援上傳參考風格圖同主體圖片,做到風格統一同人物一致性。
- 單一訂閲管理多模型,比起零散平台節省時間同精力,40蚊一個月18000次請求,中高頻使用啱啱好。
- 開發重點:風格參考只分析色調光影,避免同人物描述衝突;主體參考要智能分配,空鏡唔塞人。
- 推薦試用火山方舟Coding Plan,可以接入OpenClaw、Trea等工具,輪住用GLM-4.7、DeepSeek V3.2等模型揀最好結果。
AI全文配圖工具
開源工具,可上傳文章自動生成配圖,支援參考風格同主體人物一致性,目前只能生成圖片未支援視頻。
火山方舟Coding Plan
多模型聚合訂閲套餐,40元/月18000次請求,支援GLM-4.7、DeepSeek V3.2、Kimi-K2.5、Doubao-seed-2.0-code等模型。
Trea快速配置火山方舟
直接打開配置頁面,選擇火山引擎Plan,多次添加模型即可隨心調用。
點解要整呢個配圖工具?
阿真喺B站見到一個科普賬號,所有素材都係AI圖片轉視頻,口播同畫面好契合,配圖色調質感統一。佢諗:如果可以扔篇文檔入去,工具自動生成符合文字嘅圖片,仲做到人物一致性,咁就正啦。
平時做視頻寫公眾號,最頭痛就係配圖:手動拆段、做提示詞、挨個生成、重複修改抽卡,一次就冇咗半日。
於是佢用Vibe Coding開搞,喺Trea裏面搭咗個丐版工具。嘅然OpenClaw同都有幫手,但唔使好耐就發現模型調用消耗好大。
開發過程同遇過嘅問題
最初佢只係模糊概念,隨意嘗試。但寫緊寫緊,發現Token消耗比想像中大好多:寫個功能同模型來回講好幾輪,改個bug又幾分鐘,改完邏輯改樣式,改完樣式交互又有問題。
- 1 之前散住用幾個平台,每個單獨充值管理API Key,成日搞混。
- 2 高頻調用時遇到卡頓限速,正寫code突然轉圈,打斷思路。
- 3 後來用咗火山方舟Coding Plan,一個訂閲搞定多個模型,直接接入OpenClaw、Trea等工具。
工具功能逐個數
佢設計咗三種配圖模式:全文配圖、分段配圖同手動選段。手動選段係佢自想要,有時一篇文章得幾句需要畫面感。
風格參考功能:上傳一張圖讓AI反推風格提示詞,但一開始AI乜都分析包括人物,後尾改為只分析色調、光影、質感,避免同提示詞打架。
參考主體功能好實用:上傳角色圖,後續配圖參考主體保持一致;仲有個智能分配主體,AI自動判斷邊啲場景需要出現人物,空鏡唔會強行塞人。
- 智能分段:AI分析文章結構建議分段數量。
- 智能信息圖:逐段判斷要唔要數據可視化樣式。
- API Key按平台自動保存,切模型時Key自動跟住走。
- 批量下載打包ZIP一鍵導出。
整體翻車無數次:圖片太細API報錯、跨域下載冇反應、選咗冇Key嘅模型直接死機——但每次實際用先發現問題,跟住馬上修,呢啲就係Vibe Coding最有意思嘅地方。
點樣用火山方舟Coding Plan慳水慳力
佢訂閲咗40蚊嗰個套餐,每月18000次請求,中高頻使用好夠。配置好簡單:開通套餐→攞API Key→喺Coding工具填上就得。
喺Trea配置時,服務商揀【火山引擎Plan】,然後多次添加模型每次選一個,之後就可以隨心調用。
用落之後,工作流順咗好多,唔使再擔心模型從邊度調、額度夠唔夠、會唔會卡住。佢仲習慣咗將幾個模型各跑一次同一任務,揀最好結果。
總結:Vibe Coding友可以試下
呢個工具仲有好bug,但佢開源擺GitHub,有需要可以自行改進。如果大家成日Vibe Coding,或者覺得零散用模型愈嚟愈唔順手,不妨試試呢個聚合套餐。
模型使用從一個需要反覆折騰嘅環節,變成工作流入面好穩定嘅一環。
期待大家喺評論區交流,畀個like同花花就最好啦~
分享有趣 · 一齊進步
嗨大家好!我係阿真!
最近喺度 Vibe Coding 一個小工具。
用嘅模型套裝連結👇
https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol
事緣我喺B站見到一個科普帳號,佢啲片入面所有素材都係 AI 圖片轉影片,口播同畫面好夾,而且所有配圖嘅色調同質感都好統一。
當時我諗,有冇方法可以直接掟一篇文檔或者文案內容入去,工具就會針對文章或者劇本裏面每一句都生成符合文字描述嘅圖片,仲可以做到部分場景嘅人物一致性呢?
平時做影片同寫公眾號,最頭痛就係配圖呢樣嘢。手動拆段、寫提示詞、逐個生成、重複改提示詞同抽卡,一次落嚟半日就冇咗。所以話做就做,我就 Vibe Coding 整咗一個丐版嘅全文配圖工具👇

佢嘅功能就係,掟一篇文章或者影片劇本入去,佢就會精確到每 1-2 句生成一組圖片場景提示詞。亦可以直接上載文檔畀佢智能拆分文段、指定配圖數量,甚至只揀文章中嘅某幾句單獨配圖。畀佢 API 同參考風格圖(可選),就可以自動輸出提示詞,生成風格統一、人物一致嘅圖片。
個項目係喺 Trea 裏面搭嘅,最開始嘅時候 OpenClaw 同都有發揮作用。之前都試過好幾間嘅大模型 API,原本得一個模糊嘅諗法,諗到就做,隨意嘗試。不過做嚇做嚇,覺得銀包就嚟被掏空,模型調用嘅消耗比我想像中大好多。
詞元消耗
寫一個功能同模型來回懟好幾輪,改個 bug 又係幾分鐘,改完邏輯又要改樣式,改完樣式發現交互有問題再改……有幾個功能改咗好幾版先至做啱(例如參考主體,第一版完全冇效果,因為根本冇將圖片傳畀模型 🤣),都幾頭痛,由開始嘅輕聲細語到後面輸出靠嗌,腎上腺素都上咗嚟。
而且 Coding 除咗寫程式碼,中間仲穿插咗大量嘅理解需求、分析文檔、優化提示詞、做深度搜索調研嘅工作,每一步都消耗緊詞元(Token)。一日高強度開發落嚟,API 用量真係幾大。
呢個只係一個項目,平時我仲成日整啲小工具、小腳本,例如之前做嘅影片分鏡工具、批量內容處理、調研相關嘅工具之類,幾個項目同時推進嘅時候,消耗疊加起嚟就更明顯。
之前嘅模式係各個平台散開嚟用,每個平台單獨充值、單獨管理 API Key,成日搞亂。高頻調用嘅時候仲成日遇到卡頓同限速,正寫緊程式碼寫到一半,模型響應突然開始轉圈,好打斷思路。
睇羣友用嘅火山方舟 Coding Plan,我都攞咗個套裝,簡單講就係一個多模型聚合嘅訂閲套裝,靠譜大廠,字節嘅火山引擎,將 GLM-4.7、DeepSeek V3.2、Kimi-K2.5、Doubao-seed-2.0-code 打包埋一齊,一個訂閲搞掂,唔使周圍充值管理。可以直接接入 OpenClaw、Trea、Claude Code、Cursor 呢啲工具度,我就訂咗 40 蚊嗰個,每月 18000 次請求額度,中高頻使用都幾好。

配置都好簡單:開通套裝 → 攞 API Key → 喺 Coding 工具度填返就得。OpenClaw 詳細嘅配置流程可以參考呢篇👇
喺 OpenClaw,火山方舟模型服務幫助開發者盡享模型自由
Trea 嘅配置更簡單,打開下面呢個頁面:https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&advancedActiveKey=subscribe
點擊【快速配置】👇

點擊上面嘅【選擇編程工具】就可以揾到唔同工具嘅配置文檔,好詳細👇


加模型嘅時候服務商揀【火山引擎Plan】,然後多次加模型每次揀一個模型,之後就可以隨心調用👇


過程細節
呢個全文配圖工具做得比我預想嘅仔細少少,講幾個我做嘅過程中嘅有趣嘢。
首先係 API 設置。因為係自己用,所以直接將佢放咗喺第一步,好粗暴,接好之後直接用。最早只接咗一兩個模型,後來諗既然做就做曬,叫 AI 寫咗個通用嘅路由函數,根據 model ID 前綴自動匹配對應嘅 API,最後支援咗 7 個平台、20 幾個模型。預設用嘅係火山引擎嘅模型,點擊標題旁邊嘅小圖標【推薦模型】就可以直接跳轉到 API 設置界面👇


第二步係輸入文章內容。呢度可以貼文案亦可以直接上載文檔。配圖模式做咗三種:全文配圖(畀曬嘅內容全部識別拆分配圖)、分段配圖(AI 根據內容智能判斷分幾段或者自己指定字段數)、手動選段(劃詞揀中某幾句單獨配圖)。呢個手動選段係我自己想要嘅,有時可能一篇文章入面得某幾句特別需要畫面感,揀中就得👇


第三步風格配置。可以預設比例、視覺風格、色彩基調、圖片模型同解像度。比較有趣嘅係風格參考功能,上載一張參考圖叫 AI 反推風格提示詞。
呢個功能我調整咗好幾版,一開始叫 AI 乜都分析,包括構圖、人物、場景等等。後來發現唔啱,風格參考應該只起到「濾鏡」嘅作用,只分析色調、光影、質感呢啲,唔可以描述畫面內容。因為如果風格參考入面出現人物描述,同提示詞裏面嘅人物會打架,影響出圖質量。改成嚴格只分析畫風、色温、光源、顆粒感、氛圍情緒之後,效果好咗好多。

反推出嚟嘅風格提示詞仲可以保存成預設,下次直接調用,唔使每次重新上載👇

最後係生成結果頁。呢度我覺得參考主體嘅功能都幾實用,上載一張角色圖片,之後配圖就可以參考呢個主體保持一致性。仲有個【智能分配主體】,AI 會自動判斷邊啲場景需要出現呢個人,純空鏡或者景物描寫就唔會強行塞人入去👇

下面係唔參考同參考主體嘅效果對比(模型用嘅 Seedream 4.5)。
呢個係唔參考主體嘅效果👇
滑動或者點擊睇完整內容
參考主體嘅效果👇
滑動或者點擊睇完整內容
仲有一堆零碎嘅功能,智能分段叫 AI 分析文章結構建議分幾多段;智能信息圖會逐段判斷使唔使做成數據可視化嘅樣式;API Key 按平台自動保存,轉模型嘅時候 Key 自動跟住走;批量下載打包成 ZIP 一鍵導出。每一個小功能背後都係好幾輪對話迭代出嚟嘅。
成個過程中撻Q咗無數次:圖片尺寸太細 API 報錯、跨域下載冇反應、揀咗冇 Key 嘅模型直接炸……但每次係實際用嗰陣先發現問題,然後即刻修。呢種做嚇做嚇突然有靈感嘅迭代節奏,正正係 Vibe Coding 最有趣嘅地方。
呢個工具目前算係啱啱做到 1.0 版本,可以生成圖片,但未有選擇可以生成影片,主要都係用嚟配圖。Bug 都比較多,仲一邊做一邊修。不過一直都係開源嘅,有需要幫影片或者文章配圖嘅朋友可以試嚇自己優化,GitHub連結:
https://github.com/irenerachel/ai-article-illustrator
如果唔方便訪問,都可以喺後台發送關鍵詞【AI配圖】就可以得到壓縮包。
小結
用咗火山方舟嘅 CodingPlan 一段時間,整體感覺係工作流程順咗唔少。唔使再操心模型從邊度調、額度夠唔夠、會唔會突然卡住呢啲嘢。模型使用由一個需要反覆折騰嘅環節,變成工作流程裏面比較穩定嘅一環。
而且因為切換成本低,有啲特定場景我會習慣性咁叫幾個模型各自跑一次同一個任務,揀最好嘅結果。
國產大模型而家真係各有千秋,用落都會發現一啲規律:GLM-4.7 邏輯能力強,寫複雜業務程式碼嘅時候思路清晰;DeepSeek V3.2 程式碼生成能力唔錯,寫功能又快又穩;Kimi-K2.5 長文本處理好叻,理解大段需求文檔同長程式碼檔案嘅時候特別好用;Doubao-seed-2.0-code 響應快,高頻迭代嘅時候體驗好順滑。
如果你哋都成日 Vibe Coding,或者覺得散亂咁用模型越來越唔順手,可以考慮試嚇呢個聚合套裝。
👉 火山方舟 Coding Plan 活動連結:
https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol
好喇,今日嘅分享到呢度先,如果你哋都用緊 Vibe Coding 自己嘅項目,或者對呢個工具有咩諗法,歡迎喺評論區一齊交流討論。如果內容對大家有用嘅話,歡迎喺下面 👍🏻 同 🌸 鼓勵,期待你嘅猛烈三連,呢啲對阿真真係好重要~
下期見~
點擊下面【閲讀原文】可以直接去連結。
分享有趣 · 一起精進
嗨大家好!我是阿真!
最近在 Vibe Coding 一個小工具。
使用的模型套餐連結👇
https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol
起因是我在B站看到一個科普賬號,對方視頻裏所有的素材都是 AI 圖片轉視頻的,口播和畫面很契合,而且所有配圖的色調和質感都很統一。
當時我就在想,有沒有辦法直接扔進去一篇文檔或者文案內容,工具就能針對文章或腳本里每一句話都生成符合文字描述的圖片,還能做到部分場景的人物一致性呢?
平時做視頻和寫公眾號,最頭疼的就是配圖這件事。手動拆段、做提示詞、挨個生成、重複修改提示詞和抽卡,一次下來半天就沒了。所以說幹就幹,我就 Vibe Coding 搓了一個丐版的全文配圖工具👇

它的功能就是,丟進去一篇文章或視頻腳本,它就精確到每 1-2 句話生成一組圖片場景提示詞。也能直接上傳文檔讓它智能拆分文段、指定配圖數量,甚至只選中文章中的某幾句話單獨配圖。給它 API 和參考風格圖(可選),就能自動輸出提示詞,生成風格統一、人物一致的圖片。
項目是在 Trea 裏搭的,最開始的時候 OpenClaw 和也有發揮作用。之前也試了好幾家的大模型 API,原本就一個模糊的想法,想到什麼做什麼,隨意嘗試。不過做着做着,感覺錢包都要被掏空,模型調用的消耗比我想象中大多了。
詞元消耗
寫一個功能跟模型來回懟個好幾輪,改個 bug 又是幾分鐘,調完邏輯還要調樣式,調完樣式發現交互有問題再改……有好幾個功能改了好幾版才做對(比如參考主體,第一版完全沒效果,因為壓根沒把圖片傳給模型 🤣),還是有點抓狂的,從開始的輕言細語到後面輸出靠吼,腎上腺素都上來了。
而且 Coding 除了寫代碼,中間還穿插着大量的理解需求、分析文檔、優化提示詞、做深度搜索調研的工作,每一步都在消耗詞元(Token)。一天高強度開發下來,API 用量確實挺大的。
這還只是一個項目,平時我還經常整一些小工具、小腳本,比如之前做的視頻分鏡工具、批量內容處理、調研相關的工具之類的,幾個項目同時推進的時候,消耗疊加起來就更明顯了。
之前的模式是各個平台散着用,每個平台單獨充值、單獨管理 API Key,經常搞混。高頻調用的時候還時不時遇到卡頓和限速,正寫代碼寫到一半,模型響應突然開始轉圈,特別打斷思路。
看羣友用的火山方舟 Coding Plan,我也盤了個套餐,簡單說就是一個多模型聚合的訂閲套餐,靠譜大廠,字節家的火山引擎,把 GLM-4.7、DeepSeek V3.2、Kimi-K2.5、Doubao-seed-2.0-code 打包在一起,一個訂閲搞定,不用到處充值管理。能直接接進 OpenClaw、Trea、Claude Code、Cursor 這些工具裏,我就訂閲的40塊那個,每月18000次請求額度,中高頻使用還挺好。

配置也很簡單:開通套餐 → 拿 API Key → 在 Coding 工具裏填上就行。OpenClaw 詳細的配置流程可以參考這篇👇
Trea 的配置更簡單,打開下面這個頁面:https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&advancedActiveKey=subscribe
點擊【快速配置】👇

點擊上面的【選擇編程工具】就可以找到不同工具的配置文檔了,很詳細👇


添加模型的時候服務商選【火山引擎Plan】,然後多次添加模型每次選一個模型,後續就可以隨心調用了👇


過程細節
這個全文配圖工具做得比我預想的要細一點,聊幾個我在做的過程中的一些有意思的事情。
首先是 API 設置。因為是自己用,所以直接把它放在了第一步,非常粗暴,接好了後面就直接能用。最早只接了一兩個模型,後來覺得既然做了就做全,讓 AI 寫了個通用的路由函數,根據 model ID 前綴自動匹配對應的 API,最終支持了 7 個平台、20 多個模型。默認用的是火山引擎的模型,點擊標題旁邊小圖標【推薦模型】就能直接跳轉到 API 設置界面👇


第二步是輸入文章內容。這裏可以粘貼文案也可以直接上傳文檔。配圖模式做了三種:全文配圖(給到的內容全部識別拆分配圖)、分段配圖(AI 根據內容智能判斷分多少段或自己指定字段數)、手動選段(劃詞選中某幾句話單獨配圖)。這個手動選段是我自己想要的,有時候可能一篇文章裏就某幾句特別需要畫面感,選中就行👇


第三步風格配置。可以預設比例、視覺風格、色彩基調、圖片模型和分辨率。比較有意思的是風格參考功能,上傳一張參考圖讓 AI 反推風格提示詞。
這個功能我調了好幾版,一開始讓 AI 什麼都分析,包括構圖、人物、場景等等。後來發現不對,風格參考應該只起到“濾鏡”的作用,只分析色調、光影、質感這些,不能描述畫面內容。因為如果風格參考裏出現人物描述,跟提示詞裏的人物會打架,影響出圖質量。改成嚴格只分析畫風、色温、光源、顆粒感、氛圍情緒之後,效果好了很多。

反推出來的風格提示詞還能保存成預設,下次直接調用,不用每次重新上傳👇

最後是生成結果頁。這裏我覺得參考主體的功能還是挺實用的,上傳一張角色圖片,後續配圖就能參考這個主體保持一致性。還有個【智能分配主體】,AI 會自動判斷哪些場景需要出現這個人物,純空鏡或者景物描寫就不會強行塞人進去👇

下面是不參考和參考主體的效果對比(模型用的Seedream 4.5)。
這是不參考主體的效果👇
滑動或點擊查看完整內容
參考主體的效果👇
滑動或點擊查看完整內容
還有一堆零碎的功能,智能分段讓 AI 分析文章結構建議分多少段;智能信息圖會逐段判斷要不要做成數據可視化的樣式;API Key 按平台自動保存,切模型的時候 Key 自動跟着走;批量下載打包成 ZIP 一鍵導出。每一個小功能背後也是好幾輪對話迭代出來的。
整個過程中翻車了無數次:圖片尺寸太小 API 報錯、跨域下載沒反應、選了沒 Key 的模型直接炸……但每次都是實際用的時候才發現問題,然後馬上修。這種做着做着突然有靈感的迭代節奏,恰恰是 Vibe Coding 最有意思的地方。
這個工具目前算是剛做到 1.0 版本,可以生成圖片,但還沒有選擇可以生成視頻,主要還是用於配圖。Bug 也比較多,還在一邊做一邊修。不過一直都是開源的,有需要給視頻或者文章配圖的朋友可以試試自己優化,GitHub連結:
https://github.com/irenerachel/ai-article-illustrator
如果不方便訪問,也可以在後台發送關鍵詞【AI配圖】即可獲得壓縮包。
小結
用了火山方舟的 CodingPlan 一段時間了,整體感受就是工作流順了不少。不用再操心模型從哪調、額度夠不夠、會不會突然卡住這些事情。模型使用從一個需要反覆折騰的環節,變成了工作流裏比較穩定的一環。
而且因為切換成本低,有的特定場景我會習慣性地讓幾個模型各跑一遍同一個任務,挑最好的結果。
國產大模型現在真的各有千秋,用下來也會發現一些規律:GLM-4.7 邏輯能力強,寫複雜業務代碼的時候思路清晰;DeepSeek V3.2 代碼生成能力不錯,寫功能又快又穩;Kimi-K2.5 長文本處理很在行,理解大段需求文檔和長代碼文件的時候特別好用;Doubao-seed-2.0-code 響應快,高頻迭代的時候體驗很絲滑。
如果大家也在經常Vibe Coding,或者覺得零散用模型越來越不順手,可以考慮試試這個聚合套餐。
👉 火山方舟 Coding Plan 活動連結:
https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol
好了,今天的分享就到這裏啦,如果大家也在用 Vibe Coding 自己的項目,或者對這個工具有什麼想法,歡迎評論區一起交流討論。如果內容對大家有用的話,歡迎在下方 👍🏻 和 🌸 鼓勵,期待你的猛猛三連,這對阿真真的很重要~
下期見~
點擊下方【閲讀原文】可直達連結。


