從Vibe Coding到AI視覺，我發現自己的審美能力挺差的。

作者：彭俊旗的AI工具箱

日期：2026年5月5日下午3:56

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

從Vibe Coding到AI視覺，發現審美能力係感性邊界，需要搭橋彌補

整理版摘要

呢篇文章嘅作者彭俊旗（Resona）本身係Vibe Coding領域嘅專家，擅長用AI做產品同智能體。但佢最近嘗試AI生圖同生視頻時，發現自己嘅成品完全唔掂——唔係AI問題，而係佢嘅審美能力跟不上。佢過去嘅工作集中在數據同邏輯層面，對感性內容嘅積累幾乎係零，所以遇到咗一個能力邊界。

佢喺文中拆解咗三個基本功：導演鏡頭與視覺轉換能力、台詞與文案功底、講好故事嘅能力。呢啲都係感性能力，唔可以靠prompt技巧獲得，必須靠大量嘅感知積累——睇電影、讀書、經歷生活等。AI可以幫手實現，但冇辦法幫手感受。

最後佢決定將自己寫小說嘅結構能力、做產品嘅場景思維同埋一人公司嘅敍事積累融合，搭一座橋將邏輯翻譯成感性。佢嘅態度係「先試再講」，短板清晰就去補到及格水平。呢篇文章記錄咗一個技術人對自身感性邊界嘅反思同行動方向。

AI生圖同視頻已達生產級水平，但成果取決於審美能力，唔係prompt技巧。
作者發現自己嘅能力邊界唔係技術層面，而係感性層面——欠缺視覺、色彩、鏡頭等感性積累。
拆解咗三個基本功：導演鏡頭與視覺轉換、台詞與文案功底、講好故事嘅能力，呢啲都係感性能力。
感性能力不能靠調參獲得，要靠看電影、讀書等積累，AI只能實現，不能感受。
作者計劃將自己結構化能力（小說、產品）同感性翻譯橋接，先用行動補短板。

整理重點

發現能力邊界

五一期間，作者用大部分時間研究AI生圖、AI視頻，試咗ChatGPT Image 2.0、AI生視頻、漫劇等，發現好多作品色彩、構圖、排版都好出色。

我試着讓AI做同樣的事，結果不理想。唔係AI唔得，係我嘅審美能力跟不上。

佢意識到呢個發現令佢唔舒服，因為喺Vibe Coding領域佢算做得唔錯，但AI生圖同視頻唔係邏輯問題，而係審美問題。

我遇到了一個能力邊界，不是技術上的，是感性上的。

佢無法想像從未見過嘅色彩搭配，無法憑空構造文字排版嘅視覺感覺，因為過往工作集中在數據同邏輯。

對感性內容的積累——幾乎沒有。

寫小說嘅時候也有類似問題，我寫不出導演視角的畫面，唔知鏡頭應該點推、點拉、點過渡。

整理重點

三個基本功

作者拆解咗感性能力嘅三個基本功，全部與prompt技巧無關，而係感知積累。

導演鏡頭與視覺轉換能力：將文字翻譯成視覺語言，包括景別、運鏡、光影、色彩、構圖，呢套語言決定作品高度。
台詞與文案功底：喺特定場景用一句話抓住用戶需求，要準確、有力，唔係「寫得好」而係「寫對了」。
講好故事的能力：每張圖每段視頻背後都有故事，要用畫面令故事自己說話，而唔係用文字描述。

prompt 只是輸入。你輸入的質量，取決於你的審美能力。

你審美的高度，取決於你的感知積累。

從文字到視覺之間，隔着一整套導演語言。

真正能打動人心的，是文字。

整理重點

行動方向：搭橋補短板

呢三個基本功都係感性能力，不能靠調參獲得，只能靠積累——睇電影、讀書、經歷生活。AI可以幫手實現，但冇辦法幫手感受。

作者決定將自己寫小說嘅結構能力、做產品嘅場景思維、一人公司嘅敍事積累融合，搭一座橋將邏輯翻譯成感性。

既然要做自己的品牌，就必須講好自己的故事。

邏輯能拆解問題，但畫面感需要另一種能力。

短板清晰了，就去補到及格水平。

佢嘅態度係「先去做試，結果再說」，用行動代替猶豫。

五一假期呢幾日，我用咗大部分時間研究 AI 生圖、AI 影片。

ChatGPT Image 2.0、AI 生影片、漫劇——逐個試曬。

然後受到打擊。

先講感受

由生圖到生影片，而家已經去到生產級嘅水平。

唔係「睇得嚇」。

係「好掂」。

我見到嘅好多作品，色彩、構圖、文字排版——每個維度都做得好到位。

然後我試嚇叫 AI 做同樣嘅嘢。結果唔理想。

唔係 AI 唔得。係我嘅審美能力跟唔上。

呢個發現令我有啲唔舒服。喺 Vibe Coding 領域，我大概算做得唔錯。但 AI 生圖同影片，唔係邏輯問題，係審美問題。

我遇到咗一個能力邊界

喺 Vibe Coding 領域，用 AI 幫手，我可以整出各式各樣嘅成品——AI 產品、AI 智能體等等。

因為嗰啲嘢，本質上係邏輯同結構。

數據點樣流轉、組件點樣組合、狀態點樣管理——呢啲係我擅長嘅。

但 AI 生圖同生影片，唔係邏輯問題。係審美問題。

我諗唔出嗰啲從未見過嘅色彩配搭。我無辦法憑空構造出文字排版嘅視覺感覺。

因為我以往嘅工作，幾乎全部集中喺數據同邏輯層面。對感性內容嘅積累——幾乎冇。

換句話講，我遇到咗一個能力邊界。唔係技術上嘅。係感性上嘅。

寫小說嘅時候都有類似問題。我知點樣設計人物、點樣安排情節——呢啲係結構層面嘅事。但當需要將呢啲轉化成影片內容嘅時候，我寫唔出導演視角嘅畫面。

我唔知鏡頭應該點樣推、點樣拉、點樣由一個場景過渡到另一個場景。我唔知咩嘢樣嘅光影可以傳達咩嘢情緒。

因為我冇積累過呢啲感性。

Prompt 只係輸入。你輸入嘅質素，取決於你嘅審美能力。
你審美嘅高度，取決於你嘅感知積累。
冇積累，再好嘅模型都只係一支高級畫筆——
你揸住咗，但唔知畫咩。

我拆解咗三個基本功

▎導演鏡頭與視覺轉換能力

呢種係將文字翻譯成視覺語言嘅能力。

同一個場景——「一個人在房裏」——呢個係文字。

「逆光中嘅剪影，人物坐喺窗邊，前景係模糊嘅咖啡杯，色調偏冷」——呢個係視覺。

由文字到視覺之間，隔住一整套導演語言：景別、運鏡、光影、色彩、構圖。

呢套語言，決定咗你嘅作品可以去到嘅高度。觀眾可能講唔出邊度好，但佢哋會喺嗰一幀畫面面前停低。

嗰一幀，就係導演語言嘅價值。

▎台詞與文案功底

視覺再好，都只係烘托。真正能夠打動人心嘅，係文字。

喺生影片裏面，係台詞。喺生圖裏面，係文案。

由商業變現嘅角度睇，呢件事嘅本質係——喺特定嘅場景裏面，用一句話抓住用戶嘅需求。

唔多。就一句。

但呢一句，要準確、要有力、要令見到嘅人覺得「呢個就係講緊我」。

呢樣嘢需要你對人性有理解，對場景有感知，對語言有掌控。唔係「寫得好」，係「寫得啱」。

▎講好故事嘅能力

每一張打動人心嘅圖，每一段令人睇完嘅影片——背後都有故事。

唔係「發生咗咩」嘅故事。係「點解呢件事重要」嘅故事。

作者嘅思考係故事。觀眾嘅解讀都係故事。

你要做嘅，係將呢個故事用視覺語言講出嚟。唔係用文字描述故事，係用畫面令故事自己講嘢。

感性能力，唔可以靠調參獲得

呢三個基本功，係我呢幾日最深嘅感受。佢哋都唔係 prompt 技巧。佢哋係感性能力。

而感性能力，唔可以靠調參獲得。要靠積累。

靠你睇過嘅電影、讀過嘅書、經歷過嘅時刻、被觸動過嘅瞬間。

呢啲嘢，AI 替代唔到你。
AI 可以幫你實現。但唔可以幫你感受。

然後呢

跟住點做？將過往嘅經驗融入去。

寫小說嘅結構能力、做產品嘅場景思維、一人公司嘅敍事積累——呢啲都存在。缺嘅係將邏輯翻譯成感性嘅嗰層橋。

咁就搭橋。

既然要做自己嘅品牌，就必須講好自己嘅故事。表達好自己想表達嘅內容。唔係用技術炫耀，係用感性打動人。

結果會點樣，我而家唔知。

但係去試嚇先啦。

邏輯可以拆解問題，
但畫面感需要另一種能力。
短板清晰咗，就去補到合格水平。

係去試嚇，結果再講。

Resona · 鳴 · 令每一次對話，都有迴響

2026-05-05 · 彭俊旗

五一節這幾天，我用大部分時間都在研究 AI 生圖、AI視頻。

ChatGPT Image 2.0、AI 生視頻、漫劇——挨着試了一遍。

然後被打擊了。

先說感受

從生圖到生視頻，現在已經到了生產級的水平。

不是"能看"。

是"優秀"。

我看到的很多作品，色彩、構圖、文字排版——每一個維度都做得很到位。

然後我試着讓 AI 做同樣的事。結果不理想。

不是 AI 不行。是我的審美能力跟不上。

這個發現讓我有點不舒服。在 Vibe Coding 領域，我大概算做得不錯的。但 AI 生圖和視頻，不是邏輯問題，是審美問題。

我遇到了一個能力邊界

在 Vibe Coding 領域，用 AI 協助，我能做出各種各樣的成品——AI 產品、AI 智能體等等。

因為那些東西，本質上是邏輯和結構。

數據怎麼流轉、組件怎麼組合、狀態怎麼管理——這些是我擅長的。

但 AI 生圖和生視頻，不是邏輯問題。是審美問題。

我無法想象出那些從未見過的色彩搭配。我無法憑空構造出文字排版的視覺感覺。

因為我的過往工作，幾乎全部集中在數據和邏輯層面。對感性內容的積累——幾乎沒有。

換句話說，我遇到了一個能力邊界。不是技術上的。是感性上的。

寫小說的時候也有類似的問題。我知道怎麼設計人物、怎麼安排情節——這是結構層面的事。但當需要把這些轉化成視頻內容的時候，我寫不出導演視角的畫面。

我不知道鏡頭應該怎麼推、怎麼拉、怎麼從一個場景過渡到另一個場景。我不知道什麼樣的光影能傳達什麼樣的情緒。

因為我沒有積累過這些感性。

prompt 只是輸入。你輸入的質量，取決於你的審美能力。
你審美的高度，取決於你的感知積累。
沒有積累，再好的模型也只是個高級畫筆——
你握住了，但不知道畫什麼。

我拆解了三個基本功

▎導演鏡頭與視覺轉換能力

這是一種把文字翻譯成視覺語言的能力。

同樣的場景——"一個人在房間裏"——這是文字。

"逆光中的剪影，人物坐在窗邊，前景是模糊的咖啡杯，色調偏冷"——這是視覺。

從文字到視覺之間，隔着一整套導演語言：景別、運鏡、光影、色彩、構圖。

這套語言，決定了你的作品能到達的高度。觀眾可能說不出哪裏好，但他們會在那一幀畫面前停住。

那一幀，就是導演語言的價值。

▎台詞與文案功底

視覺再好，也只是烘托。真正能打動人心的，是文字。

在生視頻裏，是台詞。在生圖裏，是文案。

從商業變現的角度看，這件事的本質是——在特定的場景裏，用一句話抓住用戶的需求。

不多。就一句。

但這一句，要準確、要有力、要讓看到的人覺得"這就是在說我"。

這需要你對人性有理解，對場景有感知，對語言有掌控。不是"寫得好"，是"寫對了"。

▎講好故事的能力

每一張打動人心的圖，每一段讓人看完的視頻——背後都有故事。

不是"發生了什麼"的故事。是"為什麼這件事重要"的故事。

作者的思考是故事。觀眾的解讀也是故事。

你要做的，是把這個故事用視覺語言講出來。不是用文字描述故事，是用畫面讓故事自己說話。

感性能力，不能靠調參獲得

這三個基本功，是我這幾天最深的感受。它們都不是 prompt 技巧。它們是感性能力。

而感性能力，不能靠調參獲得。它靠積累。

靠你看過的電影、讀過的書、經歷過的時刻、被觸動過的瞬間。

這些東西，AI 替代不了你。
AI 能幫你實現。但不能幫你感受。

然後呢

接下來怎麼做？把過往的經驗融進去。

寫小說的結構能力、做產品的場景思維、一人公司的敍事積累——這些都在。缺的是把邏輯翻譯成感性的那層橋。

那就搭橋。

既然要做自己的品牌，就必須講好自己的故事。表達好自己想要表達的內容。不是用技術炫耀，是用感性打動人。

結果會怎樣，我現在不知道。

但先去試吧。

邏輯能拆解問題，
但畫面感需要另一種能力。
短板清晰了，就去補到及格水平。

先去試，結果再說。

Resona · 鳴 · 讓每一次對話，都有迴響

2026-05-05 · 彭俊旗