從Vibe Coding到AI視覺,我發現自己的審美能力挺差的。

作者:彭俊旗的AI工具箱
日期:2026年5月5日 下午3:56
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

Vibe Coding到AI視覺,發現審美能力係感性邊界,需要搭橋彌補

整理版摘要

呢篇文章嘅作者彭俊旗(Resona)本身係Vibe Coding領域嘅專家,擅長用AI做產品同智能體。但佢最近嘗試AI生圖同生視頻時,發現自己嘅成品完全唔掂——唔係AI問題,而係佢嘅審美能力跟不上。佢過去嘅工作集中在數據同邏輯層面,對感性內容嘅積累幾乎係零,所以遇到咗一個能力邊界。

佢喺文中拆解咗三個基本功:導演鏡頭與視覺轉換能力、台詞與文案功底、講好故事嘅能力。呢啲都係感性能力,唔可以靠prompt技巧獲得,必須靠大量嘅感知積累——睇電影、讀書、經歷生活等。AI可以幫手實現,但冇辦法幫手感受。

最後佢決定將自己寫小說嘅結構能力、做產品嘅場景思維同埋一人公司嘅敍事積累融合,搭一座橋將邏輯翻譯成感性。佢嘅態度係「先試再講」,短板清晰就去補到及格水平。呢篇文章記錄咗一個技術人對自身感性邊界嘅反思同行動方向。

  • AI生圖同視頻已達生產級水平,但成果取決於審美能力,唔係prompt技巧。
  • 作者發現自己嘅能力邊界唔係技術層面,而係感性層面——欠缺視覺、色彩、鏡頭等感性積累。
  • 拆解咗三個基本功:導演鏡頭與視覺轉換、台詞與文案功底、講好故事嘅能力,呢啲都係感性能力。
  • 感性能力不能靠調參獲得,要靠看電影、讀書等積累,AI只能實現,不能感受。
  • 作者計劃將自己結構化能力(小說、產品)同感性翻譯橋接,先用行動補短板。
整理重點

發現能力邊界

五一期間,作者用大部分時間研究AI生圖、AI視頻,試咗ChatGPT Image 2.0、AI生視頻、漫劇等,發現好多作品色彩、構圖、排版都好出色。

我試着讓AI做同樣的事,結果不理想。唔係AI唔得,係我嘅審美能力跟不上。

佢意識到呢個發現令佢唔舒服,因為喺Vibe Coding領域佢算做得唔錯,但AI生圖同視頻唔係邏輯問題,而係審美問題。

我遇到了一個能力邊界,不是技術上的,是感性上的。

佢無法想像從未見過嘅色彩搭配,無法憑空構造文字排版嘅視覺感覺,因為過往工作集中在數據同邏輯。

對感性內容的積累——幾乎沒有。

寫小說嘅時候也有類似問題,我寫不出導演視角的畫面,唔知鏡頭應該點推、點拉、點過渡。

整理重點

三個基本功

作者拆解咗感性能力嘅三個基本功,全部與prompt技巧無關,而係感知積累。

  • 導演鏡頭與視覺轉換能力:將文字翻譯成視覺語言,包括景別、運鏡、光影、色彩、構圖,呢套語言決定作品高度。
  • 台詞與文案功底:喺特定場景用一句話抓住用戶需求,要準確、有力,唔係「寫得好」而係「寫對了」。
  • 講好故事的能力:每張圖每段視頻背後都有故事,要用畫面令故事自己說話,而唔係用文字描述。

prompt 只是輸入。你輸入的質量,取決於你的審美能力。

你審美的高度,取決於你的感知積累。

從文字到視覺之間,隔着一整套導演語言。

真正能打動人心的,是文字。

整理重點

行動方向:搭橋補短板

呢三個基本功都係感性能力,不能靠調參獲得,只能靠積累——睇電影、讀書、經歷生活。AI可以幫手實現,但冇辦法幫手感受。

作者決定將自己寫小說嘅結構能力、做產品嘅場景思維、一人公司嘅敍事積累融合,搭一座橋將邏輯翻譯成感性。

既然要做自己的品牌,就必須講好自己的故事。

邏輯能拆解問題,但畫面感需要另一種能力。

短板清晰了,就去補到及格水平。

佢嘅態度係「先去做試,結果再說」,用行動代替猶豫。

圖片

五一假期呢幾日,我用咗大部分時間研究 AI 生圖、AI 影片。

ChatGPT Image 2.0、AI 生影片、漫劇——逐個試曬。

然後受到打擊。

先講感受

由生圖到生影片,而家已經去到生產級嘅水平。

唔係「睇得嚇」。

係「好掂」。

我見到嘅好多作品,色彩、構圖、文字排版——每個維度都做得好到位。

然後我試嚇叫 AI 做同樣嘅嘢。結果唔理想。

唔係 AI 唔得。係我嘅審美能力跟唔上。

呢個發現令我有啲唔舒服。喺 Vibe Coding 領域,我大概算做得唔錯。但 AI 生圖同影片,唔係邏輯問題,係審美問題。

我遇到咗一個能力邊界

喺 Vibe Coding 領域,用 AI 幫手,我可以整出各式各樣嘅成品——AI 產品、AI 智能體等等。

因為嗰啲嘢,本質上係邏輯同結構。

數據點樣流轉、組件點樣組合、狀態點樣管理——呢啲係我擅長嘅。

但 AI 生圖同生影片,唔係邏輯問題。係審美問題。

我諗唔出嗰啲從未見過嘅色彩配搭。我無辦法憑空構造出文字排版嘅視覺感覺。

因為我以往嘅工作,幾乎全部集中喺數據同邏輯層面。對感性內容嘅積累——幾乎冇。

換句話講,我遇到咗一個能力邊界。唔係技術上嘅。係感性上嘅。

寫小說嘅時候都有類似問題。我知點樣設計人物、點樣安排情節——呢啲係結構層面嘅事。但當需要將呢啲轉化成影片內容嘅時候,我寫唔出導演視角嘅畫面。

我唔知鏡頭應該點樣推、點樣拉、點樣由一個場景過渡到另一個場景。我唔知咩嘢樣嘅光影可以傳達咩嘢情緒。

因為我冇積累過呢啲感性。

Prompt 只係輸入。你輸入嘅質素,取決於你嘅審美能力。
         你審美嘅高度,取決於你嘅感知積累。
         冇積累,再好嘅模型都只係一支高級畫筆——
         你揸住咗,但唔知畫咩。

我拆解咗三個基本功

導演鏡頭與視覺轉換能力

呢種係將文字翻譯成視覺語言嘅能力。

同一個場景——「一個人在房裏」——呢個係文字。

「逆光中嘅剪影,人物坐喺窗邊,前景係模糊嘅咖啡杯,色調偏冷」——呢個係視覺。

由文字到視覺之間,隔住一整套導演語言:景別、運鏡、光影、色彩、構圖。

呢套語言,決定咗你嘅作品可以去到嘅高度。觀眾可能講唔出邊度好,但佢哋會喺嗰一幀畫面面前停低。

嗰一幀,就係導演語言嘅價值。

台詞與文案功底

視覺再好,都只係烘托。真正能夠打動人心嘅,係文字。

喺生影片裏面,係台詞。喺生圖裏面,係文案。

由商業變現嘅角度睇,呢件事嘅本質係——喺特定嘅場景裏面,用一句話抓住用戶嘅需求。

唔多。就一句。

但呢一句,要準確、要有力、要令見到嘅人覺得「呢個就係講緊我」。

呢樣嘢需要你對人性有理解,對場景有感知,對語言有掌控。唔係「寫得好」,係「寫得啱」。

講好故事嘅能力

每一張打動人心嘅圖,每一段令人睇完嘅影片——背後都有故事。

唔係「發生咗咩」嘅故事。係「點解呢件事重要」嘅故事。

作者嘅思考係故事。觀眾嘅解讀都係故事。

你要做嘅,係將呢個故事用視覺語言講出嚟。唔係用文字描述故事,係用畫面令故事自己講嘢。

感性能力,唔可以靠調參獲得

呢三個基本功,係我呢幾日最深嘅感受。佢哋都唔係 prompt 技巧。佢哋係感性能力。

而感性能力,唔可以靠調參獲得。要靠積累。

靠你睇過嘅電影、讀過嘅書、經歷過嘅時刻、被觸動過嘅瞬間。

呢啲嘢,AI 替代唔到你。
         AI 可以幫你實現。但唔可以幫你感受。

然後呢

跟住點做?將過往嘅經驗融入去。

寫小說嘅結構能力、做產品嘅場景思維、一人公司嘅敍事積累——呢啲都存在。缺嘅係將邏輯翻譯成感性嘅嗰層橋。

咁就搭橋。

既然要做自己嘅品牌,就必須講好自己嘅故事。表達好自己想表達嘅內容。唔係用技術炫耀,係用感性打動人。

結果會點樣,我而家唔知。

但係去試嚇先啦。

邏輯可以拆解問題,
但畫面感需要另一種能力。
短板清晰咗,就去補到合格水平。

係去試嚇,結果再講。

Resona · 鳴 · 令每一次對話,都有迴響

2026-05-05 · 彭俊旗


圖片

五一節這幾天,我用大部分時間都在研究 AI 生圖、AI視頻。

ChatGPT Image 2.0、AI 生視頻、漫劇——挨着試了一遍。

然後被打擊了。

先說感受

從生圖到生視頻,現在已經到了生產級的水平。

不是"能看"。

是"優秀"。

我看到的很多作品,色彩、構圖、文字排版——每一個維度都做得很到位。

然後我試着讓 AI 做同樣的事。結果不理想。

不是 AI 不行。是我的審美能力跟不上。

這個發現讓我有點不舒服。在 Vibe Coding 領域,我大概算做得不錯的。但 AI 生圖和視頻,不是邏輯問題,是審美問題。

我遇到了一個能力邊界

在 Vibe Coding 領域,用 AI 協助,我能做出各種各樣的成品——AI 產品、AI 智能體等等。

因為那些東西,本質上是邏輯和結構。

數據怎麼流轉、組件怎麼組合、狀態怎麼管理——這些是我擅長的。

但 AI 生圖和生視頻,不是邏輯問題。是審美問題。

我無法想象出那些從未見過的色彩搭配。我無法憑空構造出文字排版的視覺感覺。

因為我的過往工作,幾乎全部集中在數據和邏輯層面。對感性內容的積累——幾乎沒有。

換句話說,我遇到了一個能力邊界。不是技術上的。是感性上的。

寫小說的時候也有類似的問題。我知道怎麼設計人物、怎麼安排情節——這是結構層面的事。但當需要把這些轉化成視頻內容的時候,我寫不出導演視角的畫面。

我不知道鏡頭應該怎麼推、怎麼拉、怎麼從一個場景過渡到另一個場景。我不知道什麼樣的光影能傳達什麼樣的情緒。

因為我沒有積累過這些感性。

prompt 只是輸入。你輸入的質量,取決於你的審美能力。
         你審美的高度,取決於你的感知積累。
         沒有積累,再好的模型也只是個高級畫筆——
         你握住了,但不知道畫什麼。

我拆解了三個基本功

導演鏡頭與視覺轉換能力

這是一種把文字翻譯成視覺語言的能力。

同樣的場景——"一個人在房間裏"——這是文字。

"逆光中的剪影,人物坐在窗邊,前景是模糊的咖啡杯,色調偏冷"——這是視覺。

從文字到視覺之間,隔着一整套導演語言:景別、運鏡、光影、色彩、構圖。

這套語言,決定了你的作品能到達的高度。觀眾可能說不出哪裏好,但他們會在那一幀畫面前停住。

那一幀,就是導演語言的價值。

台詞與文案功底

視覺再好,也只是烘托。真正能打動人心的,是文字。

在生視頻裏,是台詞。在生圖裏,是文案。

從商業變現的角度看,這件事的本質是——在特定的場景裏,用一句話抓住用戶的需求。

不多。就一句。

但這一句,要準確、要有力、要讓看到的人覺得"這就是在說我"。

這需要你對人性有理解,對場景有感知,對語言有掌控。不是"寫得好",是"寫對了"。

講好故事的能力

每一張打動人心的圖,每一段讓人看完的視頻——背後都有故事。

不是"發生了什麼"的故事。是"為什麼這件事重要"的故事。

作者的思考是故事。觀眾的解讀也是故事。

你要做的,是把這個故事用視覺語言講出來。不是用文字描述故事,是用畫面讓故事自己說話。

感性能力,不能靠調參獲得

這三個基本功,是我這幾天最深的感受。它們都不是 prompt 技巧。它們是感性能力。

而感性能力,不能靠調參獲得。它靠積累。

靠你看過的電影、讀過的書、經歷過的時刻、被觸動過的瞬間。

這些東西,AI 替代不了你。
         AI 能幫你實現。但不能幫你感受。

然後呢

接下來怎麼做?把過往的經驗融進去。

寫小說的結構能力、做產品的場景思維、一人公司的敍事積累——這些都在。缺的是把邏輯翻譯成感性的那層橋。

那就搭橋。

既然要做自己的品牌,就必須講好自己的故事。表達好自己想要表達的內容。不是用技術炫耀,是用感性打動人。

結果會怎樣,我現在不知道。

但先去試吧。

邏輯能拆解問題,
但畫面感需要另一種能力。
短板清晰了,就去補到及格水平。

先去試,結果再說。

Resona · 鳴 · 讓每一次對話,都有迴響

2026-05-05 · 彭俊旗