從模型到工作流:2026 上半年圖片與視頻模型盤點。

作者:阿真Irene
日期:2026年7月4日 下午4:22
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

2026上半年圖片與視頻模型盤點:從單點能力競爭轉向生產系統遷移,成本與可控性成關鍵

整理版摘要

呢篇文章係阿真喺2026年7月寫嘅上半年圖片與視頻模型盤點。作者以個人角度梳理咗由1月到6月嘅主要模型發佈,包括Midjourney Niji 7、Seedance 2.0、ChatGPT Images 2.0、Gemini Omni等。目的係幫讀者快速掌握上半年模型動態,同時分享自己嘅觀察:模型競爭已經從單點能力轉向生產系統遷移,成本同可控性成為關鍵詞。

圖片模型方面,上半年最明顯嘅趨勢係全面捲文字渲染,因為文字係可控性嘅最直接體現——字錯就係錯,冇得討論。同時,作者預測圖片模型唔會贏者通吃,而係會分三層:入口層(長喺超級應用入面,贏分發)、管線層(寫入工作流,贏穩定)、廉價層(成本打到最低,量大管飽)。真實創作入面,呢三層可以同時用。

視頻模型方面,輸入方式從文字描述轉向素材投餵,創作者要由寫prompt變成備資產。合規亦變成產品設計一部分,Seedance 2.0因版權爭議發佈即削弱,為行業畫咗紅線。Agent開始成為調度中層,但模型競爭會更殘酷,因為切換成本只係一行配置文件。整體嚟講,上半年嘅變化顯示模型正逐步融入真實創作流程,下半年值得期待Seedance 2.5同Seedream 5.0 Pro等新模型。

  • 2026上半年模型發佈關鍵詞從「更強」轉向「更快、更便宜」,行業集體捲成本,意味技術S曲線進入平台期。
  • 圖片模型普遍卷文字渲染,因為文字係可控性嘅最直觀表現,誰做穩文字就能證明輸出可驗收。
  • 圖片模型格局將分三層:入口層(超級應用分發)、管線層(工作流穩定可控)、廉價層(低成本量大管飽),唔會贏者通吃。
  • 視頻模型輸入從文字描述轉向素材投餵(多參考圖、音頻、視頻),創作者需從寫prompt轉向備資產。
  • 合規成為產品設計一環(版權、肖像、區域監管),模型越強約束越緊,下半年基礎設施將成勝負關鍵。
整理重點

上半年模型發佈總覽

2026上半年模型發佈密集,從1月到6月幾乎每月都有重磅更新。作者梳理咗時間軸,以下係各月重點模型。

  • 1月Midjourney Niji 7強化動漫細節同一致性;谷歌Veo 3.1引入Ingredients參考;智譜GLM-Image開源文字渲染模型。
  • 2月Seedance 2.0以多模態聯合生成震驚業界;Kling 3.0上線;Nano Banana 2主打更快更便宜。
  • 3月Midjourney V8 Alpha開放測試;Luma Uni-1發佈;騰訊OmniWeaving開源多任務視頻模型。
  • 4月ChatGPT Images 2.0登頂圖片模型王座;阿里Wan2.7系列發佈;OpenAI宣佈停用Sora。
  • 5月Google I/O發佈Gemini OmniRunway Aleph 2.0聚焦視頻編輯;Ideogram 4.0開源。
  • 6月Seedance 2.0原生4K上線;Nano Banana 2 Lite推出;美圖MiracleVision V6發佈。

模型發佈關鍵詞從「更強」換成「更快、更便宜」,行業集體捲成本。

整理重點

圖片模型趨勢:文字渲染與三層格局

圖片模型上半年最明顯嘅趨勢係全面捲文字渲染,幾乎所有模型都加強咗呢個能力。原因係文字渲染直接反映可控性,字錯就係錯,冇得討論。

作者預測圖片模型唔會贏者通吃,而係分三層:入口層、管線層、廉價層。三層贏家可以係唔同公司,同一生產鏈路可以同時用到三層。

強通用模型會繼續佔據高質量入口,但低價高速模型、垂直商業模型、文字設計模型都會繼續存在。

  • 入口層:長喺超級應用入面,贏分發唔贏參數,例如ChatGPT Images 2.0。
  • 管線層:被寫入工作流同API,贏穩定同可控,例如Qwen-Image-2.0
  • 廉價層:邊際成本打到地板,量大管飽,例如Nano Banana 2 Lite
整理重點

視頻模型趨勢:素材投餵與合規紅線

視頻模型輸入方式從文字描述轉向素材投餵,創作者要由寫prompt變成備資產。VeoIngredientsSeedance的多參考、Vidu的參考圖都係例子。

視頻模型嘅接口正在從「文字描述」變成「素材投餵」,呢個係傳統影視製片一直喺度做嘅事。

合規成為產品設計一部分。Seedance 2.0發佈即削弱,因為IP、肖像、區域監管約束。廠商開始主動畫紅線。

  • 輸入變化:從文字prompt到多參考素材(圖片、視頻、音頻)。
  • 合規影響:模型能力減去合規削減,先係用戶真正用到嘅嘢。
  • 下半年前瞻Seedance 2.5主打最長30秒、50個全模態素材聯合生成;Seedream 5.0 Pro支持交互式精準編輯同多圖層分離。
整理重點

Agent與未來展望

Agent開始成為調度中層,放大模型嘅價值。但決定作品上限嘅仍然係創作者本身能力同底層模型。

當模型嘅調用方係Agent,模型就從產品退化成了零件,切換成本只係一行配置文件。

作者總結上半年變化:模型正逐步融入真實創作流程,從生成一張好圖轉向穩定參與角色一致、多輪任務、具體場景交付。下半年值得期待新模型。

唯一不變嘅,就係變化一直在發生。

圖片節點 2 \- 副本 \(12\)\.png

哈囉大家好!我係阿真!

一轉眼2026年已經入咗下半年,係時候對上半年做個小結啦。

今日嚟好好盤點2026年上半年嘅圖片同視頻模型,伴隨模型更新時間軸出現嘅,仲有我當時嘅一啲測試文章。都算係對唔係咁努力亦冇乜收穫嘅上半年做個總結匯報啦。

疊甲:我嘅觀點只係我嘅觀點,完全唔權威,有意見嘅都係個人睇法,大家想反對就直接反對。我呢度唔存在反感或者痛罵某個模型嘅情況,大部分時間比較理性。同時,我都有可能對某啲模型嘅真正價值理解得唔夠透徹,仲有可能漏咗一啲滄海遺珠,大家可以喺評論區補充或者積極留言。

以及,呢篇文章以模型為主線,如果有朋友好奇點解冇即夢或者其他嘅話,即夢屬於產品,我一定會提到即夢呢個產品佢用嘅模型;模型離唔開佢所在嘅產品時,我都會順便講到產品,但唔會單獨做產品測評。

上半年發佈咗啲咩?

問起呢個問題嘅時候,你個腦海入面出現咗邊啲圖片同視頻模型?

Nano Banana Pro,GPT Image 2,Seedance 2.0?

實際上Nano Banana Pro已經係2025年11月20日發佈嘅模型喇,今年2月發佈嘅係Nano Banana 2,係Google另一個相對更平嘅圖片模型。

而上面提到嘅幾個圖片模型同視頻模型,算係我哋公認嘅今年上半年好評最多嘅模型啦。

但其實上半年仲有好多團隊嘅圖片同視頻模型發佈,而且佢哋各自都有亮點。大家都可以睇嚇,邊啲模型係你體驗過嘅?下半年,大家會睇好邊啲模型呢?

1月份

image\.png

1月9日,Midjourney Niji 7 發佈。相比上一代,佢嘅細節更加清晰,例如眼睛反光同背景嘅小元素都更加細緻。而且,佢仲有更好嘅動漫一致性、Prompt理解能力、風格遷移嘅表現,可以話係審美與風格專用模型細分品類中嘅TOP。不過,雖然官方話優化咗文字渲染能力,但講真,呢方面做咗約等於白做,競爭力唔大。不過轉個角度諗,守住一個單點,可能都算係一種清晰嘅定位。詳情可以睇 👉超全Niji V7多場景實測,Midjourney呢位前頂流又仰卧起坐咗。

1月13日,Google升級Veo 3.1 Ingredients to Video,可以用參考圖控制角色、背景、物體同紋理;強化角色身份一致性、背景同物體一致性;支援原生直屏輸出,並可以喺Flow、Gemini API同Vertex AI中升採樣到1080p或4K。呢個喺海外嘅呼聲唔錯,為廣告同產品、電商以及角色連續短片領域帶嚟咗更多可能性。“Ingredients(食材/成分/配料)”呢個命名都好有意思,都算預告咗全年視頻模型交互方式嘅走向,包括後面Seedance 2.0嘅多參考輸入,都係喺呢個方向大大加強咗。

1月14日,智譜發佈咗GLM-Image,開源圖片模型、工業級、支援較好嘅文字渲染。16B架構,其中9B自迴歸 + 7B diffusion;最高支援2048px;強調文字渲染、語義對齊、圖生圖。自迴歸加擴散嘅混合架構,捉嘅係語義理解加像素質量。

1月26日,Luma AI 發佈 Ray 3.14,支援原生1080p。官方對比Ray 3.0快4倍、平3倍;提升視頻穩定性同Modify Video運動一致性。Luma AI嘅產品我體驗過好多次,2.0我係充咗值證明自己做冤大頭,但3.14嘅視頻修改編輯都係唔錯嘅。

同一日騰訊混元發佈咗HunyuanImage-3.0-Instruct-Distil,開源圖片模型。Instruct支援推理式提示詞增強同圖生圖創意編輯,Distil面向更高效率部署,官方推薦8步採樣。Distil確實係試圖降低採樣步數同部署門檻,但係模型重、顯存門檻都高,就算量化都係大塊頭,差唔多就係4090用戶咬咬牙可以用嘅程度。開源模型就係咁,權重開放一回事,部署成本先係決定因素。

1月30日,生數科技喺Global Creativity Week期間發佈Vidu Q3視頻模型。支援原生音頻同視頻同生,視頻最長時間去到16秒,可以生成對話、旁白、音效、音樂,強調鏡頭控制同敍事連續性。呢套配置擺喺短劇、動畫、漫畫改編上,性價比好高,不過最長16秒都係唔容易。原生音頻,上半年都係喺視頻模型能力角逐中逐步從差異化變成咗入場券。

2月份

image\.png

2月5日,快手嘅Kling AI 3.0模型系列上線,圖片同視頻模型一齊上線。“人人都可以當導演”係佢嘅核心宣傳點,圖片模型開始支援2K、4K同專業資產。視頻模型都進一步提升咗敍事控制同一致性,支援多鏡頭同原生音頻。呢個係國內視頻模型產品化嘅種子選手啦。

2月10日,阿里嘅Qwen-Image-2.0模型發佈。回頭睇Qwen到呢個時候竟然先至2.0。2.0支援統一高保真生成同精準圖像編輯,支援最長1K token(國產模型約600-900漢字)指令;面向PPT、海報、信息圖、漫畫等文本密集內容;原生高分辨率同多語言文字表現增強。呢篇第一時間冇寫,過完年喺千問APP做咗測試,文字同編輯效果都幾好㗎。雖然好似網絡呼聲唔係好大,但已經好早進入咗各類工作流場景,例如ComfyUI同企業管線入面。測試效果可以睇呢篇 👉Qwen-Image-2.0

2月12日,大家都認可嘅允許用炸裂形容嘅模型面世,字節跳動Seed團隊正式發佈新一代視頻創作模型Seedance 2.0。一開始以為吹嘅,後面發現佢竟然有啲謙虛咗。Seedance 2.0實現咗統一多模態音視頻聯合生成架構,支援文字、圖片、音頻、視頻四類輸入,可以參考最多9張圖、3段視頻、3段音頻,生成最長15秒多鏡頭音視頻輸出。喺動作、物理、電影語言以及多鏡頭方面都非常令人驚喜,但係一上線就喺版權、IP、區域可用性以及真實人物方面都引起爭議同大量討論。下一個咁勁嘅模型好似仲係Anthropic嘅Claude Mythos 5。

當模型強到可以逼真復現任何IP、任何真嘅人嘅時候,比可唔可以生成嚟得更快嘅,係敢唔敢放出嚟。紙面能力減去合規削弱嘅成品,先至係我哋真正用得到嘅嘢。呢個係當時阿真參與首輪內測嘅輸出視頻分享 👉俾Seedance 2.0嘅強者光芒光到瞓唔着覺喇。

2月13日,字節跳動Seed團隊推出Seedream 5.0 Lite智能圖像創作模型。呢個圖片模型強調“deeper thinking, more accurate generation(更深層次思考,更精確生成)”。提升理解、推理、生成,實時搜索增強,更強信息可視化、風格遷移、模糊指令編輯、多主體複雜關係。喺實時熱點海報、資料圖、信息圖方向都有進步,但係細節、真實感上都有進步空間。大家用完話不如前一版本嘅觀點都存在,呢個版本存在感好似真係唔算高,但進步係有嘅,期待更穩定版嘅5.0。“推理換畫質”似乎係今年圖片模型普遍嘅取捨。模型花更多算力去諗清楚你想要咩,代價可能係像素層面嘅細節退步。呢個蹺蹺板幾時可以兩頭都翹起嚟,咁就真係成功喇。

2月26日,Google官方發佈Nano Banana 2,都係一個大家期待嘅模型,畢竟之前有Nano Banana Pro企喺圖片模型巔峯差唔多3個月,大家對2嘅期待都好高。Nano Banana 2定位為“Pro能力 + Flash速度”;強調高級世界知識、production-ready specs(可以正式上生產環境用嘅配置)、主體一致性、快速生成。總括嚟講Nano Banana 2同Pro相比最大嘅優勢在於更快更平,大家用起嚟唔會肉赤,從質量同細節嚟講個人感覺並冇超越Nano Banana Pro。至於點解巔峯三個月再出一個好似仲不如之前版本嘅,除咗更平更快,可能都係佢自己預判呢一代技術嘅質量紅利佢已經食得差唔多。呢個我測咗2篇,請睇 👉NanoBanana 2嚟喇,中文支援真係好強! 深扒Nano Banana 2超多趣味玩法,速度快仲要效果好!

2月26日至27日,崑崙萬維SkyReels-V4先後發佈技術報告並以Preview版本亮相榜單,曾經喺權威榜單上衝到全球第二(文生視頻無音頻)。統一多模態視頻-音頻生成、inpainting(局部重繪)同編輯;支援文本、圖像、視頻、mask、音頻參考;最高1080p、32fps、15秒;視頻同音頻雙流MMDiT。呢個係一個深耕AI短劇嘅模型。

3月份

image\.png

3月5日,Lightricks發佈LTX-2.3,開源音視頻生成模型,強化細節、音頻、直屏同圖生視頻,並推出可以本地運行嘅LTX Desktop。開源視頻模型開始捲本地生產喇。3月17日,Midjourney開放V8 Alpha社區測試,Midjourney V8 Alpha相比V7,指令跟隨能力更強、對複雜prompt嘅細節還原更精準;畫面一致性同細節密度均有提升,文本渲染質量顯著改善。生成速度約為V7嘅5倍。兼容V7嘅個性化(personalization)、情緒板(moodboards)同風格參考(srefs),新增咗 --hd 原生2K輸出同 --q 4 高質量模式。雖然由V5.1之後Midjourney嘅進步普通人已經幾乎睇唔出太大差異,但整體仲係有提升,靚都依然靚,但都只係靚啫。

淨係贏在審美嘅模型,護城河可能正喺度從產品能力退化為社區慣性。當時我都係整唔出活,做咗Midjourney V8 Alpha同Nano Banana 2圖片模型嘅對比,按各自擅長領域嚟講,呢個就好似彈牀同跳水運動員對比身體控制能力,冇乜可比性,睇嚇各自嘅圖片效果就得 👉 Midjourney V8 Alpha對比Banana 2,多風格測評嚟喇。

3月23日,Luma AI團隊公開發佈Uni-1,官方定位為Unified Intelligence家族第一代圖像模型;官方頁面話佢係“可以生成像素嘅多模態推理模型”。統一理解、推理同圖像生成;支援Create(創建)、Modify(修改)雙模式;最多9張參考圖;支援seed復現、角色一致性、多參考架構、迭代修改。文字細節同seed復現呢個小功能唔錯。

3月26日,騰訊混元團隊發佈OmniWeaving(又叫HY-OmniWeaving)技術報告,4月3日開源咗代碼同模型權重。支援用文字、圖片、參考素材一鍵生成視頻,可以幫視頻、首尾幀畫面、關鍵幀做編輯同續寫,各種玩法自由混搭;仲增加咗可以推理嘅大模型改善提示詞(等會推理嘅大模型理解意圖然後指揮生成視頻)同自由組合。對於ComfyUI社區嚟講,佢係開源視頻模型向“推理 + 多任務統一”推進嘅節點。開源模型,拼可拆解、可組合、可自部署就得啦,呢啲係閉源模型做唔到嘅。

3月30日,PixVerse官方發佈V6(國內產品拍我AI)模型。提升咗鏡頭執行力、角色表演能力,支援多鏡頭音視頻一齊生成,至此又一個視頻模型支援自帶原生音頻,面向創意創作、商業拍攝同智能體工作流。國內佔有率唔係太清楚,但喺海外佢哋一直都幾受歡迎,有趣模板多、生成速度快,多鏡頭等功能都好易上手。“面向智能體工作流”我哋結合返嗰個時間節點去睇,OpenClaw興起,PixVerse都係快速錨定咗用智能體調用佢嘅羣體做咗CLI。

4月份

image\.png

4月1日,阿里發佈Wan2.7-Image,呢個圖片模型喺萬相可以體驗,繼續朝專業設計同生產力方向發力,除咗廣大圖片模型都會捲嘅圖片編輯、複雜意圖理解同信息圖、高清4K畫質、超長文本渲染支援之外,佢加入咗一啲新嘅創意,多語言多組圖、調色盤控制生成圖色彩配比、支援通過提示詞細節達到捏臉效果“千人千面”、支援Alpha通道、支援最大長寬比1:8。之前Nano Banana 2最高都支援1:8嘅長比例,但係喺漢字嘅穩定性方面,Wan2.7-Image係有優勢嘅。調色盤、Alpha通道、超長比例,都係設計師嘅痛點。有興趣可以睇呢篇 👉 阿里發佈Wan2.7-Image,解決咗AI出圖最令人抓狂嘅問題。

4月3日,阿里發佈Wan2.7-Video系列,涵蓋文生視頻、圖生視頻、參考生視頻同視頻編輯四大模型,覆蓋由零創作到精細編輯嘅完整鏈路。全系列支援720P/1080P,時長2-15秒任意指定;一句話就可以對視頻做局部或整體修改,角色台詞可以替換並自動匹配口型同音色;最多支援5個視頻主體參考,係當時業內最多。

4月13日,生數科技發佈Vidu Q3參考生視頻(Reference-to-Video),定位為面向故事驅動創作嘅參考生視頻能力;官方頁面顯示Reference to Video支援上傳1-7張參考圖,用嚟保持角色、物體同場景一致。有興趣可以睇睇呢篇 👉 為劇而生!Vidu Q3參考生視頻實測嚟喇。

4月14日,Midjourney發佈V8.1 Alpha,作為V8後續版本。相比V8,保持咗V7式大家熟悉嘅審美;情緒板(Moodboards)同風格引用(srefs)更穩定;高清HD模式比V8快3倍、平3倍;標準分辨率快50%、平25%;支援圖像提示詞(Image Prompts)同圖像權重(image weights);新增提示詞精簡器(Prompt Shortener)同更新版Describe。講咁多,整體嚟講,個人感覺V8.1同V8喺畫面細節方面差別唔大。

4月15日,百度開源咗ERNIE-Image。8B參數嘅DiT架構,一條流水線行到尾,自帶輕量提示詞增強器,唔使自己死諗prompt。支援海報、漫畫、多格分鏡。仲有Turbo模式砍咗多餘步驟,出圖更快,Apache-2.0協議。主打開源小參數 + 中文文字信息圖 + 24GB顯卡都行到。但始終係細模型,整體質量冇得要求太高,可以用工作流輔助同後期優化。8B + Apache-2.0 + 消費級顯卡行到,圖片生成呢個能力嘅邊際成本打落嚟喇。

4月21日,OpenAI官方發佈ChatGPT Images 2.0,圖片模型王冠易主。前面呢句係我嘅個人睇法,雖然喺某啲方向佢仲有缺點,但總體確實極為能打。設計師又被各路專家問候番一輪職業規劃,真係悲喜交加。ChatGPT Images 2.0支援更強文本渲染、多語言、複雜指令、真實世界知識、編輯能力、信息圖、海報、漫畫、多圖一致性;並且強調“思考後生成”;喺設計同信息圖方面再次遙遙領先。有興趣可以睇呢篇 👉 GPT Image 2再登生圖SOTA王座,文生圖超全測評嚟喇。

ChatGPT Images 2.0仲有一個殺手鐧喺入口上。佢生喺全球用戶量最大嘅AI對話產品入面,此外Codex入面都內置咗。用戶唔需要多學任何嘢、唔需要遷移到任何新平台。對其他圖片模型嚟講,競爭維度都唔同,你淨係捲模型,人哋仲可以捲分發。呢個亦係點解我後面話圖片模型唔會簡單贏者通吃,但入口級模型同管線級模型各有勝算嘅原因。

4月26日,OpenAI正式停用Sora Web同App體驗,淨係保留API過渡接入,其API亦將會喺9月24日停用。仲記得Sora初現帶俾我哋嘅震撼同衝擊,冇想到時代嘅眼淚都嚟得咁猝不及防。相反,一個月後Google將Gemini Omni鋪滿Gemini App、Flow、YouTube Shorts三條線,呢個點唔算消費端視頻嘅入口之爭呢。

4月27日,阿里團隊HappyHorse 1.0 limited beta部分開放。面向電影級視頻生成,支援文生視頻同首幀圖生視頻。支援最長15秒、720p/1080p、多尺寸輸出。

5月份

image\.png

5月5日,Luma AI發佈Uni-1.1 API,將Uni系列圖像模型開放俾開發者同企業工作流。Luma都走向咗圖像、視頻、agent三層架構嘅綜合性創意平台。5月12日,Krea 2先作為Krea平台入面嘅閉源圖片模型發佈,主打審美同風格控制。喺6月22日,Krea 2開放Raw同Turbo兩個權重版本,但許可證唔係完全開源協議,準確啲講係開放權重模型。呢個模型喺社區評價普遍比較高。

5月19日至20日,Google I/O 2026大會上,Google正式發佈Gemini Omni,首發版本為Gemini Omni Flash。“由任意輸入創造任意內容,從視頻開始”;Google自己俾嘅比喻更直接:“就好似Nano Banana,但係俾視頻用嘅”。支援文字、圖片、音頻、視頻任意組合輸入,核心賣點係對話式視頻編輯。每一句指令疊喺上一句上,角色一致性、物理邏輯都保持到。啱啱到國內時反響有啲平淡,畢竟Seedance 2.0珠玉在前,大家腎上腺素都快被掏空。最近佢火咗一波,我哋可能刷到過嘅視頻局部修改,或者帶有自己人物嘅紙片拼貼片頭動畫,可能係發現佢嘅人物一致性和局部修改能力真係強,玩法就好多喇。

呢條我講多兩句。首先,由純生成畫質睇,當時嘅獨立評測普遍認為Seedance 2.0仍然領先,而Omni嘅重點好清楚,就係將“來回對話可唔可以改”做好。加上佢一口氣鋪滿三條分發線,呢個同ChatGPT Images 2.0係同一個玩法,捲入口。另外,Google喺發佈會上明確表示“修改視頻入麪人物講嘢嘅內容”呢個功能暫時唔做,想用自己嘅臉做數字分身,要先錄一段讀隨機數字嘅視頻做防偽。呢條紅線係廠商主動畫嘅。對照2月Seedance被動捲入版權爭議,可以清楚見到半年之內,合規都已經變成咗產品設計嘅一部分。

5月21日,Runway都喺視頻編輯能力上發力,發佈Aleph 2.0同Edit Studio。Runway Aleph 2.0(官方說明係旗艦in-context video editing model嘅升級)編輯單幀就可以將修改擴散至整段視頻,未要求改動嘅內容保持原樣;支援最長30秒、1080p素材同多鏡頭連續片段。適合改衫、場景、綠幕、空鏡底板(將畫面入面嘅人物、道具等前景元素拎走,淨係留低乾淨嘅背景)同局部替換。但係可控性仲有相當大嘅提升空間,複雜長片穩定性都唔太得,成本都高。捲生成Runway勝算唔明朗,修改已有素材都可能有更大潛力嘅市場,畢竟世界上已拍攝嘅視頻遠多過要生成嘅視頻。

6月份

image\.png

6月3日,Ideogram 4.0圖片模型開源。與其話係圖片模型不如話佢係設計模型,設計圖生成能力真係唔錯。9.3B參數單流DiT架構,開放權重、支援商業許可。核心發力方向明確,面向設計生產場景,強化文字渲染、層級化生成、結構化JSON prompt控制,支援2K輸出同品牌設計工作流。可以同Qwen-Image-2.0、ERNIE-Image、FLUX等一齊擺喺文字同設計圖像模型入面較量。JSON prompt控制呢個都好,模型嘅輸入由自然語言變成結構化數據。不過審美比較西化,可能唔係咁符合國內主流審美。

6月11日,Midjourney將默認模型由V7更新為V8.1。

6月17日,美圖官宣咗MiracleVision V6,呢個同樣係一個基於MoE架構嘅基座模型,支援文本、圖片、視頻、音頻等多模態輸入;強調視覺決策能力、生成質量同一致性,並支撐美圖產品內大量生成請求。美圖好似隱隱摸索出咗另一條路:有穩定場景同真實用戶做後盾嘅公司,自研模型亦有出路。

6月23日,阿里雲發佈HappyHorse 1.1,強調運動表現、一致性、視覺質量提升,面向專業創作者,覆蓋文生視頻、圖生視頻同視頻編輯。HappyHorse-1.1-I2V喺視覺質量、動態表現同跨片段一致性上均有明顯改進。

6月23日,Seedance 2.0原生4K分辨率上線火山引擎。對創作者嚟講,呢個係AI視頻邁向廣告級同專業交付嘅又一個關鍵節點。4K貴係一定嘅,唔係賺錢嘅項目建議就唔好用呢個分辨率喇。4K嘅意義重點在於可交付,畢竟廣告同品牌客戶嘅驗收標準入面,畫質細節係硬門檻,過唔到呢條線,前面所有嘅電影感都只係demo。(FORCE大會一手消息,我喺現場(*^▽^*))

6月30日,Google發佈Nano Banana 2 Lite,並將Gemini Omni Flash開放俾開發者。官方話Nano Banana 2 Lite係Gemini Image家族入面最快、成本最低嘅圖像模型,適合高吞吐、低延遲、批量創意草圖;Gemini Omni Flash就用嚟做視頻生成同對話式編輯,可以由文本、圖像、視頻輸入生成或編輯視頻。Google大半年內嘅圖片產品序列係 Pro → 2 → 2 Lite,一路向下鋪,視頻就係C端先鋪滿、再開API。

Google:可能我唔係最強,但用戶想要咩檔位我都有,我仲有深淵巨入口,我點輸?

贏曬,贏曬。

補充說明

睇完上面嘅記錄之後,大家可能會覺得,點解有啲自己成日用或者熟悉嘅模型冇出現喺上面嘅時間軸入面?呢個有可能係因為佢哋嘅發佈時間唔喺今年上半年嘅區間內。

例如以下呢啲模型:

MiniMax嘅Hailuo 2.3視頻模型,發佈於2025年10月,至今仍然被好多創作者用嚟製作複雜動作同微表情,動漫風格效果都唔錯,性價比好高。

美團嘅LongCat模型,發佈於2025年12月,呢個係一個開源嘅中英雙語圖像模型,強調文本渲染、生成同編輯。

阿里嘅Qwen-Image-Layered(拆圖層)同Qwen-Image-Edit(圖像編輯)發佈於2025年12月,目前依然喺ComfyUI、ModelScope、Hugging Face等工作流入面被頻繁使用,分層編輯同文字編輯都唔錯。

順便講一句,模型可以“長壽”都睇得出,如果能夠喺工作流入面站穩陣腳,模型嘅生命週期會遠遠長過熱搜週期。

Midjourney V1 Video視頻模型,已經係舊年6月份發佈嘅產品喇。唔知今年Midjourney會唔會再發佈新嘅視頻模型。

最後,再補一個懸念,6月FORCE大會上火山引擎已經預告咗Seedance 2.5視頻模型同Seedream 5.0 Pro圖片模型。

Seedance 2.5視頻模型,直指“多素材導演工作流”,主打最長30秒單段原生視頻、最多可以50個全模態素材聯合生成、一致性局部編輯。預告仲見到佢會先生成3D白模再生成。期待可以早日體驗。

Seedream 5.0 Pro,將會主打交互式嘅精準編輯、而且可以多圖層分離,亦都可以生成高密度信息圖喇,可以原生生成多語種文字,仲可以直出可編輯分層設計圖。相信呢啲對於設計方面嘅朋友會非常有用,因為佢而家已經由單純嘅圖片輸出向住可編輯嘅設計稿同信息圖靠近喇。

7月真係值得期待喎。

下半年會點?

可以見到,2026年上半年圖片同視頻模型,唔再係單點生成能力嘅競爭,更加多係向生產系統遷移,進入真實創作流程。圖片模型由審美生成走向資產生產,視頻模型由短片demo走向可控鏡頭,兩者開始喺同一條生產鏈路入面合流。

分開討論圖片同視頻模型之前,先講一個貫穿兩邊嘅觀察。回顧上半年嘅發佈詞,出現頻率最高嘅關鍵詞已經由“更強”換成咗“更快、更平”:Ray 3.14快4倍平3倍,Nano Banana 2主打唔肉赤,V8.1快3倍平3倍,Nano Banana 2 Lite乾脆定位相對成本最低。一個行業集體由捲質量轉向捲成本,通常意味住呢一代技術嘅S曲線正喺度進入平台期 ——(人工輸入破折號備註)質量嘅邊際提升越來越貴,競爭逐步轉移到推理經濟學上喇。

由審美生成到視覺資產

📎 附件文件/從模型到工作流:2026 上半年圖片與視頻模型盤點。/img_20260704_155158_hycd.png

圖片模型嘅發展到瓶頸未?點會,仲有好多方向可以捲㗎。

圖片模型嘅下一步,可能係更高清晰度嘅畫質、更有辨識度嘅人像、更強嘅世界知識物理理解、更出色嘅審美、更精確嘅文字細節、更多元嘅風格、更優秀嘅設計等等。

不過,有一點都比較明顯。上半年幾乎所有圖片模型都喺度捲“文字渲染”,由GLM-Image到Qwen-Image-2.0到ERNIE-Image到Ideogram 4.0到ChatGPT Images 2.0,冇一個例外。點解大家不約而同睇住呢個睇落好細嘅能力?因為文字渲染係“可控性”最顯示嘅表現,評判好唔好比審美客觀。一個模型可唔可以將圖片中嘅漢字一筆不差咁寫啱,直接反映咗佢對像素嘅控制精度去到咩程度。文字係唯一一種“差一點就係錯”嘅圖像內容。畫面靚唔靚好唔好可以見仁見智,字寫錯咗就係寫錯。邊個最先將文字徹底做穩,邊個就向所有B端客戶證明咗:我嘅輸出可以驗收㗎!

用戶:鍾意咗。

如果真係出現六邊形模型,會唔會走向贏者通吃嘅局面?

我嘅個人觀點,圖片模型下一階段唔會簡單贏者通吃。強通用模型會繼續佔據高質量入口,但低價高速模型、垂直商業模型、文字設計模型等都會繼續存在。真實生產入面,人們要嘅唔只係一張最好睇嘅圖,平、快、可控、可編輯、能交付等等都係重要考慮因素。

更具體啲,我認為格局可能會分成三層:入口層(生喺超級應用入面嘅模型,贏在分發唔贏在參數)、管線層(俾人寫入工作流同API嘅模型,贏在穩定同可控)、廉價層(將邊際成本打到地板嘅模型,量大管飽死咁用都唔肉赤)。三層嘅贏家可以係唔同公司,甚至同一條生產鏈路入面同時用到三層:草圖用廉價層,正稿用管線層,臨時需求掉俾入口層。

由驚豔片段到更可控鏡頭

📎 附件文件/從模型到工作流:2026 上半年圖片與視頻模型盤點。/img_20260704_155223_79ss.png

由今年上半年就可以感覺到,視頻模型都已經進入下一階段,短片Demo不過係基礎操作,主流視頻模型早已開始咗多參考、多鏡頭、原生音頻、更高畫質、參考驅動、視頻編輯精細化同後期等方向嘅進化,逐步走向更長時間、更穩定、更可控、更可交付。

呢度我想將上半年嘅信號做個小結:

第一,輸入方式嘅變化。由Veo嘅Ingredients,到Seedance嘅9圖3視頻3音頻,再到Vidu嘅1-7張參考圖,視頻模型嘅接口正喺度由“文字描述”變成“素材投餵”。創作者可以由“寫prompt”遷移到“備素材、管資產”呢個方向嚟完成視頻生成,而呢個其實係傳統影視製片一直喺度做嘅事。有啲矛盾但又合理嘅係,AI視頻將老工作流嘅方式加入去,又以新嘅方式加速咗創意嘅產出。

第二,合規會影響模型最終呈現俾用戶嘅能力。Seedance 2.0發佈即召回削弱呢件事,俾全行業畫咗一條線:模型越強,IP、肖像、區域監管嘅約束就咬得越緊。下半年,視頻模型會更能打,可以好早喺呢方面揾到最優嘅解決方式,做好版權素材授權、可溯源水印、真人授權體系,呢啲有啲枯燥嘅基礎設施,可能都會成為決定勝負嘅關鍵。

真正使用佢嘅用戶會用佢做啲咩?真實創作進程中,佢可能會卡喺邊度?而卡喺邊度嘅痛點,就係視頻模型下一步進化嘅方向。

Agent:調度與擴寬能力邊界

📎 附件文件/從模型到工作流:2026 上半年圖片與視頻模型盤點。/img_20260704_155359_n0z4.png

模型都成長起咗,可以將Agent當自己嘅中層,等佢調兵遣將,節省我哋自己嘅時間喇。

底層模型越強,Agent先越好用;底層模型唔得嘅時候,Agent只係喺度自動化製造廢片。

Agent最大嘅作用,係透過更好嘅調度嚟放大模型嘅價值。決定作品上限嘅,依然係創作者本身嘅能力、圖片模型嘅審美、文字、編輯能力,以及視頻模型嘅運動、物理、一致性和音畫同步等。呢啲底層能力已經夠強,Agent先可以透過更好嘅調度,將佢哋組織成更高效嘅創意工作流。

但Agent工作模式成為常態可能仲會帶嚟一個後果:當模型嘅調用方係Agent,模型就由產品退化咗做零件。對模型公司嚟講,入咗Agent嘅調度池,調用量會好大;但同時間,你同競品之間只隔住一行設定檔嘅距離,你冇競品好用,用戶忠誠度啪一聲歸零。喺成熟嘅創意Agent平台,模型之間嘅競爭會比而家殘酷得多,亦誠實得多。

小結

唯一唔變嘅,就係變化一直喺度發生。以前我哋更關心模型可唔可以生成一張好睇嘅圖、一段驚豔嘅視頻;而家我哋會越來越關心,佢可唔可以穩定參與真實創作:可唔可以保持角色一致,可唔可以接住多輪任務、複雜修改,可唔可以做首幀同關鍵幀,可唔可以入廣告、短劇、IP角色、信息圖呢啲具體場景入面,最後真係交付出好嘢。

上半年只係一個節點。下半年如果仲有嘅新模型、新工作流同新創作方法,我都會繼續邊用邊記錄。

都歡迎大家喺評論區補充你真正用過、覺得值得留低嘅模型!

最後感謝Codex喺我揾資料同核對信息時做出嘅貢獻。呢期真係好肝呀,朋友仔覺得有收穫請猛力三連 👍🌸🔄 鼓勵一下阿真,非常感謝!

呢一篇相對嚴謹同乏味啲,下期可能係阿真上半年嘅所有Vibe Coding工具盤點,好好玩㗎 o(^▽^)o

下期見(ง•̀_•́)ง

圖片節點 2 \- 副本 \(12\)\.png

嗨大家好!我是阿真!

一轉眼 2026 年已經進入下半年,是時候對上半年進行一些小結了。

今天來好好盤點 2026 年上半年的圖片與視頻模型,伴隨模型更新時間軸出現的,還有我一些當時的測試文章。也算是對不怎麼努力也沒什麼收穫的上半年做個總結匯報了。

疊甲:我的觀點只是我的觀點,完全不權威,有看法的都是個人看法,大家想反對就直接反對。我這裏不存在反感或者痛罵某個模型的情況,大部分時候比較理性。同時,我也可能會對有的模型的真正價值理解不夠透徹,還有可能漏掉一些滄海遺珠,大家可以評論區補充或者積極留言。

以及,這篇文章以模型為主線,如果有朋友好奇為什麼沒有即夢或其他的話,即夢屬於產品,我肯定會提到即夢這個產品它使用的模型;模型繞不開它所在的產品時,我也會順帶聊到產品,但不做單獨的產品測評。

上半年發佈了什麼?

問起這個問題的時候,你的腦海裏出現了哪些圖片和視頻模型?

Nano Banana Pro,GPT Image 2,Seedance 2.0?

實際上 Nano Banana Pro 已經是 2025 年 11 月 20 日發佈的模型了,今年 2 月發佈的是 Nano Banana 2,是谷歌的另一個相對更便宜的圖片模型。

而上面提到的幾個圖片模型和視頻模型,算是我們公認的今年上半年好評最多的模型了。

但其實上半年還有很多團隊的圖片和視頻模型發佈,並且它們也都有各自的亮點。大家也可以看看,哪些模型是你體驗過的?下半年,大家會看好哪些模型呢?

1月份

image\.png

1月9日,Midjourney Niji 7 發佈。相比於上一代,它的細節更加清晰,比如眼睛反光以及背景的小元素都更加細緻。並且,它也擁有更好的動漫一致性、Prompt 理解能力、風格遷移的表現,可以說是審美與風格專用模型細分品類中的 TOP。不過,雖然官方表示優化了文字渲染能力,但說實話,這方面做了約等於白做,競爭力不大。不過換個角度想,守住一個單點,可能也是一種清晰的定位。詳情可看 👉超全Niji V7多場景實測,Midjourney這位前頂流又仰卧起坐了。

1月13日,谷歌升級 Veo 3.1 Ingredients to Video,可用參考圖控制角色、背景、物體和紋理;強化角色身份一致性、背景與物體一致性;支持原生豎屏輸出,並可在 Flow、Gemini API 和 Vertex AI 中升採樣到 1080p 或 4K。這個在海外的呼聲不錯,為廣告和產品、電商以及角色連續短片領域帶來了更多的可能性。“Ingredients(食材 / 成分 / 配料)”這個命名也很有意思,也算是預告了全年視頻模型交互方式的走向,包括後面 Seedance 2.0 的多參考輸入,也是在這個方向大大加強了。

1月14日,智譜發佈了 GLM-Image,開源圖片模型、工業級、支持較好的文字渲染。16B 架構,其中 9B 自迴歸 + 7B diffusion;最高支持 2048px;強調文字渲染、語義對齊、圖生圖。自迴歸 + 擴散的混合架構,抓的是語義理解加像素質量。

1月26日,Luma AI 發佈 Ray 3.14,支持原生 1080p。官方對比比 Ray 3.0 快 4 倍、便宜 3 倍;提升視頻穩定性和 Modify Video 運動一致性。Luma AI 的產品我體驗過多次,2.0 我是充值力證自己冤大頭,但 3.14 的視頻修改編輯還是不錯的。

同一天騰訊混元發佈了 HunyuanImage-3.0-Instruct-Distil,開源圖片模型。Instruct 支持推理式提示詞增強和圖生圖創意編輯,Distil 面向更高效部署,官方推薦 8 步採樣。Distil 確實是試圖降低了採樣步數和部署門檻,但是模型重、顯存門檻也高,哪怕量化也是大塊頭,差不多就是 4090 用戶咬咬牙可以用的程度。開源模型就是這樣,權重開放是一回事,部署成本才是決定因素。

1月30日,生數科技在 Global Creativity Week 期間發佈 Vidu Q3 視頻模型。支持原生音頻與視頻同生,視頻最長時間達到 16 秒,可生成對話、旁白、音效、音樂,強調鏡頭控制和敍事連續性。這套配置放在短劇、動畫、漫畫改編上,性價比是很高的,不過最長 16 秒還是不容易。原生音頻,上半年也是在視頻模型能力角逐中逐步從差異化變成了入場券。

2月份

image\.png

2月5日,快手的 Kling AI 3.0 模型系列上線,圖片和視頻模型一起上線。“人人都能當導演”是它的核心宣傳點,圖片模型開始支持 2K、4K 和專業資產。視頻模型也進一步提升了敍事控制和一致性,支持多鏡頭與原生音頻。這是國內視頻模型產品化的種子選手了。

2月10日,阿里的 Qwen-Image-2.0 模型發佈。回頭看 Qwen 到這時候竟然才 2.0。2.0 支持統一高保真生成與精準圖像編輯,支持最長 1K token(國產模型約 600-900 漢字)指令;面向 PPT、海報、信息圖、漫畫等文本密集內容;原生高分辨率和多語言文字表現增強。這篇第一時間沒寫,過完年在千問 APP 做了測試,文字和編輯效果都還不錯的。雖然好像網絡呼聲沒有很大,但已早早進入了各類工作流場景,比如ComfyUI 和企業管線裏。測試效果可以看這篇👉Qwen-Image-2.0

2月12日,大家都認可的允許使用炸裂形容的模型面世,字節跳動 Seed 團隊正式發佈新一代視頻創作模型 Seedance 2.0。一開始以為吹的,後面發現它竟有些謙虛了。Seedance 2.0 實現了統一多模態音視頻聯合生成架構,支持文字、圖片、音頻、視頻四類輸入,可參考最多 9 張圖、3 段視頻、3 段音頻,生成最長 15 秒多鏡頭音視頻輸出。在動作、物理、電影語言以及多鏡頭方面都非常讓人驚喜,但是一上線就在版權、IP、區域可用性以及真實人物方面都引起爭議和大量討論。下一個這麼牛轟轟的模型好像還是 Anthropic 的 Claude Mythos 5。

當模型強到可以逼真復現任何 IP、任何真人的時候,比能不能生成來得更快的,是敢不敢放出來了。紙面能力減去合規削弱的成品,才是我們真正能用的東西。這是當時阿真參與首輪內測的輸出視頻分享👉被 Seedance 2.0 的強者光芒亮得睡不着覺了。

2月13日,字節跳動 Seed 團隊推出 Seedream 5.0 Lite 智能圖像創作模型。這個圖片模型強調“deeper thinking, more accurate generation(更深度思考,更精確生成)”。提升理解、推理、生成,實時搜索增強,更強信息可視化、風格遷移、模糊指令編輯、多主體複雜關係。在實時熱點海報、資料圖、信息圖方向都有進步,但是細節、真實感上也都有進步空間。大家用完表示不如前一版本的觀點也存在,這個版本存在感好像確實不算高,但是進步還是有的,期待更穩定版的 5.0。“推理換畫質”似乎是今年圖片模型的普遍取捨。模型花更多算力去想清楚你要什麼,代價可能是像素層面的細節退步。這個蹺蹺板什麼時候能兩頭都翹起來,那就是真的成了。

2月26日,谷歌官方發佈 Nano Banana 2,也是一個大家期待的模型,畢竟前有 Nano Banana Pro 站在圖片模型巔峯將近 3 個月,大家對 2 期待也很高。Nano Banana 2 定位為“Pro 能力 + Flash 速度”;強調高級世界知識、production-ready specs(能正經上生產環境用的配置)、主體一致性、快速生成。總的來說 Nano Banana 2 和 Pro 相比最大的優勢在於更快更便宜,大家用起來不至於肉痛,從質量和細節來說個人感覺並沒有超越 Nano Banana Pro。至於為什麼巔峯三個月了再發個好像還不如之前的版本,除了更便宜更快,可能也是它自己預判這一代技術的質量紅利它已經吃得差不多了。這個我測了 2 篇,請看👉NanoBanana 2來了,中文支持真的很強! 深扒 Nano Banana 2 超多趣味玩法,速度快還要效果好!

2月26日至27日,崑崙萬維 SkyReels-V4 先後發佈技術報告並以 Preview 版本亮相榜單,曾在權威榜單上衝到全球第二(文生視頻無音頻)。統一多模態視頻-音頻生成、inpainting(局部重繪) 和編輯;支持文本、圖像、視頻、mask、音頻參考;最高 1080p、32fps、15 秒;視頻和音頻雙流 MMDiT。這是一個深耕 AI 短劇的模型。

3月份

image\.png

3月5日,Lightricks 發佈 LTX-2.3,開源音視頻生成模型,強化細節、音頻、豎屏和圖生視頻,並推出可本地運行的 LTX Desktop。開源視頻模型開始卷本地生產了。3月17日,Midjourney 開放 V8 Alpha 社區測試,Midjourney V8 Alpha 相比 V7,指令跟隨能力更強、對複雜 prompt 的細節還原更精準;畫面一致性和細節密度均有提升,文本渲染質量顯著改善。生成速度約為 V7 的 5 倍。兼容 V7 的個性化(personalization)、情緒板(moodboards)和風格參考(srefs),新增了 --hd 原生 2K 輸出與 --q 4 高質量模式。雖然從 V5.1 以後 Midjourney 的進步普通人已經幾乎看不出太大差異,但是整體還是有提升,好看也依然好看,但也僅僅是好看了。

只贏在審美的模型,護城河可能正在從產品能力退化為社區慣性。當時我也是整不出活了,做了 Midjourney V8 Alpha 和 Nano Banana 2 圖片模型的對比,按各自擅長領域來說,這就像是蹦牀和跳水運動員對比身體控制能力,沒什麼可比性,看看各自的圖片效果就好了👉 Midjourney V8 Alpha 對比 Banana 2,多風格測評來嘍。

3月23日,Luma AI 團隊公開發布 Uni-1,官方定位為 Unified Intelligence 家族第一代圖像模型;官方頁面稱其是“能生成像素的多模態推理模型”。統一理解、推理和圖像生成;支持 Create(創建)、Modify(修改) 雙模式;最多 9 張參考圖;支持 seed 復現、角色一致性、多參考架構、迭代修改。文字細節和 seed 復現這個小功能不錯。

3月26日,騰訊混元團隊發佈 OmniWeaving(又稱 HY-OmniWeaving)技術報告,4月3日開源了代碼和模型權重。支持用文字、圖片、參考素材一鍵生成視頻,能給視頻、首尾幀畫面、關鍵幀做編輯和續寫,各種玩法自由混搭;還增加了可推理的大模型改善提示詞(讓會推理的大模型理解意圖然後指揮生成視頻)和自由組合。對於 ComfyUI 社區而言,它是開源視頻模型向“推理 + 多任務統一”推進的節點。開源模型,拼可拆解、可組合、可自部署就好了,這是閉源模型實現不了的。

3月30日,PixVerse 官方發佈 V6(國內產品拍我AI)模型。提升了鏡頭執行力、角色表演能力,支持多鏡頭音視頻一起生成、至此又一視頻模型支持自帶原生音頻,面向創意創作、商業拍攝和智能體工作流。國內佔有率不是太清楚,但在海外他們一直是比較受歡迎的,有趣模板多、生成速度快,多鏡頭等功能也好上手。“面向智能體工作流”我們結合那個時間節點去看,OpenClaw 興起,PixVerse 也是快速錨定了用智能體調用它的羣體做了 CLI。

4月份

image\.png

4月1日,阿里發佈 Wan2.7-Image,這個圖片模型在萬相可以體驗,繼續朝專業設計與生產力方向發力,除了廣大圖片模型都會卷的圖片編輯、複雜意圖理解和信息圖、高清 4K 畫質、超長文本渲染支持以外,它加入了一些新的創意,多語言多組圖、調色盤控制生成圖色彩配比、支持通過提示詞細節達到捏臉效果“千人千面”、支持 Alpha 通道、支持最大長寬比 1:8。之前 Nano Banana 2 最高也支持 1:8 的長比例,但是在漢字的穩定性方面,Wan2.7-Image 是有優勢的。調色盤、Alpha 通道、超長比例,都是設計師的痛點。感興趣可以看這篇👉 阿里發佈 Wan2.7-Image,解決了AI出圖最讓人抓狂的問題。

4月3日,阿里發佈 Wan2.7-Video 系列,涵蓋文生視頻、圖生視頻、參考生視頻和視頻編輯四大模型,覆蓋從零創作到精細編輯的完整鏈路。全系支持 720P/1080P,時長 2-15 秒任意指定;一句話即可對視頻做局部或整體修改,角色台詞可替換並自動匹配口型與音色;最多支持 5 個視頻主體參考,為當時業內最多。

4月13日,生數科技發佈 Vidu Q3 參考生視頻(Reference-to-Video),定位為面向故事驅動創作的參考生視頻能力;官方頁面顯示 Reference to Video 支持上傳 1-7 張參考圖,用於保持角色、物體和場景一致。感興趣可以看看這篇👉 為劇而生!Vidu Q3參考生視頻實測來了。

4月14日,Midjourney 發佈 V8.1 Alpha,作為 V8 後續版本。相比 V8,保持了 V7 式大家熟悉的審美;情緒板(Moodboards)和風格引用(srefs)更穩定;高清 HD 模式比 V8 快 3 倍、便宜 3 倍;標準分辨率快 50%、便宜 25%;支持圖像提示詞(Image Prompts)和圖像權重(image weights),新增提示詞精簡器(Prompt Shortener)和更新版 Describe。嘰裏咕嚕這麼多,整體來說,個人感覺 V8.1 和 V8 在畫面細節來說差別不大。

4月15日,百度開源了 ERNIE-Image。8B 參數的 DiT 架構,一條流水線跑到底,自帶輕量提示詞增強器,不用自己狠憋 prompt。支持海報、漫畫、多格分鏡。還有 Turbo 模式砍掉了多餘步驟,出圖更快,Apache-2.0 協議。主打開源小參數 + 中文文字信息圖 + 24GB 顯卡都能跑。但畢竟小模型,整體質量也沒法要求太高,可以工作流輔助和後期優化。8B + Apache-2.0 + 消費級顯卡能跑,圖片生成這個能力的邊際成本打下來了。

4月21日,OpenAI 官方發佈 ChatGPT Images 2.0,圖片模型王冠易主。前面這句是我的個人看法,雖然在有的方向它還有缺點,但總體確實極為能打了。設計師又被各路專家問候了一番職業規劃,真是悲喜交加。ChatGPT Images 2.0 支持更強文本渲染、多語言、複雜指令、真實世界知識、編輯能力、信息圖、海報、漫畫、多圖一致性;並且強調“思考後生成”;在設計與信息圖方面再次遙遙領先。感興趣可以看看這篇👉 GPT Image 2再登生圖SOTA王座,文生圖超全測評來了。

ChatGPT Images 2.0 還有一個殺手鐧在入口上。它長在全球用戶量最大的 AI 對話產品裏,此外 Codex 裏也內置了。用戶不需要多學任何東西、不需要遷移到任何新平台。對其他圖片模型來說,競爭維度都不一樣,你光卷模型,人家還可以卷分發。這也是為什麼我後面說圖片模型不會簡單贏者通吃,但入口級模型和管線級模型各有勝算的原因。

4月26日,OpenAI 正式停用 Sora Web 和 App 體驗,僅保留 API 過渡接入,其 API 也將在 9 月 24 日停用。還記得 Sora 初現帶給我們的震撼與衝擊,沒想到時代的眼淚也來得這麼猝不及防。與之相反,一個月後谷歌把 Gemini Omni 鋪滿 Gemini App、Flow、YouTube Shorts 三條線,這怎麼不算消費端視頻的入口之爭呢。

4月27日,阿里團隊 HappyHorse 1.0 limited beta 部分開放。面向電影級視頻生成,支持文生視頻與首幀圖生視頻。支持最長 15 秒、720p/1080p、多尺寸輸出。

5月份

image\.png

5月5日,Luma AI 發佈 Uni-1.1 API,把 Uni 系列圖像模型開放給開發者和企業工作流。Luma 也走向了圖像、視頻、agent 三層架構的綜合性創意平台。5月12日,Krea 2 先作為 Krea 平台裏的閉源圖片模型發佈,主打審美和風格控制。在6月22日,Krea 2 開放 Raw 和 Turbo 兩個權重版本,但許可證不是完全開源協議,準確說是開放權重模型。這個模型在社區評價普遍比較高。

5月19日至20日,Google I/O 2026 大會上,谷歌正式發佈 Gemini Omni,首發版本為 Gemini Omni Flash。“從任意輸入創造任意內容,從視頻開始”;谷歌自己給的比喻更直白:“就像 Nano Banana,但是給視頻用的”。支持文字、圖片、音頻、視頻任意組合輸入,核心賣點是對話式視頻編輯。每一句指令疊在上一句上,角色一致性、物理邏輯都能保持。剛到國內時反響有些平平,畢竟 Seedance 2.0 珠玉在前,大家腎上腺素都快被掏空了。最近它火了一波,我們可能刷到過的視頻局部修改,或者帶有自己人物的紙片拼貼片頭動畫,可能是發現它的人物一致性和局部修改能力真的強,玩法就很多了。

這條我多說兩句。首先,從純生成畫質看,當時的獨立評測普遍認為 Seedance 2.0 仍然領先,而 Omni 的重點很清楚,就是把“來回對話能不能改”做好。加上它一口氣鋪滿三條分發線,這和 ChatGPT Images 2.0 是同一個玩法,捲入口。另外,谷歌在發佈會上明確表示“修改視頻里人物說話內容”這個功能暫時不做,想用自己的臉做數字分身,得先錄一段念隨機數字的視頻做防偽。這條紅線是廠商主動畫的。對照 2 月 Seedance 被動捲入版權爭議,能清楚看到半年之內,合規,也已經變成了產品設計的一部分。

5月21日,Runway 也在視頻編輯能力上發力,發佈 Aleph 2.0 和 Edit Studio。Runway Aleph 2.0(官方說明是旗艦 in-context video editing model 的升級)編輯單幀即可將修改擴散至整段視頻,未要求改動的內容保持原樣;支持最長 30 秒、1080p 素材與多鏡頭連續片段。適合改服裝、場景、綠幕、空鏡底板(把畫面裏的人物、道具等前景元素去掉,只留下乾淨的背景)和局部替換。但是可控性還相當有待提升,複雜長片穩定性也不太行,成本也高。卷生成 Runway 勝算不明朗,修改已有素材也可能是更有潛力的市場,畢竟世界上已拍攝的視頻遠多於要生成的視頻。

6月份

image\.png

6月3日,Ideogram 4.0 圖片模型開源。與其說圖片模型不如說它是設計模型,設計圖生成能力是真不錯。9.3B 參數單流 DiT 架構,開放權重、支持商業許可。核心發力方向明確,面向設計生產場景,強化文字渲染、層級化生成、結構化 JSON prompt 控制,支持 2K 輸出與品牌設計工作流。可以和 Qwen-Image-2.0、ERNIE-Image、FLUX 等一起放在文字與設計圖像模型裏掰手腕。JSON prompt 控制這個也很好,模型的輸入從自然語言變成結構化數據。不過審美更西化,可能不那麼符合國內主流審美。

6月11日,Midjourney 將默認模型從 V7 更新為 V8.1。

6月17日,美圖官宣了 MiracleVision V6,這同樣是一款基於 MoE 架構的基座模型,支持文本、圖片、視頻、音頻等多模態輸入;強調視覺決策能力、生成質量與一致性,並支撐美圖產品內大量生成請求。美圖好像隱隱摸索出了另一條路:有穩定場景和真實用戶作為後盾的公司,自研模型亦有出路。

6月23日,阿里雲發佈 HappyHorse 1.1,強調運動表現、一致性、視覺質量提升,面向專業創作者,覆蓋文生視頻、圖生視頻與視頻編輯。HappyHorse-1.1-I2V 在視覺質量、動態表現和跨片段一致性上均有明顯改進。

6月23日,Seedance 2.0 原生 4K 分辨率上線火山引擎。於創作者而言,這是 AI 視頻邁向廣告級與專業交付的又一個關鍵節點。4K 貴是一定的,不是賺錢的項目建議就不要用這個分辨率了。 4K 的意義重點在可交付,畢竟廣告和品牌客戶的驗收標準裏,畫質細節是硬門檻,過不了這條線,前面所有的電影感都只是 demo。(FORCE 大會一手消息,我在現場(*^▽^*))

6月30日,Google 發佈 Nano Banana 2 Lite,並把 Gemini Omni Flash 開放給開發者。官方稱 Nano Banana 2 Lite 是 Gemini Image 家族裏最快、成本最低的圖像模型,適合高吞吐、低延遲、批量創意草圖;Gemini Omni Flash 則用於視頻生成和對話式編輯,可以從文本、圖像、視頻輸入生成或編輯視頻。谷歌大半年內的圖片產品序列是 Pro → 2 → 2 Lite,一路向下鋪,視頻則是 C 端先鋪滿、再開 API 。

谷歌:可能我不是最強,但用戶想要什麼檔位我都有,我還有深淵巨入口,我拿什麼輸?

贏麻了,贏麻了。

補充說明

看完以上的記錄以後,大家可能會覺得,怎麼有些自己常用或者熟悉的模型沒有出現在上面的時間軸中?這有可能是因為它們的發佈時間不在今年上半年的區間內。

比如以下這些模型:

MiniMax 的 Hailuo 2.3 視頻模型,發佈於 2025 年 10 月,至今仍被許多創作者用於製作複雜動作和微表情,動漫風格效果也很不錯,性價比很高。

美團的 LongCat 模型,發佈於 2025 年 12 月,這是一個開源的中英雙語圖像模型,強調文本渲染、生成和編輯。

阿里的 Qwen-Image-Layered(拆圖層)和 Qwen-Image-Edit(圖像編輯)發佈於 2025 年 12 月,目前依然在 ComfyUI、ModelScope、Hugging Face 等工作流中被頻繁使用,分層編輯和文字編輯很不錯。

順便說一句,模型能“長壽”也能看出,如果能在工作流裏站穩腳跟,模型的生命週期會遠遠長於熱搜週期。

Midjourney V1 Video 視頻模型,已經是去年 6 月份發佈的產品了。不知道今年 Midjourney 是否還會發布新的視頻模型。

最後,再補一個懸念, 6 月 FORCE 大會上火山引擎已經預告了 Seedance 2.5 視頻模型和 Seedream 5.0 Pro 圖片模型。

Seedance 2.5 視頻模型,直指“多素材導演工作流”,主打最長30 秒單段原生視頻、最多可以50 個全模態素材聯合生成、一致性局部編輯。預告還看到了它會先生成3D白模再生成。期待能早日體驗。

Seedream 5.0 Pro,將會主打交互式的精準編輯、並且可以多圖層分離,也可以生成高密度信息圖了,可以原生生成多語種文字,還可以直出可編輯分層設計圖。相信這些對於設計方向的朋友會非常有用,因為它現在已經從單純的圖片輸出向着可編輯的設計稿以及信息圖去靠近了。

7 月真是值得期待啊。

下半年會怎樣?

可以看到,2026 年上半年圖片與視頻模型,不再是單點生成能力的競爭,更多的是往生產系統去遷移,進入真實創作流程。圖片模型從審美生成走向資產生產,視頻模型從短片 demo 走向可控鏡頭,二者開始在同一個生產鏈路裏合流。

分開討論圖片與視頻模型之前,先說一個貫穿兩邊的觀察。回看上半年的發佈詞,出現頻率最高的關鍵詞已從“更強”換成了“更快、更便宜”:Ray 3.14 快 4 倍便宜 3 倍,Nano Banana 2 主打不肉痛,V8.1 快 3 倍便宜 3 倍,Nano Banana 2 Lite 乾脆定位相對成本最低。一個行業集體從卷質量轉向捲成本,通常意味着這一代技術的 S 曲線正在進入平台期 ——(人工輸入破折號備註)質量的邊際提升越來越貴,競爭逐步轉移到推理經濟學上了。

從審美生成到視覺資產

📎 附件文件/從模型到工作流:2026 上半年圖片與視頻模型盤點。/img_20260704_155158_hycd.png

圖片模型的發展到瓶頸了嗎?怎麼會,還有很多方向可以卷啊。

圖片模型的下一步,可能是更高清晰度的畫質、更有辨識度的人像、更強的世界知識物理理解、更傑出的審美、更精確的文字細節、更多元的風格、更優秀的設計等等。

不過,有一點也比較明顯。上半年幾乎所有圖片模型都在卷“文字渲染”,從 GLM-Image 到 Qwen-Image-2.0 到 ERNIE-Image 到 Ideogram 4.0 到 ChatGPT Images 2.0,無一例外。為什麼大家不約而同盯着這個看起來很小的能力?因為文字渲染是“可控性”的最顯示錶現,評判好不好比審美客觀。一個模型能不能把圖片中的漢字一筆不差地寫對,直接反映了它對像素的控制精度到了什麼程度。文字是唯一一種“差一點就是錯”的圖像內容。畫面美不美好不好可以見仁見智,字寫錯了就是寫錯了。誰最先把文字徹底做穩,誰就向所有 B 端客戶證明了:我的輸出可驗收哎!

用戶:愛了。

如果真的出現六邊形模型,會走向贏者通吃的局面嗎?

我的個人觀點,圖片模型下一階段不會簡單贏者通吃。強通用模型會繼續佔據高質量入口,但低價高速模型、垂直商業模型、文字設計模型等都會繼續存在。真實生產裏,人們要的不只是一張最好看的圖,便宜、快、可控、可編輯、能交付等等都是重要考慮因素。

更具體一點,我認為格局可能會分成三層:入口層(長在超級應用裏的模型,贏在分發不贏在參數)、管線層(被寫進工作流和 API 的模型,贏在穩定和可控)、廉價層(把邊際成本打到地板的模型,量大管飽使勁蹬也不心疼)。三層的贏家可以是不同的公司,甚至同一條生產鏈路裏同時用到三層:草圖用廉價層,正稿用管線層,臨時需求丟給入口層。

從驚豔片段到更可控鏡頭

📎 附件文件/從模型到工作流:2026 上半年圖片與視頻模型盤點。/img_20260704_155223_79ss.png

從今年上半年就可以感覺到,視頻模型也已經進入下一階段,短片 Demo 不過是基礎操作,主流視頻模型早已開始了多參考、多鏡頭、原生音頻、更高畫質、參考驅動、視頻編輯精細化與後期等方向的進化,逐步走向更長時、更穩、更可控、更可交付。

這裏我想把上半年的信號做個小結:

第一,輸入方式的變化。從 Veo 的 Ingredients,到 Seedance 的 9 圖 3 視頻 3 音頻,再到 Vidu 的 1-7 張參考圖,視頻模型的接口正在從“文字描述”變成“素材投餵”。創作者可以從“寫 prompt”遷移到“備素材、管資產”這個方向來完成視頻生成,而這其實是傳統影視製片一直在做的事。有點矛盾但又合理的是,AI 視頻把老工作流的方式加入進去,又以新的方式加速了創意的產出。

第二,合規會影響模型最終呈現給用戶的能力。Seedance 2.0 發佈即召回削弱這件事,給全行業畫了一條線:模型越強,IP、肖像、區域監管的約束就咬得越緊。下半年,視頻模型會更能打,能早早在這方面找到最優的解決方式,做好版權素材授權、可溯源水印、真人授權體系,這些有點枯燥的基礎設施,可能也將成為決定勝負的關鍵。

真正使用它的用戶會用它做什麼?真實創作進程中,它可能會卡在哪裏?而卡在哪裏的痛點,就是視頻模型下一步進化的方向。

Agent:調度與擴寬能力邊界

📎 附件文件/從模型到工作流:2026 上半年圖片與視頻模型盤點。/img_20260704_155359_n0z4.png

模型都成長起來了,可以把 Agent 當自己的中層,讓它調兵遣將,節省我們自己的時間了。

底層模型越強,Agent 才越好用;底層模型不行的時候,Agent 只是在自動化製造廢片。

Agent 最大的作用,是通過更好的調度來放大模型的價值。決定作品上限的,依然是創作者本身的能力、圖片模型的審美、文字、編輯能力,以及視頻模型的運動、物理、一致性和音畫同步等。這些底層能力已經足夠強,Agent 才能通過更好的調度,把它們組織成更高效的創意工作流。

但 Agent 工作模式成為常態可能還會帶來一個後果:當模型的調用方是 Agent,模型就從產品退化成了零件。對模型公司來說,進了 Agent 的調度池,調用量會很大;但同時,你和競品之間只隔着一行配置文件的距離,你沒競品好用,用戶忠誠度嘎巴一下歸零。在成熟的創意 Agent 平台,模型之間的競爭會比現在殘酷得多,也誠實得多。

小結

唯一不變的,就是變化一直在發生。過去我們更關心模型能不能生成一張好看的圖、一段驚豔的視頻;現在我們會越來越關心,它能不能穩定參與真實創作:能不能保持角色一致,能不能接住多輪任務、複雜修改,能不能做首幀和關鍵幀,能不能進入廣告、短劇、IP 角色、信息圖這些具體場景裏,最後真的交付出好東西。

上半年只是一個節點。下半年如果還有新的模型、新的工作流和新的創作方法,我也會繼續邊用邊記錄。

也歡迎大家在評論區補充你真正用過、覺得值得留下的模型!

最後感謝 Codex 在我查找資料和核對信息時做出的貢獻。這期真肝啊,朋友們覺得有收穫請猛猛三連 👍🌸🔄 鼓勵一下阿真,非常感謝!

這一篇相對嚴謹和乏味一點,下期可能是阿真上半年的所有 Vibe Coding 工具盤點,很好玩的 o(^▽^)o

下期見(ง•̀_•́)ง