AI Agent 獨立拍片:一次生成30秒完整短片!視頻創作進入“導演+AI合夥人”時代!

作者:今說新語
日期:2026年5月6日 上午12:21
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI視頻生成進入Agent時代,多平台推出專屬智能體,從自然語言想法到完整短片一鍵生成,創作效率大幅躍升。

整理版摘要

呢篇文章係由一位關注AI創作嘅觀察者所寫,佢之前已經探討過AI視頻工作流嘅進化,今次進一步介紹2026年主流平台推出嘅AI Agent產品。作者指出,AI已經唔再係單純嘅工具,而係變成一個可以同創作者合作嘅「虛擬導演+剪輯師」,能夠從一個自然語言想法出發,自動完成故事大綱、資產構建、分鏡生成、多鏡頭一致性控制、批量編輯以至最終成片輸出,大幅提升短片生產效率。

文章首先概述咗幾個主要平台嘅Agent功能,包括即夢OCTO、可靈Agent、Luma AgentInvideo Agent One、Pika Agents、HeyGen Video Agent等,每個都有自己嘅特色同優勢。然後重點拆解咗Runway Agent嘅使用流程同效果。Runway Agent目前正處於內測階段,佢可以根據用戶上傳嘅參考圖同想法,自動生成故事梗概、參考素材、節奏腳本,然後生成30秒長嘅視頻,風格一致性同角色一致性都做得好好。

整體結論係:AI視頻嘅Agent時代已經來臨,創作者應該把握機會,選擇最適合自己工作流嘅平台,效率將得到數量級提升。未來呢個賽道會向長視頻、實時交互、團隊協作進一步演進。

  • 各大平台(即夢Octo、可靈Agent、Luma AgentInvideo Agent One、Pika Agents、Runway Agent等)已推出專屬AI Agent,能從自然語言想法自動生成完整短片,實現「導演+AI合夥人」模式。
  • Runway Agent內測中,具備劇本改寫、風格一致性、角色一致性、長時段音效一致性,可生成30秒高質量短片,其時間線編輯功能預留後期剪輯接口。
  • 不同平台各有側重:即夢Octo強調Vibe氛圍共創;可靈Agent中文理解強、適合營銷;Luma Agent專注物理智能創意;Invideo Agent One長時記憶極強;Pika Agents易用且打通Claude MCP;HeyGen整合數字人;Runway劇本能力突出。
  • 使用流程簡化:上傳角色圖+想法 → Agent自動生成故事梗概、參考素材、節奏腳本 → 用戶可修改後直接生成視頻 → 還可調整音效、對話、旁白音量。
  • 創作者需積極嘗試,選擇匹配自己工作流嘅平台,以實現數量級效率提升。未來趨勢向長視頻、實時交互、團隊協作演進。
整理重點

AI視頻Agent浪潮:從單一模型到智能體工作流

作者喺之前文章已經講過,AI視頻生成領域已從單純嘅「文生視頻/圖生視頻」工具,全面升級為工作流模式,並繼續進化為智能體驅動嘅工作流平台。呢篇文章進一步介紹2026年各大主流平台推出嘅專屬AI Agent產品,強調呢啲Agent已經可以從一個自然語言想法出發,自動完成短片製作。

強化訓練、平台自定義工作流和多模態上下文記憶

呢啲Agent好似一位「虛擬導演+剪輯師」,能夠大幅提升短視頻生產效率。目前接觸到嘅即夢OCTO、可靈Agent、Luma AgentInvideo Agent One、Runway Agent等,正係呢一波浪潮嘅典型代表。

虛擬導演+剪輯師

  • 即夢AI Octo:協作型AI敍事Agent,強調Vibe氛圍共創,適合創意短片。
  • 可靈AI靈動畫布 Agent:一鍵分鏡,中文理解極強,適合營銷廣告。
  • Luma Creative Agents:物理智能創意Agent,適合專業團隊。
  • Invideo AI Agent One:長時記憶,端到端項目持有。
  • Pika Labs Pika Agents:極致易用,已打通Claude MCP
  • HeyGen Video AgentPrompt-to-Publish,整合數字人。
整理重點

Runway Agent深度拆解:30秒短片生成實戰

Runway Agent目前正內測,本文最開始嘅30秒短片就係用佢生成。核心功能係用參考圖同想法,讓Agent幫快速改寫劇本、生成30秒長視頻,並且

風格一致性

角色一致性

音效長時段一致性

都做得好好。

使用流程非常簡單:首先

上傳一張角色圖同一個想法

;Agent會自動生成簡短嘅故事梗概,並且可以選擇畫幅比例、視頻時長(15秒或30秒)、音頻模式(純音樂、旁白、對話)同分辨率。

自動生成故事梗概

參考素材

節奏腳本

  1. 1 上傳角色圖同想法後,Agent一次過生成故事梗概、參考素材(例如背景場景)同節奏腳本。
  2. 2 用戶可以直接生成視頻,或者修改腳本內容、補充素材。
  3. 3 生成後嘅視頻可以查看時間線,調整音效、對話、旁白音量,未來可能支持局部片段重新生成。

作者用未經修改嘅流程生成咗幾段短片,效果都非常好。Runway Agent喺長達30秒長度嘅視頻編排同剪輯方面展現出強大能力,呢啲都得益於佢

集成咗Google NanobananaGPT Image 2、Seedance 2、Kling 3.0、Veo 3.1等多個模型

整理重點

總結:把握Agent時代嘅創作機遇

2026年嘅AI Agent浪潮真正實現咗從提示詞工程師到創意導演嘅轉變。強化訓練同平台自定義工作流令Agent具備長期記憶、多輪迭代同跨模型協調能力,短視頻從「幾分鐘生成一段」進化到「幾分鐘出一條完整可發佈片」。無論係國內定國際平台,都喺度驗證同一趨勢:AI唔再係工具,而係創作夥伴。

AI唔再係工具,而係創作夥伴

對於創作者而言,而家正係上手Agent嘅最佳窗口。選擇最匹配自己工作流嘅平台,效率將實現數量級躍升。作者強烈建議即刻體驗以上Agent,從一個自然語言想法開始,讓AI幫你將靈感變成成片。

選擇最匹配自己工作流嘅平台

未來,呢個賽道將進一步向長視頻、實時交互、團隊協作方向演進。AI視頻嘅Agent時代已經來了!

, 

喺之前嘅文章《唔好再卷單一個模型啦!中高級設計師嘅勝負手係工作流》入面,我提到AI影片生成領域已經由單純嘅「文字生成影片/圖片生成影片」工具,全面升級做工作流嘅模式,仲繼續進化為智能體驅動嘅工作流平台。早啲喺舊年我嘅文章《「我讓AI獨立拍咗一部短片」——全流程自動生成短片嘅實測體驗!》入面,已經介紹咗當時一啲平台對AI Agent生成影片嘅探索同解決方式。

好快又過咗一年,各大主流AI平台唔再滿足於單一模型生成短片,而係透過強化訓練、平台自定義工作流同多模態上下文記憶,推出專屬AI Agent產品。呢啲Agent好似一個識創意、會規劃、能夠迭代嘅「虛擬導演+剪輯師」,可以由用戶一個自然語言嘅想法出發,自動完成故事大綱梳理、資產構建、分鏡生成、多鏡頭一致性控制、批量編輯甚至最終成片輸出,大幅提升短影片(尤其係廣告、短劇、營銷片)嘅生產效率。

下面先睇一個Agent一次生成嘅30秒動畫。

目前接觸到嘅即夢OCTO、可靈Agent、Luma Agent、Invideo Agent One、Runway Agent等,正係呢一波浪潮嘅典型代表。下面簡單介紹目前已上線或者正式發佈嘅主流平台Agent功能,重點詳細拆解Runway Agent,聚焦佢喺短影片生成方面嘅核心能力、交互方式、上線時間同獨特優勢(數據基於2026年5月最新公開資訊)。

1. 即夢AI —— Octo(小章魚)協作型AI敍事Agent(2026年4月上線)

即夢AI(字節/剪映系)推出嘅Octo(小章魚)係國內最早一批專注「Vibe Create(氛圍共創)」嘅Agent產品。佢定位為創作者嘅創意合夥人,而唔係傳統工單式工具,目前正在向創意合作夥伴開放。網上都已經有好多介紹文章,呢篇唔做詳細敍述。

  • • 核心功能:支援「對話+多模態混合」同屏共創。Agent會主動拋出圖片、音頻或者分鏡建議,實時感知畫布內容,實現異步並行創作。由故事大綱 → 核心資產構建 → 劇本分鏡 → 短片成片,全鏈路閉環。
  • • 短影片模式亮點:深度聯動Seedance 2.0、Seedream 5.0 Lite等即夢自有模型,支援自然語言指令迭代。一次對話就可以完成多輪分鏡擴展、風格統一調整。
  • • 優勢:強調「Vibe」氛圍感,適合敍事類短劇/短片創作。內測階段已經開放Web端申請,交互極具沉浸感,好似同一位識你靈感嘅AI合夥人傾偈做片。
  • • 適用場景:創意短片、品牌故事片。效率提升顯著,用戶反饋「一鍵召喚Agent,剩低就係靈感碰撞」。

2. 可靈AI(Kling AI) —— 靈動畫布 Agent(2026年1月29日重磅上線)

圖片

快手可靈AI喺靈動畫布中推出嘅Agent模式,係國內最早正式商用嘅影片Agent之一,主打「一鍵分鏡、輕鬆出片」。

  • • 核心功能:智能分鏡 + 多視角鏡頭拓展 + 多輪對話編輯 + 一鍵批量生成。支援AI效果廣告快速生成,商品宣傳海報/營銷影片一鍵轉短片。
  • • 短影片模式亮點:結合Kling 3.0多模態模型,精準解析長劇情本,實現多場景過渡一致性極高。支援原生4K直出、動作控制同數字人2.0聯動。
  • • 優勢:中文理解極強,適合營銷/廣告短影片。Agent可以自動處理故事分鏡擴展,用戶只需聊天式指令就可以迭代。
  • • 適用場景:電商廣告、品牌短片、效果演示影片。已經全面開放,效率直線上升。
目前呢啲工作流產品入面,可靈工作流我用得比較多,但係好似可靈喺呢個產品上投入嘅精力並唔多,長期冇乜大嘅進展。我個人對工作流嘅要求係:智能化、批量化、可重複性,即係智能完成一系列任務,可以批量噉自動生成,同一工作流簡單替換原始材料就可以快速重複利用。但係目前可靈工作流恰恰缺乏最後呢項可重複性,即係你定義嘅工作流冇辦法重複使用,更換原始材料幾乎要重新走一次流程,極大降低咗效率。

3. Luma AI —— Luma Creative Agents / Luma Agent(2026年已成熟集成)

Luma Labs將AI Agents作為核心產品差異化,定位「physically intelligent creative agents」(物理智能創意Agent)。

  • • 核心功能:多模態Agent(圖像/影片/音頻/文字)由概念到交付全流程規劃、生成、迭代、精煉。保持團隊共享上下文,支援Brainstorm Mode(brainstorm)同Create Mode(執行)。
  • • 短影片模式亮點:Agent自動編排Ray3等頂級模型,生成旅行蒙太奇、產品英雄鏡頭、電影級短片。支援複雜過渡、風格統一。
  • • 優勢:強調「力倍增團隊」,適合專業創意團隊。Agent好似一位識物理運動規律嘅創意夥伴,減少手動重啟。
  • • 適用場景:概念影片、電影預告、品牌內容。iOS App同Web端都可以無縫使用。

4. Invideo AI —— Agent One(v4 Agent,已成核心賣點)

Invideo將Agent One稱為「第一個真正可以端到端持有項目嘅AI電影製作Agent」。

  • • 核心功能:長時記憶(人物、地點、風格跨鏡頭一致)、多鏡頭同時編輯、純自然語言指揮(唔需要提示詞工程)。單提示可以生成長達30分鐘影片。
  • • 短影片模式亮點:由劇本/想法 → 自動選模(集成Kling、Midjourney等)→ 故事板 → 成片全自動。支援實時協作,好似「虛擬劇組」。
  • • 優勢:上下文記憶極強,一次設定角色,後續所有指令自動應用。適合長短結合嘅營銷/敍事片。
  • • 適用場景:社交媒體長短影片、廣告系列、短紀錄片。已經集成頂級庫存素材庫。

5. Pika Labs —— Pika Agents(2026年4月底發佈)

圖片

Pika Labs喺pika.me推出Pika Agents,允許用戶透過簡單對話「誕生」個性化AI伴侶。我前面嘅文章《再過幾個月,你刷到嘅內容有一半係AI自己發嘅!》《點解都在養龍蝦?我嘅OpenClaw實戰案例分享!》實際使用嘅就係Pika嘅智能體,近期佢哋嘅智能體已經上線並快速發展,提供咗大量面向影片製作嘅Skills同獨特功能,仲打通咗同Claude MCP嘅連結。

  • • 核心功能:持久化、可移植嘅多模態Agent(支援文字/語音/圖像/影片)。內置Seedance、Kling、Veo 3、Sora等頂級模型,自動選模+編輯。
  • • 短影片模式亮點:對話式生成短片、廣告、K-pop MV等。支援Auto Edit自動剪輯,PikaStream 1.0實現實時影片通話中Agent執行任務。
  • • 優勢:極致易用,唔需要提示詞,直接傾偈就可以產出精良影片。Agent會記住個人偏好,越用越識你。
  • • 適用場景:創意廣告、音樂影片、病毒短片。跨平台(Web/iOS)可用。

6. HeyGen —— AI Video Agent(Video Agent,已經正式商用)

HeyGen推出嘅Video Agent,基於收購嘅Alisa Agent技術,實現「Prompt-to-Publish」。

  • • 核心功能:自動寫腳本、選視覺素材、配音、字幕、剪輯、翻譯。全流程一鍵生成發佈級影片。
  • • 短影片模式亮點:支援數字人+真實素材混合,品牌一致性極高。適合多語言營銷影片。
  • • 優勢:對企業/營銷用戶友好,Avatar同Agent深度融合。
  • • 適用場景:講解影片、品牌宣講、產品演示。

7. 其他值得關注嘅Agent平台

  • • Manus:純AI Agent編排器,集成多模型,適合高級用戶自動化完整影片流水線。
  • • 其他平台(例如Higgsfield、Krea)都開始集成Agent式工作流,但核心仍然依賴上述原生平台。
  • • 國內大量嘅第三方平台都有啲在做類似嘅工作,我接觸嘅比較少,唔做介紹。

8. Runway —— Runway Agent

Runway近期正在內測Runway Agent產品,即將推出。呢篇文章最開始嘅30秒短片就係使用Runway Agent生成。

  • • 核心功能:使用參考圖同想法,讓Agent幫你快速改寫劇本、生成30秒長影片。
  • • Agent模式亮點:風格一致性、角色一致性、音效長時間嘅一致性。
  • • 優勢:優秀嘅劇本改寫能力,可以生成非常有吸引力嘅故事短片。

先用一個簡單案例快速介紹整個使用流程

圖片
1、簡單上傳一張角色圖,一個想法。
圖片
2、Agent經過分析會生成一個簡短嘅故事梗概
圖片
注意呢度可以選擇唔同嘅畫幅比例、影片時長目前支援15秒同30秒,仲可以選擇純音樂、旁白、對話三種模式,以及兩種解析度。
3、同時生成相應嘅參考素材,呢個案例入面拆分生成咗一個背景場景,根據唔同嘅案例仲可能生成更多嘅素材。
圖片
4、生成故事節奏劇本,根據唔同嘅案例生成嘅數量唔同。
圖片
5、以上三部分都係一次性同時生成嘅,而且唔需要用戶參與,生成後用戶可以直接生成影片,當然都可以修改劇本內容、仲可以補充素材。我冇做任何修改直接生成嘅影片效果如下:
生成嘅影片具有非常好嘅風格一致性、角色一致性、配樂同旁白節奏都非常好。更進一步嘅,生成完嘅影片仲可以直接查看時間線,並進行一啲修改:
圖片
呢部分應該係Runway後期會加大力度開發嘅功能,熟悉Runway歷史嘅用戶應該知道佢哋本身有大量嘅影片編輯產品同功能,目前可以對影片中嘅音效、對話、旁白進行唔同音量嘅調整。未來如果提供更細緻嘅局部片段重新生成,將會係非常強大嘅生成同後期剪輯平台。儘管目前只係Beta版,但喺生成故事性嘅短影片方面已經展現出強大得多嘅能力。
下面係我做嘅一個水墨風格嘅動畫片:
下面係一個建築類嘅短片:
下面係另一個概念性嘅短片:

可以見到Runway Agent喺長達30秒長度嘅影片編排同剪輯方面,具備非常強大嘅能力,當然呢啲都得益於Runway目前集成了強大嘅Google Nanobanana、GPT Image 2、Seedance 2、Kling 3.0、Veo 3.1、Happyhorse等模型。喺劇本嘅編寫方面,可以真切感受到Runway Agent背後有住非常紮實嘅劇本訓練,對於音影片嘅後期合成目前做得都非常好。

上面介紹嘅係最簡單嘅快速生成流程,當然更複雜嘅影片創作需要你同Agent不斷傾偈溝通、提出修改意見,進行多輪嘅頭腦風暴推進故事嘅細化同完善,即係同AI Agent合作共同完成影片嘅創作。呢種模式都係目前好多平台在不斷優化嘅模式,Runway平台都同樣支援。

一個好嘅Agent應該包括前期頭腦風暴、劇本生成、分鏡頭編寫、影片生成、影片編輯、影片剪輯合成等完整流程,目前Runway Agent喺影片編輯方面已經可以睇出預留咗接口,後續如果能夠將音、影片局部編輯功能做強,將會係一個非常有價值同順手嘅助手。

總結同展望
2026年嘅AI Agent浪潮,真正實現咗「由提示詞工程師到創意導演」嘅轉變。強化訓練+平台自定義工作流讓Agent具備咗長期記憶、多輪迭代同跨模型協調能力,短影片由「幾分鐘生成一段」進化到「幾分鐘出一條完整可發佈片」。無論係國內嘅即夢OCTO、可靈Agent,定係國際嘅Luma Agent、Invideo Agent One、Pika Agents、Runway Agent,都喺用唔同路徑驗證同一個趨勢:AI唔再係工具,而係創作夥伴

未來,隨住更多平台加入,呢個賽道將會進一步向長影片、實時交互、團隊協作方向演進。對於創作者嚟講,而家正係上手Agent嘅最佳窗口——選擇最匹配自己工作流嘅平台,效率將會實現數量級躍升。

如果你正在製作短影片、廣告或者短劇,強烈建議即刻體驗以上Agent:由一個自然語言嘅想法開始,讓AI幫你將靈感變成成片。AI影片嘅「Agent時代」,已經嚟咗!

公眾號精選內容

基本入門 建築室內 模型訓練 ChatGPT

StableDiffusion Midjourney 進階專欄 

AI繪畫 AI影片 2023專欄 2024專欄 

 

 

, 

在之前的文章《別卷單個模型了!中高級設計師的勝負手是工作流》中,我提到AI視頻生成領域已從單純的“文生視頻/圖生視頻”工具,全面升級為工作流的模式,並繼續進化為智能體驅動的工作流平台。更早一些在去年我的文章《“我讓AI獨立拍了一部短片”——全流程自動生成短片的實測體驗!》中,已經介紹了當時一些平台對AI Agent生成視頻的探索和解決方式。

很快又過去了一年,各大主流AI平台不再滿足於單一模型生成短片,而是通過強化訓練、平台自定義工作流和多模態上下文記憶,推出專屬AI Agent產品。這些Agent像一位懂創意、會規劃、能迭代的“虛擬導演+剪輯師”,能從用戶一個自然語言想法出發,自動完成故事大綱梳理、資產構建、分鏡生成、多鏡頭一致性控制、批量編輯乃至最終成片輸出,大幅提升短視頻(尤其是廣告、短劇、營銷片)生產效率。

下面先看一個Agent一次生成的30秒動畫。

目前接觸到的即夢OCTO、可靈Agent、Luma Agent、Invideo Agent One、Runway Agent等,正是這一波浪潮的典型代表。下面簡單介紹目前已上線或正式發佈的主流平台Agent功能,重點詳細拆解Runway Agent,聚焦其在短視頻生成上的核心能力、交互方式、上線時間及獨特優勢(數據基於2026年5月最新公開信息)。

1. 即夢AI —— Octo(小章魚)協作型AI敍事Agent(2026年4月上線)

即夢AI(字節/剪映系)推出的Octo(小章魚)是國內最早一批專注“Vibe Create(氛圍共創)”的Agent產品。它定位為創作者的創意合夥人,而非傳統工單式工具,目前正在像創意合作伙伴開放。網上也已經有很多介紹文章,這篇不做詳細敍述。

  • • 核心功能:支持“對話+多模態混合”同屏共創。Agent會主動拋出圖片、音頻或分鏡建議,實時感知畫布內容,實現異步並行創作。從故事大綱 → 核心資產構建 → 劇本分鏡 → 短片成片,全鏈路閉環。
  • • 短視頻模式亮點:深度聯動Seedance 2.0、Seedream 5.0 Lite等即夢自有模型,支持自然語言指令迭代。一次對話即可完成多輪分鏡擴展、風格統一調整。
  • • 優勢:強調“Vibe”氛圍感,適合敍事類短劇/短片創作。內測階段已開放Web端申請,交互極具沉浸感,像和一位懂你靈感的AI合夥人聊天做片。
  • • 適用場景:創意短片、品牌故事片。效率提升顯著,用戶反饋“一鍵召喚Agent,剩下就是靈感碰撞”。

2. 可靈AI(Kling AI) —— 靈動畫布 Agent(2026年1月29日重磅上線)

圖片

快手可靈AI在靈動畫布中推出的Agent模式,是國內最早正式商用的視頻Agent之一,主打“一鍵分鏡、輕鬆出片”。

  • • 核心功能:智能分鏡 + 多視角鏡頭拓展 + 多輪對話編輯 + 一鍵批量生成。支持AI效果廣告快速生成,商品宣傳海報/營銷視頻一鍵轉短片。
  • • 短視頻模式亮點:結合Kling 3.0多模態模型,精準解析長劇情本,實現多場景過渡一致性極高。支持原生4K直出、動作控制與數字人2.0聯動。
  • • 優勢:中文理解極強,適合營銷/廣告短視頻。Agent可自動處理故事分鏡擴展,用戶只需聊天式指令即可迭代。
  • • 適用場景:電商廣告、品牌短片、效果演示視頻。已全面開放,效率直線上升。
目前這些工作流產品中,可靈工作流我用的比較多的,但好像可靈在這個產品上投入的精力並不多,長期沒有太大的進展。我個人對工作流的要求是:智能化、批量化、可重複性,也就是智能完成一系列任務,可批量化的自動生成,同一工作流簡單替換原始素材可快速重複利用。但目前可靈工作流恰恰缺乏最後這項可重複性,也就是你定義的工作流無法重複使用,更換原始素材幾乎需要重新走一遍流程,極大降低了效率。

3. Luma AI —— Luma Creative Agents / Luma Agent(2026年已成熟集成)

Luma Labs將AI Agents作為核心產品差異化,定位“ physically intelligent creative agents”(物理智能創意Agent)。

  • • 核心功能:多模態Agent(圖像/視頻/音頻/文本)從概念到交付全流程規劃、生成、迭代、精煉。保持團隊共享上下文,支持Brainstorm Mode( brainstorm)和Create Mode(執行)。
  • • 短視頻模式亮點:Agent自動編排Ray3等頂級模型,生成旅行蒙太奇、產品英雄鏡頭、電影級短片。支持複雜過渡、風格統一。
  • • 優勢:強調“力倍增團隊”,適合專業創意團隊。Agent像一位懂物理運動規律的創意夥伴,減少手動重啓。
  • • 適用場景:概念視頻、電影預告、品牌內容。iOS App與Web端均可無縫使用。

4. Invideo AI —— Agent One(v4 Agent,已成核心賣點)

Invideo將Agent One稱為“第一個真正能端到端持有項目的AI電影製作Agent”。

  • • 核心功能:長時記憶(人物、地點、風格跨鏡頭一致)、多鏡頭同時編輯、純自然語言指揮(無需提示詞工程)。單提示可生成長達30分鐘視頻。
  • • 短視頻模式亮點:從劇本/想法 → 自動選模(集成Kling、Midjourney等)→ 故事板 → 成片全自動。支持實時協作,像“虛擬劇組”。
  • • 優勢:上下文記憶極強,一次設定角色,後續所有指令自動應用。適合長短結合的營銷/敍事片。
  • • 適用場景:社交媒體長短視頻、廣告系列、短紀錄片。已集成頂級庫存素材庫。

5. Pika Labs —— Pika Agents(2026年4月底發佈)

圖片

Pika Labs在pika.me推出Pika Agents,允許用戶通過簡單對話“誕生”個性化AI伴侶。我前面的文章《再過幾個月,你刷到的內容有一半是AI自己發的!》《為什麼都在養龍蝦?我的 OpenClaw 實戰案例分享!》實際使用的就是Pika的智能體,近期他們的智能體已經上線並快速發展,提供了大量面向視頻製作的Skills和獨特功能,並打通了和Claude MCP的連結。

  • • 核心功能:持久化、可移植的多模態Agent(支持文本/語音/圖像/視頻)。內置Seedance、Kling、Veo 3、Sora等頂級模型,自動選模+編輯。
  • • 短視頻模式亮點:對話式生成短片、廣告、K-pop MV等。支持Auto Edit自動剪輯,PikaStream 1.0實現實時視頻通話中Agent執行任務。
  • • 優勢:極致易用,無需提示詞,直接聊天即可產出精良視頻。Agent會記住個人偏好,越用越懂你。
  • • 適用場景:創意廣告、音樂視頻、病毒短片。跨平台(Web/iOS)可用。

6. HeyGen —— AI Video Agent(Video Agent,已正式商用)

HeyGen推出的Video Agent,基於收購的Alisa Agent技術,實現“Prompt-to-Publish”。

  • • 核心功能:自動寫腳本、選視覺素材、配音、字幕、剪輯、翻譯。全流程一鍵生成發佈級視頻。
  • • 短視頻模式亮點:支持數字人+真實素材混合,品牌一致性極高。適合多語言營銷視頻。
  • • 優勢:對企業/營銷用戶友好,Avatar與Agent深度融合。
  • • 適用場景:講解視頻、品牌宣講、產品演示。

7. 其他值得關注的Agent平台

  • • Manus:純AI Agent編排器,集成多模型,適合高級用戶自動化完整視頻流水線。
  • • 其他平台(如Higgsfield、Krea)也開始集成Agent式工作流,但核心仍依賴上述原生平台。
  • • 國內大量的第三方平台也有一些在做類似的工作,我接觸的較少,不做介紹。

8. Runway —— Runway Agent

Runway近期正在內測Runway Agent產品,即將推出。本文最開始的30秒短片就是使用Runway Agent生成。

  • • 核心功能:使用參考圖和想法,讓Agent幫你快速改寫劇本、生成30秒長視頻。
  • • Agent模式亮點:風格一致性、角色一致性、音效長時段的一致性。
  • • 優勢:優秀的劇本改寫能力,可生成非常有吸引力的故事短片。

先用一個簡單案例快速介紹整個使用流程

圖片
1、簡單上傳一張角色圖,一個想法。
圖片
2、Agent經過分析會生成一個簡短的故事梗概
圖片
注意這裏可以選擇不同的畫幅比例、視頻時長目前支持15秒和30秒,還可以選擇純音樂、旁白、對話三種模式,以及兩種分辨率。
3、同時生成相應的參考素材,這個案例中拆分生成了一個背景場景,根據不同的案例還可能生成更多的素材。
圖片
4、生成故事節奏腳本,根據不同的案例生成的數量不同。
圖片
5、以上三部分都是一次性同時生成的,並且不需要用戶參與,生成後用戶可以直接生成視頻,當然也可以修改腳本內容、還可以補充素材。我未做任何修改直接生成的視頻效果如下:
生成的視頻具有非常好的風格一致性、角色一致性、配樂和旁白節奏都非常好。更進一步的,生成完的視頻還可以直接查看時間線,並進行一些修改:
圖片
這部分應該是Runway後期會加大力度開發的功能,熟悉Runway歷史的用戶應該知道他們本身有大量的視頻編輯產品和功能,目前可以對視頻中的音效、對話、旁白進行不同音量的調整。未來如果提供更細緻的局部片段重新生成,將是非常強大的生成和後期剪輯平台。儘管目前只是Beta版,但在生成故事性的短視頻方面已經展現出強大得多能力。
下面是我做的一個水墨風格的動畫片:
下面是一個建築類的短片:
下面是另一個概念性的短片:

可以看到Runway Agent在長達30秒長度的視頻編排和剪輯方面,具備非常強大的能力,當然這也得益於Runway目前集成了強大的Google Nanobanana、GPT Image 2、Seedance 2、Kling 3.0、Veo 3.1、Happyhorse等模型。在腳本的編寫方面,可以真切感受到Runway Agent背後有着非常紮實的劇本訓練,對於音視頻的後期合成目前做的也非常好。

上面介紹的是最簡單的快速生成流程,當然更復雜的視頻創作需要你和Agent不斷聊天溝通、提出修改意見,進行多輪的頭腦風暴推進故事的細化和完善,也就是和AI Agent合作共同完成視頻的創作。這種模式也是目前很多平台在不斷優化的模式,Runway平台也同樣支持。

一個好的Agent應該包括前期頭腦風暴、劇本生成、分鏡頭編寫、視頻生成、視頻編輯、視頻剪輯合成等完整流程,目前Runway Agent在視頻編輯方面已經可以看出預留了接口,後續如能把音、視頻局部編輯功能做強,將是一個非常有價值和順手的助手。

總結與展望
2026年的AI Agent浪潮,真正實現了“從提示詞工程師到創意導演”的轉變。強化訓練+平台自定義工作流讓Agent具備了長期記憶、多輪迭代與跨模型協調能力,短視頻從“幾分鐘生成一段”進化到“幾分鐘出一條完整可發佈片”。無論是國內的即夢OCTO、可靈Agent,還是國際的Luma Agent、Invideo Agent One、Pika Agents、Runway Agent,都在用不同路徑驗證同一個趨勢:AI不再是工具,而是創作夥伴

未來,隨着更多平台加入,這一賽道將進一步向長視頻、實時交互、團隊協作方向演進。對於創作者而言,現在正是上手Agent的最佳窗口——選擇最匹配自己工作流的平台,效率將實現數量級躍升。

如果你正在製作短視頻、廣告或短劇,強烈建議立刻體驗以上Agent:從一個自然語言想法開始,讓AI幫你把靈感變成成片。AI視頻的“Agent時代”,已經來了!

公眾號精選內容

基礎入門 建築室內 模型訓練 ChatGPT

StableDiffusion Midjourney 進階專欄 

AI繪畫 AI視頻 2023專欄 2024專欄