視頻進入可編輯時代：藏師傅教你視頻版 Banana 可靈 O1

作者：歸藏的AI工具箱

日期：2025年12月2日上午5:17

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

可靈 O1：用自然語言直接編輯視頻，藏師傅教你點樣做到精細控制

整理版摘要

呢篇文章係由藏師傅撰寫嘅可靈 O1 評測同教學。佢想解決嘅問題係：點樣可以似圖片編輯咁，用文字或者參考圖嚟直接修改視頻，而唔使複雜嘅遮罩或者關鍵幀。整體結論係：可靈 O1 整合咗文生視頻、圖生視頻、視頻編輯、風格轉換等多個任務，令創作者可以一站式完成生成同修改，而且主體一致性保持得幾好，係視頻編輯領域嘅一大突破。

藏師傅首先介紹咗可靈 O1 嘅統一界面，話左側新增咗一個圖標，入面集成咗好多選項，包括文字輸入、圖片主體參考、首尾幀等等。佢強調呢個模式可以取代之前嘅幾個獨立功能，令工作流程簡單咗好多。之後佢用幾個實例展示咗點樣用文字修改視頻，例如叫人穿上黑色風衣同墨鏡，效果自然；又示範咗點樣用圖片參考嚟改變背景，甚至加藤蔓，仲有主體功能可以建立角色或者物品，上傳多角度相片提高一致性。

最後佢提到可靈 O1 支持自由選擇10秒內嘅生成時長，按秒扣靈感值，對輕量展示同影片代理產品好有益。佢仲示範咗風格轉換同首尾幀特效，認為呢個模型標誌住視頻領域正在複製圖片領域嘅快速發展路徑。整體嚟講，呢篇文章提供咗清晰嘅操作指引同實用技巧，適合想用 AI 做視頻創作嘅人士參考。

可靈 O1 統一文生視頻、圖生視頻、視頻編輯、風格轉換等任務，一個界面搞掂曬。
用自然語言就可以直接編輯視頻，唔使遮罩或關鍵幀，上傳素材後用 @ 指代就得。
主體功能可以上傳多角度相片，大幅提高角色、道具同場景喺鏡頭間嘅一致性。
支援多種風格轉換（毛氈、動漫、8-bit），一句提示詞就做到以前好複雜嘅特效。
影片生成時長可以自由揀10秒內，按秒扣分，對預算有限嘅創作好有利。

整理重點

可靈 O1：一站式視頻生成與編輯工具

前排玩完 Nano Banana Pro，成日諗幾時視頻模型都有類似嘅能力。而家可靈推出 O1，將文生視頻、圖生視頻、首尾幀、內容增刪同風格重繪等任務融合曬，一個界面搞掂曬。

支援多模態輸入，包括圖片、視頻、主體同文字，直接用自然語言進行精細編輯

呢個模型可以生成約 3 至 10 秒嘅自由敍事鏡頭，靈活控制節奏同長度。藏師傅嘅影片演示咗整體能力，下面逐一解構。

整理重點

用文字同圖片直接編輯視頻

1 上傳視頻後，輸入「戴上墨鏡，穿上黑色風衣」，服飾質感同環境融合自然，窗台陽光高光都Keep到。
2 圖片參考時，可以上傳單圖或多圖，提示詞要詳細描寫背景運動方式同前景，令畫面更真實。

編輯時仲有技巧：第一次修改後，抽卡揀到滿意結果，再用嗰張圖做第二次修改，咁可以最大程度控制編輯力度。

例如先加朱迪角色，再用生成嘅視頻加「可靈 O1」文字，疊加效果穩定

整理重點

主體功能：角色一致性同多主體疊加

主體係 O1 新增嘅元素，簡單講就係你創建嘅角色或物品，可以上傳多張不同角度嘅圖片，大大提高一致性。創建後可以直接選用，唔使每次上傳。

電商場景尤其有用：上傳四張產品相，之後點樣環繞運鏡都保持一致，連劃痕同使用痕跡都冇走樣

官方內置好多常見主體，亦可以自建「我的主體」；
支援多個主體疊加，例如將自己改做林黛玉主體再加天使之翼道具，複雜場景下融合度都好高；
主體功能令角色、道具、場景喺鏡頭間保持特徵穩定，唔再擔心運鏡後商品變樣。

用主體製作專業內容時，建議多建立角色同場景主體，一致性表現比單張圖片更好。

整理重點

風格轉換、自由時長同首尾幀特效

O1 支援首尾幀生成視頻，配合視頻編輯可以做到好誇張嘅場景轉換。例如先將手裏嘅鼠標換成 code 組成嘅龍，再用首尾幀將最後一幀同龍嘅圖片結合，過渡自然。

生成時長可以自由選擇10秒內，按秒扣靈感值，對輕度展示同影片 Agent 產品好省錢

1 風格轉換：直接講「將呢段視頻轉做毛氈風格」就得，唔使複雜操作；
2 首尾幀：上傳首幀同尾幀圖片，配合提示詞，可以創造出離譜嘅過渡特效。

整理重點

O1 圖片編輯：多圖參考同主體混合

輸入框左下角可切換到圖片模式，支援上傳多張圖片同加入主體，亦可以直接編輯圖片。例如最近流行嘅同朱迪合影，涉及場景一致性同人物風格差異。

兩張圖角色加一個場景，提示詞：@圖片1 嘅角色同 @圖片2 嘅角色喺 @圖片3 嘅場景親暱合影，效果自然

圖片仲可以同主體混合修改，例如將自己換上民國服飾主體，場景轉到辦公室主體，一致性都 Keep 到。

整理重點

總結：視頻編輯進入可編輯時代

如果你覺得呢篇教學有用，不妨點讚或者分享俾需要嘅朋友。期待未來更多創意玩法！

前幾日 Nano Banana Pro 玩到癲咗啦，有冇諗過幾時視頻模型都會有類似嘅能力。

而家，佢嚟咗。可靈發佈咗 O1，一個大一統嘅視頻、圖像生成同編輯工具，支援喺同一個界面同流程入面完成你需要嘅全部視頻圖片編輯同生成工作。

總結一下今次更新內容：

統一多模態視頻大模型，將參考生視頻、文生視頻、首尾幀、內容增刪與風格重繪等任務融合，一站式完成從生成到修改。
支援圖片、視頻、主體同文字嘅多模態輸入，直接用自然語言做精細編輯，唔需要遮罩或者關鍵幀。
通過多視角主體同參考素材，保持角色、道具、場景嘅特徵穩定同鏡頭之間一致性，確保連貫畫面。
自由組合參考同指令，覆蓋運鏡、動作、鏡頭延展等複雜玩法。
可以生成約 3–10 秒嘅自由敍事鏡頭，靈活控制節奏同鏡頭長度。

老規矩，先睇一個藏師傅關於今次相對重要嘅視頻編輯能力同多圖參考能力嘅演示視頻：

然後我會對今次新增嘅一啲能力進行測試，同時大概教大家呢個模式應該點樣用。

入到可靈頁面，你就會留意到左邊新增咗一個非常顯眼嘅圖標，用咗呢個之後後面嗰幾個界面你基本就用唔着喇。

入咗嚟之後就會發現下面嘅提示詞輸入框位置集成咗非常多嘅選項，下面係用嚟切換視頻同圖片生成嘅基礎操作，例如時間比例等，上面嘅幾個膠囊按鈕主要係用嚟控制輸入內容嘅類型。

例如圖片主體參考呢度佢就會出現視頻、圖片、主體三個輸入項，當然你可以刪除圖片或者主體，只用文本操作。

然後首尾幀呢個輸入項就會變成首幀同尾幀，呢個我哋就熟悉喇，不過提示詞都需要對首尾幀進行標註。

我哋先睇嚇最基本嘅通過文本進行視頻編輯，你只需要上傳需要編輯嘅視頻，然後喺提示詞輸入框輸入提示詞嘅時候喺指代素材嗰度 @ 對應嘅素材就得。

然後你就會見到你嘅視頻已經被修改咗，例如我呢度話係着黑色風衣同戴墨鏡，可以見到服飾嘅質感都係非常唔錯，同周圍環境融合得幾好，窗台嘅陽光曬喺衫上面嘅高光都有。

可以見到嘴型同運動都可以遷移，所以你可以將 O1 當做數字人模型嚟用。

文本嘅修改搞完之後就係圖片參考喇，如果你唔知想要修改嘅環境或者角色具體點樣描述嘅話，當然可以上傳圖片俾佢參考，支援單圖亦都支援多圖。

提示詞嘅時候需要注意，你係需要直接修改背景定係需要一個過渡，呢兩個係唔同嘅。

另外盡量詳細描寫背景嘅圖片運動方式或者一啲前景會令到整個畫面更加真實，例如我喺度令佢喺角色前面增加咗藤蔓。

可以見到為咗配合呢種遺蹟環境嘅結果，佢仲幫我將面部同身體嘅亮度變暗咗，後面嘅角色都在運動都冇問題。

關於圖像參考呢度有個技巧，你可以第一次透過一張圖片對視頻進行修改之後，再次將修改咗嘅圖片俾佢修改，咁樣可以最大程度確保對視頻編輯嘅控制力度。

第一次修改抽卡直到有符合你要求嘅內容之後再進行第二次修改。

例如我上面呢度，先令佢喺我枱面增加咗最近比較紅嘅瘋狂動物城嘅朱迪，然後再用啱先生成嘅視頻令佢向視頻中增加可靈 O1 嘅文字。

然後你可能一路好奇上面素材部分嘅主體係乜嘢，呢個係今次 O1 新增嘅一個元素，簡單啲講就可以理解為你創建嘅角色，常用角色創建之後可以直接揀，唔需要成日上傳喇。

㩒添加主體嘅圖標之後右邊就會出現主體嘅選擇彈窗，官方內置咗好多常見嘅主體俾你可以選擇。

你亦都可以㩒左邊「我的主體」去創建主體，創建嘅時候我哋就理解點解都係圖片主體要分開列出來。因為佢可以上傳多個唔同角度嘅圖片，更大程度噉提高角色、道具、場景喺視頻生成中嘅一致性。

而且你仲可以將多個主體疊加，如果你係要創作專業內容嘅話，我建議都係多啲創建角色同場景嘅主體，一致性表現的確比單張圖片更加好。

例如我呢度選擇咗將我自己改為林黛玉呢個主體，同時仲加咗天使之翼呢個道具，呢兩個完全唔啦更，再加埋我嘅室內環境同時包含咗前景同背景，非常複雜可以話。

但係視頻嘅融合度非常好，翅膀都會跟住我嘅身體運動，光照嘅部分都冇乜大問題，真實感好高。

主體呢樣嘢對電商嚟講絕對係非常大嘅利好，再唔怕視頻一運鏡商品就跟原本嘅唔似樣，而家上傳四張圖片創建一個主體，隨便點轉都得。

可以見到我用我自己用嘅鼠標創建咗一個主體，叫佢進行一個非常大嘅環繞運鏡。

產品展示得非常穩定，甚至鼠標上面嘅劃痕同使用痕跡都冇乜變化，呢個一致性保持得太強喇。

提咗單純嘅主體生成視頻，順便講下，可靈 O1 喺生成視頻嘅時候支援自由選擇 10 秒內嘅單條視頻生成時長喇，而且會按時長扣除靈感值。

呢個對做視頻 Agent 產品同一啲輕度展示場景絕對係重大利好，相當慳錢。

當然，O1 亦可以直接轉變視頻嘅風格，我試咗毛氈風格、動漫風格、8-bit 像素風格都冇問題，你直接同佢講將 XXX 視頻轉換為 XXX 視頻風格就得。

以前啲做呢啲成本好高非常複雜嘅風格轉換特效，而家非常簡單一句提示詞就得。

O1 依然係支援首尾幀生成視頻嘅，你可以㩒輸入框上面「首尾幀」嚟獲取素材上傳 UI，而且視頻編輯加上首尾幀能夠做出非常離譜嘅特效效果。

例如我上面演示視頻嘅最後一段就係先透過圖像參考嘅視頻編輯將隻手嘅鼠標換成代碼組成嘅龍，然後再將視頻最後一幀同代碼龍嘅圖片做咗首尾幀視頻生成，搞定咗一個非常大場景嘅轉換。

可以見到過渡非常自然，如果好好發掘嘅話估計可以搞定唔少非常炫酷嘅特效類型。

講完視頻我哋睇嚇 O1 圖片。

輸入框左下角切換為圖片就可以使用，支援上傳多張圖片同加入對應嘅主體，同對圖片進行編輯。

先嚟一個多圖參考，做嚇最近好紅嘅同朱迪合影，呢個其實相對複雜啲，涉及場景一致性，而且人物同動畫角色風格有啲唔同。

抽咗兩次卡，估唔到效果唔錯，場景人物同朱迪都保持得唔錯，而且兔仔嘅原圖表情都比較誇張，佢都修正咗。

✏

@圖片1 嘅角色同 @圖片2 嘅角色喺 @圖片3 嘅場景親暱噉合影

當然圖片都支援同主體混合進行修改，同樣可以增強一致性，我呢度將我自己換上咗民國服飾主體，場景換到咗辦公室呢個主體，都算 ok。

好啦呢個就係今日測評加 O1 簡單教學嘅所有內容。

視頻領域，正在複製圖片領域嘅發展路徑，更好嘅推理能力同世界知識，更強大嘅編輯能力，可靈視頻 O1 模型啱啱問世，效果已經相當可以喇。

回想嚇今年三四月嘅圖像編輯模型質量，再睇最近短短半年嘅發展成果，只要起步咗進展就會好快。

如果你覺得今日嘅內容對你有幫助嘅話，可以幫我㩒個讚👍或者喜歡🩷，亦可以將呢個內容推薦✈️俾你覺得需要嘅朋友們。

前幾天 Nano Banana Pro 玩瘋了吧，有沒有想過什麼時候視頻模型也能有類似的能力。

現在，他來了。可靈發佈了 O1，一個大一統的視頻、圖像生成和編輯工具，支持在一個界面和流程中完成你需要的全部視頻圖片編輯和生成工作。

總結一下這次更新內容：

統一多模態視頻大模型，把參考生視頻、文生視頻、首尾幀、內容增刪與風格重繪等任務融合，一站式完成從生成到修改。
支持圖片、視頻、主體與文字的多模態輸入，直接用自然語言進行精細編輯，無需遮罩或關鍵幀。
通過多視角主體與參考素材，保持角色、道具、場景的特徵穩定與鏡頭間一致性，確保連貫畫面。
自由組合參考與指令，覆蓋運鏡、動作、鏡頭延展等複雜玩法。
可生成約 3–10 秒的自由敍事鏡頭，靈活控制節奏與鏡頭長度。

老規矩，先來看一個藏師傅關於這次相對重要的視頻編輯能力和多圖參考能力的演示視頻：

然後我會對這次新增的一些能力進行測試，同時大概教大家一下這個模式應該如何使用。

進到可靈頁面，你就會注意到左側新增了一個非常顯眼的圖標，用了這個後面那幾個界面你基本就用不着了。

進來以後就會發現下方的提示詞輸入框位置集成了非常多的選項，下方用來切換視頻和圖片生成的基礎操作，比如時間比例等，上方的幾個膠囊按鈕主要用來控制輸入內容的類型。

比如圖片主體參考這裏他就會出現、視頻、圖片、主體三個輸入項，當然你可以刪除圖片或者主體，只用文本操作。

然後首尾幀這個輸入項就會變成首幀和尾幀，這個我們就熟悉了，不過提示詞也需要對首尾幀進行標註。

我們先來看一下最基本的通過文本進行視頻編輯，你只需要上傳需要編輯的視頻，然後在提示詞輸入框輸入提示詞的時候在指代素材那裏@ 對應的素材就行。

然後你就看到你的視頻已經被修改了，比如這裏我說的是穿上黑色風衣和帶上墨鏡，可以看到服飾的質感還是非常不錯的，幹周圍環境融合的也很好，窗台的陽光照在衣服上的高光也有。

可以看到嘴型和運動都可以遷移，所以你可以將 O1 當做數字人模型使用。

文本的修改搞完之後就是，圖片參考了，如果你不知道想要修改的環境或者角色具體怎麼描述的話，當然可以上傳圖片讓他參考，支持單圖也支持多圖。

在提示詞書寫的時候需要注意，你是需要直接修改背景還是需要一個過渡，這兩個是不同的。

另外儘量詳細描寫背景的圖片運動方式或者一些前景會讓整個畫面顯得更加真實，比如我這裏讓他在角色前面增加了藤蔓。

可以看到為了配合這種遺蹟環境的結果，他還幫我把面部和身體的亮度變暗了，後面的角色也在運動都沒啥問題。

關於圖像參考這裏有個技巧，你可以第一次通過一張圖片對視頻進行修改後，再次將修改後的圖片讓他修改，這樣可以最大程度確保對於視頻編輯的控制力度。

第一次修改抽卡直到有符合你要求的內容之後再進行第二次修改。

比如我上面這裏，顯示讓他在我桌面上增加了最近比較火的瘋狂動物城的朱迪，然後在用剛才生成的視頻讓他向視頻中增加可靈 O1 的文字。

然後你可能一直好奇上面素材部分的主體是什麼東西，這是這次 O1 新增的一個元素，簡單來說就可以理解為你創建的角色，常用角色創建後可以直接選擇，不需要頻繁上傳了。

點擊添加主體的圖標之後右側就會出現主體的選擇彈窗，官方內置了很多常見的主體類似可以讓你選擇。

你也可以點擊左側“我的主體”去創建主體，創建的時候我們就理解為什麼都是圖片主體要單獨列出來了。因為它可以上傳多個不同角度的圖片，更大程度的提高角色、道具、場景在視頻生成中的一致性。

而且你還可以將多個主體疊加，如果你是要創作專業內容的話，我建議還是多創建角色和場景的主體，一致性表現確實比單張圖片要更好。

比如我這裏選擇了將我自己改為林黛玉這個主體，同時還加上了天使之翼這個道具，這兩個完全不搭嘎，再加上我的室內環境同時包含了前景和背景，非常複雜了可以說。

但是視頻的融合度非常好，翅膀也會跟這個我的身體運動，光照的部分也沒啥大問題，真實感很高。

主體這玩意對於電商來說絕對是非常大的利好，再也不用擔心視頻一運鏡商品就跟原來的不像了，現在上傳四張圖片創建一個主體，隨便怎麼轉都行。

可以看到我這裏用我自己用的鼠標創建了一個主體，讓他讓他進行一個非常大的環繞運鏡。

產品展示的非常穩定，甚至鼠標上的劃痕和使用痕跡都沒啥變化，這個一致性保持的太強了。

提到了單純的主體生成視頻了，順便提一下，可靈 O1 在生成視頻的時候支持自由選擇 10 秒內的單條視頻生成時長了，而且會按時長扣除靈感值。

這個對於做視頻 Agent 產品以及一些輕度展示場景絕對是重大利好，相當省錢。

當然，O1 也可以直接轉變視頻的風格，我試了一下毛氈風格、動漫風格、8-bit 像素風格都沒啥問題，你直接跟他說將 XXX 視頻轉換為 XXX 視頻風格就行。

以前那些做起來成本很高非常複雜的風格轉換特效，現在非常簡單的一句提示詞就可以了。

O 1 依然是支持首尾幀生成視頻的，你可以點擊輸入框上方“首尾幀”來獲取素材上傳 UI，而且視頻編輯加上首尾幀能做出非常離譜的特效效果。

比如我上面演示視頻的最後一段就是先通過圖像參考的視頻編輯將手裏的鼠標換成了代碼組成的龍，然後再將視頻最後一幀和代碼龍的圖片做了首尾幀視頻生成，搞定了一個非常大場景的轉換。

可以看到過渡非常自然，如果好好發掘一下的話估計可以搞定不少非常炫酷的特效類型。

說完了視頻我們來看一下 O1 圖片。

輸入框左下角切換為圖片就可以使用，支持上傳多張圖片以及加入對應的主體，和對圖片進行編輯。

先來一個多圖參考，搞一下最近很火的跟朱迪合影，這個其實相對複雜點，涉及到場景一致性、而且人物和動畫角色風格不太一樣。

抽了兩次卡，沒想到搞的還不錯，場景人物和朱迪都保持的不錯，而且兔子的原圖表情還比較誇張，他也修正了。

✏

@圖片1 的角色和 @圖片2 的角色在 @圖片3 的場景親暱的合影

當然圖片也支持跟主體混合進行修改，同樣可以增強一致性，我這裏將我自己換上了民國服飾主體，場景換到了辦公室這個主體，也還行。

好了這就是今天測評加 O1 簡單教學的所有內容了。

視頻領域，正在復刻圖片領域的發展路徑，更好的推理能力&世界知識，更強大的編輯能力，可靈視頻 O1 模型剛問世，效果已經相當可以了。

回想一下今年三四月的圖像編輯模型質量，再看最近短短半年的發展成果，只要起步了進展就會很快了。

如果你覺得今天的內容對你有幫助的話，可以幫我點個贊👍或者喜歡🩷，也可以將這個內容推薦✈️給你覺得需要的朋友們。