試玩PixVerse R1五分鐘，我意識到AI視頻不對勁了

作者：沃垠AI

日期：2026年1月14日上午5:19

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

PixVerse R1 係一個實時世界模型，改變AI視頻生成方式，變成可持續對話、幹預嘅視覺世界

整理版摘要

作者冷逸係測評手替，深度體驗咗PixVerse R1呢個Real-time World Model。佢想講清楚呢個模型點樣唔同傳統AI視頻，整體結論係PixVerse R1唔係「生成得更快」嘅工具，而係一個全新媒介——Playable Reality。

用戶體驗上，傳統AI視頻係輸入Prompt → 等待 → 得到固定片段；PixVerse R1係邊想邊造世界，世界唔係預製，而係即時生成。用戶可以語音輸入指令，世界實時響應，好似同一個平行世界對話。呢種交互範式令用戶變成共創者，而唔係單純使用者。

技術上，PixVerse R1由Omni基座模型、無限流式生成架構同實時生成引擎三部分構成。佢用自迴歸生成，唔係擴散模型，所以可以持續生成無限延展嘅視覺流。實時引擎將採樣步驟壓縮到1-4步，實現近乎實時嘅畫面變化。呢個模型令實時、長時序嘅AI生成世界第一次變得可行，意義在於從生成內容躍遷到生成世界。

傳統AI視頻係一次性生成結果；PixVerse R1係可實時幹預、持續演化嘅世界，用戶可以同世界對話
支援語音輸入，令幹預速度更自然，唔受打字速度限制
技術核心：Omni基座模型（多模態token流）+ 無限流式生成架構（自迴歸）+ 實時生成引擎（1-4步採樣）
自迴歸生成機制令視頻可以無限延展，而唔係固定長度片段，有長時間一致嘅世界感
呢個模型嘅意義係從「生成內容」走向「生成世界」，未來可被Agent接管，融合遊戲、仿真、訓練等場景

值得記低

連結 realtime.pixverse.ai

PixVerse R1 體驗地址

即時體驗實時世界模型

整理重點

新交互範式：邊想邊造世界

PixVerse R1 嘅核心改變係視頻唔再係一次性生成嘅結果，而係一個可實時幹預、持續演化嘅視覺世界。作者用案例展示：一個冰雪世界嘅人物可以即時命令佢跑快啲，或者加入龍捲風，所有變化都係即刻反應。

創作界面同傳統AI視頻工具完全唔同：中央畫面長期實時生成、流式播放，下方支援語音輸入。用戶輸入嘅每句指令都會立刻作用喺當前世界上，唔似以前要等一段時間先見到結果。

1 傳統AI視頻：輸入Prompt → 等待 → 固定片段
2 3D模型：先生成靜態世界再進入
3 遊戲：玩預製好嘅世界
4 PixVerse R1：邊想邊造世界，現炒現食

語音輸入係關鍵，因為世界跑起嚟之後鍵盤打字速度跟唔上。目前單次創作最長5分鐘，但未來可能無限時長，限制嘅只係想象力。

整理重點

技術拆解：三個核心組件

PixVerse公開咗技術論文，核心目標係將視頻生成從離線片段變成連續、可交互、實時響應嘅視覺流。實現方式由三部分構成：Omni基座模型、無限流式生成架構、實時生成引擎。

Omni基座模型係端到端嘅原生多模態模型，將文本、圖像、視頻、音頻統一成連續嘅token流，學咗大量真實世界數據，所以有長時間一致嘅世界感。實時引擎則將傳統幾十步採樣壓縮到1–4步，實現近乎實時嘅畫面變化。

論文demo展示：士兵用望遠鏡觀察、烏鴉飛過、巡邏隊發現、逃跑、跌喺坦克旁邊、飛機轟炸，鏡頭銜接自然，符合物理規律。

整理重點

啟示：從生成內容到生成世界

作者認為PixVerse R1嘅意義係將世界模型從離線想像推進到實時生成、即時響應、長時一致嘅階段。每一次用戶輸入唔只係剪輯點，而係一次對世界狀態嘅幹預；每一幀畫面都係下一步推理嘅上下文。

呢個世界可以被反覆運行、被規模化調用、被Agent接管

一旦做到，遊戲、仿真、訓練、創作，甚至現實決策嘅預演，都會喺同一條技術線上融合。所以總結嚟講，呢次唔係「視頻生成更快了」，而係AI第一次開始擁有一個可以長期存在嘅世界。

從「生成內容」走向「生成世界」嘅躍遷
用戶變成世界嘅共創者，而唔係使用者
未來可被Agent接管，推動遊戲、仿真、訓練等領域融合

大家好，我係冷逸，你哋嘅測評手替又上線啦。

今日，我想同大家傾一款尋晚啱啱發佈嘅Real-time World Model——PixVerse R1。

我深度體驗咗一番，呢個模型真係有啲唔同。

佢唔係一款「生成得更快」嘅影片模型（雖然速度上PixVerse一早已經冇對手），而係從根本上改變咗影片嘅生成方式同交互邏輯。

俾大家睇個case，你就明啦。

初始畫面：一個人在冰雪世界中行緊。

你可以即刻命令，叫佢跑得快啲。

亦可以令畫面中出現龍捲風（唔好問點解雪山上會見到龍捲風，冇AI辦唔到嘅事）。

成個過程非常順滑、連貫。你嘅Prompt會即刻作用喺畫面本身，即時改變影片狀態，生成一個持續演化嘅視覺世界。

完整演示錄屏我放咗喺度，一幀都冇剪。

呢個同以往嘅AI影片生成模式完全唔同：

以往嘅AI影片：輸入Prompt → 等待生成 → 得到一個固定嘅影片檔案。

而PixVerse R1令影片唔再係一次性生成嘅「結果」，而係一個可以即時幹預、持續演化嘅視覺世界。

一手體驗

尋晚模型上線之後，我深度玩咗下，同大家講下我嘅使用體驗。

體驗地址係realtime.pixverse.ai，首次打開你會見到咁樣嘅提示：

Visualize Your World in Real-time,Powered by PixVerse R1.
通過PixVerse R1，即時生成你嘅世界。

撳「Start」，進入創作頁面，可以自建主題或者揀推薦主題。

我哋揀一個「War Thunder」主題。

然後進入創作界面。

呢個時候你會發現，佢同所有傳統AI影片工具嘅界面都唔同：

中央畫面區域一直喺度即時生成、串流播放
右上角係倒數計時
下方係你嘅Prompt輸入區（支援語音）

你輸入嘅每一句指令，都會即刻作用喺當前世界上。

我錄咗一段操作過程，大家可以直觀感受下。

呢種體驗非常新鮮。

佢唔似傳統AI影片：俾一句Prompt，等一陣，拎到一個鏡頭；

亦唔似3D模型：先生成一個靜態世界，再俾你進入；

更加唔似遊戲：將一個「預先造好嘅世界」裝入盒子裏面俾你玩。

PixVerse-R1係「邊諗，邊造世界」。

世界唔係預製嘅，而係現炒嘅。一手，新鮮，而且充滿無限可能。

所以講真話，我啱啱開始體驗PixVerse R1，都冇辦法即刻俾到一個準確嘅定義。但有一點我好肯定，佢唔係現有任何一種媒體形態嘅簡單延伸。

佢更加似一個全新嘅物種。

一個可能會引領未來AI生成世界嘅全新媒介。

特別值得一提嘅係，佢都支援語音輸入。

大家都知道，鍵盤打字嘅速度，好難跟得上即時生成嘅影片世界。一旦世界開始「跑起」，語音輸入嘅優勢就好明顯。

你可以用PixVerse內置嘅語音工具，亦可以用第三方語音輸入。我都錄咗一個演示影片。

目前呢一版PixVerse R1，單次創作最長支援5分鐘。

但我覺得，呢一定唔係佢嘅終點。

未來或者會實現無限時長，到時限制佢嘅只會係我哋嘅想像力。

當然，如果淨係睇畫面質素，例如清晰度、物理細節、鏡頭精度等，佢仲未及PixVerse原始模型嘅效果，唔似大家熟悉嘅AI影片嘅質感。

但PixVerse R1開啟嘅，係一種全新嘅交互範式：

Real-time、Playable Reality

喺呢度，用戶唔再只係使用者，而更加似一個共創者，甚至係世界嘅一部分。

你唔係喺度「生成影片」，而係同一個平行世界持續對話。

佢唔係AI影片，唔係遊戲，唔係直播，亦唔係虛擬世界，而係一種可以被「玩」嘅影片現實（Playable Reality）。

從呢個角度睇，我覺得：PixVerse R1俾成個行業掟咗一枚唔係咁容易即刻理解嘅炸彈。

呢個都係點解，呢個Real-time World Model會被命名為PixVerse R1。

技術拆解

喺模型發佈嘅同時，PixVerse都公開咗佢哋嘅技術論文：

《PixVerse-R1: Next-Generation Real-Time World Model》。

核心目標得一個：將影片生成，從「離線片段」，變成「連續、可交互、即時響應嘅視覺流」。

點樣做到嘅呢？簡單嚟講由三部分構成：

Omni基座模型 + 無限串流生成架構 + 即時生成引擎

首先是Omni基座模型。

呢個係一個端到端嘅原生多模態模型，將文字、圖像、影片、音頻統一成連續嘅token流。

喺訓練階段，佢學習咗大量真實世界嘅影片數據，因此具備生成複雜、長時間一致場景嘅能力——即係我哋直觀感受到嘅「世界感」。

初始畫面：一個士兵趴喺雪地裏面，用望遠鏡觀察前方。

一隻烏鴉飛過。（綠色部分係提示詞）

巡邏隊發現咗士兵。佢開始拼命逃走。

佢跌低喺坦克旁邊。

飛機對坦克實施轟炸。

成個鏡頭銜接非常自然，而且跟從物理規律。完整嘅demo，我放咗喺度。

第二個關鍵點，係生成機制。

PixVerse R1採用嘅係自迴歸生成，而唔係傳統擴散模型嗰種「先計完整片段」嘅方式。

呢個意味住，佢可以持續生成、無限延展視覺流，而唔係淨係吐出一個固定長度嘅影片。

最後，亦係PixVerse嘅傳統強項——速度。

喺PixVerse R1中，佢哋重新設計咗即時生成引擎，將傳統影片生成中動輒幾十步嘅採樣過程，壓縮到1–4步。

所以，我哋可以見到近乎即時響應嘅畫面變化。

寫在最後

成個體驗落嚟，我嘅感覺係：PixVerse R1令即時、長時序嘅AI生成世界第一次變得可行。

呢個唔止係影片媒介嘅一次演進，更加係一次從「生成內容」走向「生成世界」嘅躍遷。

佢嘅意義在於，將「世界模型」從離線想像，推進到即時生成、即時響應、長時一致嘅階段。

每一次用戶輸入，唔止係剪輯點，而係一次對世界狀態嘅幹預；每一幀畫面，都唔止係結果，而係下一步推理嘅上下文。

一旦咁樣嘅世界可以被反覆運行、被規模化調用、被Agent接管，遊戲、仿真、訓練、創作，甚至現實決策嘅預演，都會喺同一條技術線上融合。

所以，呢個唔係「影片生成更快咗」。

而是：AI，第一次開始擁有一個可以長期存在嘅世界。

大家好，我是冷逸，你們的測評手替又上線了。

今天，我想和大家聊一款昨晚剛剛發佈的Real-time World Model——PixVerse R1。

我深度體驗了一番，這個模型還真的有點不太一樣。

它不是一款“生成得更快”的視頻模型（儘管速度上PixVerse早已沒有對手），而是從根本上改變了視頻的生成方式和交互邏輯。

給大家看個case，你就明白了。

初始畫面：一個人在冰雪世界中行走。

你可以馬上命令，讓她跑得更快點。

也可以讓畫面中出現龍捲風（別問為什麼雪山上能見到龍捲風，就沒有AI辦不到的事情）。

整個過程非常絲滑、連貫。你的Prompt會立刻作用於畫面本身，實時改變視頻狀態，生成一個持續演化的視覺世界。

完整演示錄屏我放在這裏了，一幀未剪。

這和以往的AI視頻生成模式完全不同：

以往的AI視頻：輸入Prompt → 等待生成 → 得到一個固定的視頻文件。

而PixVerse R1讓視頻不再是一次性生成的“結果”，而是一個可實時干預、持續演化的視覺世界。

一手體驗

昨晚模型上線後，我深度玩了玩，給大家說下我的使用體驗。

體驗地址是realtime.pixverse.ai，首次打開你會看到這樣的提示：

Visualize Your World in Real-time,Powered by PixVerse R1.
通過PixVerse R1，實時生成你的世界。

點擊「Start」，進入創作頁面，可以自建主題或選擇推薦主題。

我們選擇一個「War Thunder」主題。

隨後進入創作界面。

這時候你會發現，它和所有傳統AI視頻工具的界面都不一樣：

中央畫面區域始終在實時生成、流式播放
右上角是倒計時
下方是你的Prompt輸入區（支持語音）

你輸入的每一句指令，都會立刻作用在當前世界上。

我錄製了一段操作過程，大家可以直觀感受下。

這種體驗非常新鮮。

它不像傳統AI視頻：發一句Prompt，等一會兒，拿到一個鏡頭；

也不像3D模型：先生成一個靜態世界，再讓你進入；

更不像遊戲：把一個“提前造好的世界”裝進盒子裏讓你遊玩。

PixVerse-R1是在“邊想，邊造世界”。

世界不是預製的，而是現炒的。一手，鮮活，且充滿無限可能。

所以說實話，我剛開始體驗PixVerse R1，也沒法立刻給它下一個準確的定義。但有一點我很確定，它不是現有任何一種媒體形態的簡單延伸。

它更像是一個全新的物種。

一個可能會引領未來AI生成世界的全新媒介。

特別值得一提的是，它也支持語音輸入。

大家都知道，鍵盤打字的速度，很難跟上實時生成的視頻世界。一旦世界開始“跑起來”，語音輸入的優勢就非常明顯。

你可以用PixVerse內置的語音工具，也可以用第三方語音輸入。我同樣錄了一個演示視頻。

目前這一版PixVerse R1，單次創作最長支持5分鐘。

但我覺得，這一定不是它的終點。

未來或許會實現無限時長，屆時限制它的只能是我們的想象力。

當然，如果單純看畫面質量，比如清晰度、物理細節、鏡頭精度等，它還不及PixVerse原始模型的效果，不像大家熟悉的AI視頻的質感。

但PixVerse R1開啓的，是一種全新的交互範式：

Real-time、Playable Reality

在這裏，用戶不再只是使用者，而更像是一個共創者，甚至是世界的一部分。

你不是在“生成視頻”，而是在和一個平行世界持續對話。

它不是AI視頻，不是遊戲，不是直播，也不是虛擬世界，而是一種可以被“玩”的視頻現實（Playable Reality）。

從這角度看，我感覺：PixVerse R1給整個行業扔下了一枚不太容易被立刻理解的炸彈。

這也是為什麼，這個Real-time World Model會被命名為PixVerse R1。

技術拆解

在模型發佈的同時，PixVerse也公開了他們的技術論文：

《PixVerse-R1: Next-Generation Real-Time World Model》。

核心目標只有一個：把視頻生成，從“離線片段”，變成“連續、可交互、實時響應的視覺流”。

怎麼做到的呢？簡單來說由三部分構成：

Omni基座模型 + 無限流式生成架構 + 實時生成引擎

首先是Omni基座模型。

這是一個端到端的原生多模態模型，把文本、圖像、視頻、音頻統一成連續的token流。

在訓練階段，它學習了大量真實世界的視頻數據，因此具備生成複雜、長時間一致場景的能力——也就是我們直觀感受到的“世界感”。

初始畫面：一位士兵趴在雪地裏，用望遠鏡觀察前方。

一隻烏鴉飛過。（綠色部分為提示詞）

巡邏隊發現了士兵。他開始拼命逃跑。

他跌倒在坦克旁邊。

飛機對坦克實施轟炸。

整個鏡頭銜接非常自然，且遵循物理規律。完整的demo，我放在這裏了。

第二個關鍵點，是生成機制。

PixVerse R1採用的是自迴歸生成，而非傳統擴散模型那種“先算完整片段”的方式。

這意味着，它可以持續生成、無限延展視覺流，而不是隻能吐出一個固定長度的視頻。

最後，也是PixVerse的傳統強項——速度。

在PixVerse R1中，他們重新設計了實時生成引擎，把傳統視頻生成中動輒幾十步的採樣過程，壓縮到了1–4步。

所以，我們能看到近乎實時響應的畫面變化。

寫在最後

整個體驗下來，我的感覺是：PixVerse R1讓實時、長時序的AI生成世界第一次變得可行。

這不僅是視頻媒介的一次演進，更是一次從「生成內容」走向「生成世界」的躍遷。

它的意義在於，把「世界模型」從離線想象，推進到了實時生成、即時響應、長時一致的階段。

每一次用戶輸入，不只是剪輯點，而是一次對世界狀態的干預；每一幀畫面，也不只是結果，而是下一步推理的上下文。

一旦這樣的世界可以被反覆運行、被規模化調用、被Agent接管，遊戲、仿真、訓練、創作，甚至現實決策的預演，都會在同一條技術線上融合。

所以，這並不是“視頻生成更快了”。

而是：AI，第一次開始擁有一個可以長期存在的世界。