連 Karpathy 都忍不住轉發：有人把瀏覽器變成了一本「無限翻下去的連環畫」

作者：土著哥聊AI

日期：2026年5月5日上午8:11

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Flipbook：用 AI 實時生成圖像取代 HTML 網頁，但尚屬早期原型

整理版摘要

呢篇文章係關於一個叫 Flipbook 嘅 AI 原型項目，由前 OpenAI 研究員 Zain Shah 同佢嘅團隊整出嚟。佢哋喺 4 月 23 日發咗條推文，短時間內有近 570 萬閲讀量，連 AI 界頂級人物 Andrej Karpathy 都轉發咗。作者親身去體驗完之後，同大家分享呢個項目嘅核心概念同實際感受。

Flipbook 嘅最大顛覆在於：佢嘅頁面完全冇 HTML、冇代碼、冇預先設定好嘅按鈕同連結。你見到嘅每一個像素，包括圖像、文字、標註，全部係 AI 實時生成嘅圖。用戶可以喺任何位置點擊，AI 會根據點擊嘅區域生成新圖像，好似喺一張地圖上不斷探索咁。呢種體驗唔係翻預先寫好嘅書，而係「現畫現睇」。

不過，作者實際體驗發現，目前嘅版本仍然好早期。雖然基本嘅點擊探索功能用得到，但官方演示嘅實時視頻流效果需要手動開啟，而且極度耗資源，作者等咗 5 個鐘都未成功。團隊背景好強，有前 OpenAI、Apple 同 Humane 嘅成員，算力由 Modal 贊助，仲有硅谷孵化社區 South Park Commons 支持。成個項目引發一個根本問題：既然每個像素都可以按需生成，我哋仲需唔需要預先寫好嘅網頁？

Flipbook 顛覆傳統網頁，所有像素由 AI 實時生成，無固定 HTML 結構
用戶可點擊圖片任意位置，AI 根據點擊即時生成新圖像，體驗似地圖探索
視頻流功能需手動開啟，極度耗資源且唔穩定，現實體驗比演示慢好多
團隊由前 OpenAI、Apple 等經驗成員組成，獲 Modal 贊助同 South Park Commons 支持
項目引發對瀏覽器本質嘅反思：係咪需要預先寫好嘅網頁定係即時生成？

值得記低

連結 flipbook.page

Flipbook 體驗網址

直接訪問，無需註冊，但要注意目前係早期原型，體驗可能較慢

整理重點

一夜爆紅嘅 AI 原型

4 月 23 日，一條推文喺 AI 圈炸開咗，發帖人 Zain Shah 話佢同朋友整咗個叫 Flipbook 嘅原型項目。條推文好快就接近 570 萬閲讀量，連 Andrej Karpathy 都忍唔住轉帖。Karpathy 前 Tesla AI 總監、前 OpenAI 聯合創始人，佢主動轉嘅嘢通常都值得留意。

作者當日就去體驗咗，想同大家講清楚呢個項目到底係乜，點解可以令咁多人停低注意。

整理重點

無 HTML 嘅瀏覽器體驗

一般網站底層都係 HTML，一堆代碼話畀瀏覽器「呢度放按鈕、嗰度放圖、呢段文字用幾大字號」。你見到嘅頁面係程式碼渲染嘅結果。但 Flipbook 徹底顛覆咗呢件事：佢嘅頁面冇 HTML、冇代碼、冇預設嘅按鈕同連結。你見到嘅每一個像素，包括圖像、文字、標註，全部係 AI 實時生成嘅圖。

Zain Shah 講得好直白：屏幕上的一切都直接來自模型，實時傳輸，一切都如你所願。作者上傳咗一張相之後亂點，任何位置都可以點擊，點落去就會放大該區域，生成新圖像，每點一下就開一個新會話，模型根據點擊判斷你想睇咩，然後畫出嚟。

整理重點

實際體驗：慢，但充滿驚喜

作者體驗到嘅基本點擊探索功能做到，但官方演示嘅巴黎旅遊攻略場景——一層層點入去睇巴黎聖母院嘅價格、開放時間——就冇見到。原來呢個視頻流效果係實驗性功能，要手動開啓，官方都話「行為有些不可預測，非常耗資源」。

作者打開開關後等咗 5 個鐘都未成功，最後放棄咗。所以如果你去玩，要有心理預期：想睇動畫效果要先揾開關打開，然後耐心等待，仲要少少運氣。

1 基本點擊探索：上傳相片，點任何位置，AI 即時生成新圖像。
2 視頻流模式：需手動開啟，生成流暢過渡動畫，但極慢且不穩定。
3 資訊來源：聯網搜索 + 模型知識，準確度同 ChatGPT 等差不多。

整理重點

團隊理念與未來願景

做呢個項目嘅三個人：Zain Shah 係前 OpenAI AI 與機器人研究員，另外兩位 Eddie Jiao 同 Drew Carr 嚟自 Apple、Slack 同 Humane。算力由 Modal 贊助，仲有硅谷知名孵化社羣 South Park Commons 支持。

未來願景係連訂票呢啲操作都可以喺 Flipbook 完成，隨着模型更快更準，頁面可以包含更多真實數據同交互。佢哋想像一個世界，所有工具都好似真實世界咁充滿質感同視覺。呢種概念似係「瀏覽器裏嘅世界模型」。

目前 Flipbook 完全免費，唔使註冊。但作者提醒，呢個係原型，唔係打磨好嘅產品。如果你只係想感受「點邊度 AI 就畫邊度」，而家就做到；但想睇流暢視頻效果，就要去抽卡等運氣。

4 月 23 號，有條推文喺 AI 圈炸開咗，發帖人叫 Zain Shah。內容講佢同佢幾個朋友整咗個叫 Flipbook 嘅原型項目。

呢條推文好快就得到接近 570 萬嘅閲讀量，連 Andrej Karpathy 都忍唔住轉咗帖。

Karpathy 係邊個？

前 Tesla AI 總監、前 OpenAI 聯合創辦人，而家係 AI 圈公認嘅頂級技術佈道者，佢平時好少轉嘢，但佢一鬱手，基本上代表件事值得認真睇嚇。

我嗰日就去體驗咗，想同你講嚇呢樣嘢究竟係乜，同埋點解可以令咁多人停低留意佢。

先講最核心嗰樣嘢。

你而家打開任何一個網站，無論係淘寶、知乎定係微信公眾號，佢哋嘅底層都係 HTML。一大堆 code 話畀瀏覽器知「呢度放個掣、嗰度放張圖、呢段字用幾大字號顯示」。

你見到嘅頁面，本質上係 code 渲染出嚟嘅結果。

Flipbook 就將呢件事徹底顛覆咗。

佢嘅頁面冇 HTML，冇 code，冇任何預先設定好嘅掣同連結。你見到嘅每一個像素，包括圖像、文字、標註，全部都係 AI 實時生成嘅圖。

你喺屏幕上讀到嘅啲字，都唔係普通文字，而係模型「畫」出嚟嘅像素，同圖像係一體嘅。

Zain Shah 喺推文度講得好白：屏幕上嘅一切都直接嚟自模型，實時傳輸，一切都如你所願。

我自己去 flipbook.page 上傳咗一張相，然後就開始亂咁㩒。

相上面任何位置都可以㩒，㩒落去之後，佢會放大你㩒嗰個區域，生成一張新嘅圖像，深入探索嗰個位置嘅內容。

每次㩒一下，就會開一個新嘅 session，背後有個大模型喺實時運轉，根據你嘅點擊判斷你想睇乜，然後畫出嚟畀你。

呢種體驗講真都幾奇妙，唔係喺翻一本預先寫好嘅書，反而似係喺一張地圖度不斷向前行，行到邊，地圖就即時畫到邊。

作者示範嘅場景比我體驗到嘅豐富好多。

推文入面有個影片展示咗一個查巴黎旅遊攻略嘅例子，一層層㩒入去可以見到巴黎聖母院嘅參觀入場價格、開放時間同預訂建議。

但好可惜，我去實際體驗嘅時候冇見到呢個效果，一開始唔係好明點解。

後尾喺官網介紹度揾到答案，呢個影片流效果係一個要手動開嘅實驗性功能，預設係關咗嘅，而且官方自己都話"行為有啲不可預測，好食資源"。

佢嘅運作原理係將靜態圖像變成連續嘅影片流，喺每次探索嘅圖像之間生成流暢嘅過渡動畫，目前由兩套獨立系統拼埋一齊實現。

一套負責圖像生成；
另一套係專門針對實時傳輸做咗大量優化嘅影片生成模型，可以將 1080p 24 幀嘅影片實時串流到你嘅屏幕上。

作者喺推文尾都講咗，好多示範影片都經過咗加速同剪輯，現實體驗會慢啲。我嘅實際體驗都係咁，由打開開關到想睇影片流效果，等足 5 個鐘，都未成功開到，最後放棄咗~

所以如果你都去玩，心理要有呢個預期。想睇動起嚟嘅效果，首先要自己揾到個開關打開佢，然後就淨係得耐心等（仲要少少運氣，可能同魔法通道都有啲關係）...

體驗網址再放一次：
https://flipbook.page

Flipbook 嘅資訊來源係「聯網搜索」+「模型自身嘅知識儲備」，準確程度官方話大概同你用 ChatGPT、Gemini、Claude 呢啲差唔多，間中會有唔準嘅地方，但通常有真實數據做根據。

呢個都代表佢唔係對住一個固定數據庫去檢索，而係每次實時聯網，根據你嘅點擊「現揾現畫」。

做呢個項目嘅三個人，帶頭嘅係 Zain Shah，前 OpenAI AI 與機械人研究員，YC S13 校友，做過 Samsung 創意技術專家。另外兩位 Eddie Jiao 同 Drew Carr 嚟自 Apple、Slack 同 Humane。

呢三個人組成嘅團隊係具備真實工程同產品經驗嘅團隊。項目嘅算力目前由 Modal 贊助，背後仲得到硅谷知名孵化社區 South Park Commons 嘅支持。

Zain Shah 喺推文度講咗一句我覺得好有意思嘅話：

"一幅畫勝過千言萬語，但我哋嘅屏幕塞滿曬嘅全部都係文字同彩色方塊"。

佢話佢哋覺得嗰啲將「文字牆同生成式界面」包裝成未來嘅嘢，就好似「攞住支幼飲筒去飲成片智慧嘅海洋」咁。

佢哋想要嘅係一種充滿豐富視覺內容嘅運算體驗，唔係預先寫好 code 決定你睇到乜，而係真正揾到將任何嘢傳達畀你嘅最有效方式。

就算嗰個最有效嘅方式係一個字、一幅插畫、或者一張相片級別嘅渲染圖。

官網對未來嘅描述都好具體。

而家你可以喺 Flipbook 度研究旅行攻略，但要訂飛仲要去第啲網站。佢哋想做到嘅係，連訂飛呢件事將來都可以喺 Flipbook 入面完成。

隨住圖像同影片模型越來越準、越來越快，Flipbook 嘅頁面可以包含更多真實數據、更強嘅互動能力，甚至能夠執行操作同儲存數據。

用佢哋自己嘅話講，佢哋喺想像一個世界，你用嘅所有工具都好似我哋生活嘅真實世界咁，充滿質感同視覺。

呢種形容有冇覺得似係一種「瀏覽器裏面嘅世界模型」嘅味道。

而家嘅 Flipbook 係完全免費嘅，直接去 flipbook.page 就用得，唔使註冊。

但要做好心理準備，呢個項目而家確實仲比較早期、仲慢，係一個原型，唔係一個打磨好嘅產品。

如果你只係想去感受嚇「㩒邊度 AI 就幫你畫邊度」係乜嘢感覺，佢而家就可以畀到你呢個體驗。

但你想睇類似官方示範嘅影片入面嗰種實時鬱起嚟嘅影片流效果，記得喺頁面上先揾到開關手動打開，然後請抽卡耐心等待。

如果你體驗到實時影片流，都歡迎喺留言區留個言，講嚇你嘅感覺。

反觀呢個項目，我覺得佢哋團隊嘅所有成員似乎喺追問一個可能從來都冇諗過要問嘅問題：

瀏覽器已經存在咗咁多年，網頁呢個形式本身係咪啱？如果屏幕上嘅每一個像素都可以按照你真正需要嘅方式實時生成出嚟，咁「整一個預先寫好或者話固化咗嘅網站」呢件事仲有冇必要呢？

總之呢個問題暫時仲未有特別明確嘅答案，但 Flipbook 就將佢擺咗喺你面前。

呢個可能會引起你嘅思考...

既然睇到呢度，如果覺得唔錯，幫手順手㩒個「讚」、「在看」、「轉發」三連；如果想第一時間收到推送，都可以幫我加個星標★，非常感謝！

4 月 23 日，一條推文在 AI 圈炸開了，發帖人叫 Zain Shah。內容說的是他和他的幾個朋友做了一個叫 Flipbook 的原型項目。

這條推文在很短的時間內就獲得了將近 570 萬的閲讀量，連 Andrej Karpathy 都忍不住轉帖了。

Karpathy 是誰？

前特斯拉 AI 總監、前 OpenAI 聯合創始人，現在是 AI 圈內公認的頂級技術佈道者，他平時轉的東西不多，但凡他動了手，基本上就意味着這件事值得認真看一眼。

我當天就去體驗了一下，想跟你說說這個東西到底是什麼，以及它為什麼能讓這麼多人停下來注意它。

先說最核心的一件事兒。

你現在打開任何一個網站，不管是淘寶、知乎還是微信公眾號，它們的底層都是 HTML。一堆代碼告訴瀏覽器「這裏放一個按鈕、那裏放一張圖、這段文字用多大字號顯示」。

你看到的頁面，本質上是代碼渲染出來的結果。

Flipbook 則把這件事徹底顛覆了。

它的頁面沒有HTML，沒有代碼，沒有任何預先設置好的按鈕和連結。你看到的每一個像素，包括圖像、文字、標註，全部都是 AI 實時生成的圖。

你在屏幕上讀到的那些字，也不是普通的文字，而是模型「畫」出來的像素，跟圖像是一體的。

Zain Shah 在推文裏說得很直白：屏幕上的一切都直接來自模型，實時傳輸，一切都如你所願。

我自己去 flipbook.page 上傳了一張照片，然後就開始亂點。

照片上的任何位置都可以點擊，點下去之後，它會放大你點擊的那個區域，生成一張新的圖像，深入探索那個位置的內容。

每點擊一次，就會開啓一個新的會話，背後有一個大模型在實時運轉，根據你的點擊判斷你想看什麼，然後把它畫出來給你。

這種體驗說實話挺奇妙的，不是在翻一本預先寫好的書，更像是在一張地圖上不斷往裏走，走到哪裏，地圖就現畫到哪裏。

作者演示的場景比我體驗到的要豐富得多。

推文裏有一個視頻展示了一個查巴黎旅遊攻略的例子，一層層點進去能看到巴黎聖母院的參觀入場價格、開放時間及預訂建議。

但很可惜，我去實際體驗的時候並沒有看到這個效果，一開始不太明白為什麼。

後來在官網介紹裏找到了答案，這個視頻流效果是一個需要手動開啓的實驗性功能，默認是關着的，而且官方自己也說了"行為有些不可預測，非常耗資源"。

它的工作原理是把靜態圖像變成連續的視頻流，在每次探索的圖像之間生成流暢的過渡動畫，目前由兩套獨立系統拼在一起實現。

一套負責圖像生成；
另一套是專門針對實時傳輸做過大量優化的視頻生成模型，可以把1080p 24幀的視頻實時流式傳輸到你的屏幕上。

作者在推文末尾也說了，很多演示視頻都經過了加速和剪輯，現實體驗會慢一些。在我的實際體驗中也是如此，從打開開關到想查看視頻流效果，整整等了 5 個小時，也沒有開啓成功，最後讓我放棄了~

所以如果你也去玩，心裏要有這個預期。想看動起來的效果，首先得自己找到那個開關把它打開，然後剩下的就是耐心等待（還得有點兒運氣，可能跟魔法通道也有點兒關係）...

體驗網址再放一下：
https://flipbook.page

Flipbook 的信息來源是「聯網搜索」+「模型自身的知識儲備」，準確程度官方說大概和你使用 ChatGPT、Gemini、Claude 這類差不多，偶爾會有不準確的地方，但通常有真實數據作為依託。

這也意味着它不是在對着一個固定數據庫檢索，而是每次都在實時聯網，根據你的點擊「現找現畫」。

做這個項目的三個人，領頭的是 Zain Shah 是前 OpenAI AI 與機器人研究員，YC S13 校友，做過 Samsung 創意技術專家。另外兩位 Eddie Jiao 和 Drew Carr 來自 Apple、Slack 和 Humane。

這三個人組成的團體是具備真實工程和產品經驗的團隊。項目的算力目前是由 Modal 贊助，背後還獲得了硅谷知名孵化社區 South Park Commons 的支持。

Zain Shah 在推文裏說了一句讓我覺得很有意思的話：

"一幅畫勝過千言萬語，但我們的屏幕裏塞滿的全是文字和彩色方塊"。

他說他們覺得那些把「文字牆和生成式界面」包裝成未來的東西，就像「拿着一根細吸管去喝整片智慧的海洋」。

他們想要的是一種充滿豐富視覺內容的計算體驗，不是提前寫好代碼決定你能看到什麼，而是真正找到把任何東西傳達給你的最有效方式。

哪怕那個最有效的方式是一個單詞、一幅插畫、或者一張照片級別的渲染圖。

官網對未來的描述也很具體。

現在你可以在 Flipbook 裏研究旅行攻略，但要訂票還得去別的網站。他們想做到的是，連訂票這件事兒未來也能在 Flipbook 裏完成。

隨着圖像和視頻模型越來越準確、越來越快，Flipbook 的頁面可以包含更多真實數據、更強的交互能力，甚至能夠執行操作和存儲數據。

用他們自己的話說，他們在想象一個世界，你用的所有工具都像我們生活的真實世界一樣，充滿質感和視覺。

這種形容有沒有感覺像是一種「瀏覽器裏的世界模型」的味道。

現在的 Flipbook 是完全免費的，直接訪問 flipbook.page 就能用，不需要註冊。

但要做好心理準備，這個項目現在確實還比較早期、還慢，是一個原型，不是一個打磨好的產品。

如果你只是想去感受一下「點哪裏 AI 就給你畫哪裏」是什麼感覺，它現在就能給你這個體驗。

但你想看類似於官方演示的視頻中那種實時動起來的視頻流效果，記得在頁面上先找到開關手動打開，然後請抽卡耐心等待。

如果你體驗到了實時視頻流，也歡迎在評論區留個言，說說你的感覺。

反觀這個項目，我覺得他們這個團隊的所有成員似乎在追問一個可能從來都沒想過要問的問題：

瀏覽器已經存在這麼多年了，網頁這個形式本身對不對？如果屏幕上的每一個像素都能按照你真正需要的方式實時生成出來，那「做一個提前寫好或者說固化的網站」這件事兒還有沒有必要了？

反正這個問題從目前看還沒有特別明確的答案，但是 Flipbook 把它擺在了你的面前。

這可能會引起你的思考...

既然看到這兒了，如果覺得還不錯，幫忙隨手點個「贊」、「在看」、「轉發」三連；如果想第一時間收到推送，也可給我加個星標★，非常感謝！