用一隻騎自行車的鵜鶘,看懂AI這半年

作者:戴衞得
日期:2026年5月22日 下午8:22
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

AI模型半年迭代五次,用「鵜鶘測試」睇真功夫:冇萬能模型,只有適合嘅模型

整理版摘要

呢篇文章出自Django聯合創始人Simon Willison,佢用「畫一隻騎自行車嘅鵜鶘」呢個標準prompt測試新AI模型,因為呢個測試同時考空間推理、細節還原同代碼生成,而且冇得刷題,係真正能力嘅指標。過去半年,OpenAI、Anthropic、Google三家嘅旗艦模型輪流坐莊,王座換咗5次主人,節奏前所未有咁密集。

作者梳理咗由2025年11月到2026年4月嘅時間線,指出唔同模型喺唔同任務上各有所長:寫代碼用Claude,做研究用Gemini,通用場景用GPT。而家「最好嘅模型」呢個概念已經模糊化,更加重要嘅係三項根本轉變:思考型模型成為標配、自主Agent落地、本地模型終於好用。呢啲改變令AI從「能聊天」進化到「能幹活」。

整體結論係:冇萬能模型,只有適合你嘅模型。讀者應該按需求揀,而唔係盲目追「最好」。作者建議寫代碼上Claude,做研究上Gemini,日常聊天用GPT,想慳錢就跑本地模型。

  • 畫一隻騎自行車嘅鵜鶘」係Simon Willison用嚟測試模型真本事嘅標準prompt,因為佢同時考空間推理、細節還原同代碼生成,而且冇得刷題。
  • 過去半年「最好模型」王座換咗5次主人,OpenAIAnthropicGoogle三家交替領先,但唔同模型各有專長,冇一個萬能。
  • AnthropicClaude偏精確,OpenAIGPT偏豐富,Google嘅Gemini偏大膽,三種風格冇高下,只有各有所長。
  • 三項根本轉變:思考型模型成標配、自主Agent落地、本地模型終於好用,呢啲改變令AI從對話變成行動。
  • 實用建議:按任務選模型,寫代碼用Claude,做研究用Gemini,日常用GPT,想慳錢跑本地模型。
整理重點

點解一隻鵜鶘測到模型嘅真本事

Simon Willison成日話,「畫一隻騎自行車嘅鵜鶘」係佢最鍾意嘅測試,因為呢個prompt同時考驗三樣嘢:空間推理、細節還原同代碼生成。模型要諗到一隻鳥點樣坐到座椅上,腳點踩踏板,翅膀放邊度;自行車要有輪輻同鏈條,鵜鶘嘅長嘴唔可以畫成鴨嘴;最後仲要用SVG代碼畫出嚟。

程式內容 text
畫一隻騎自行車的鵜鶘
  • 空間推理:理解鵜鶘同自行車嘅物理關係,例如腳踏踏板、翅膀位置。
  • 細節還原:自行車要有輪輻、鏈條,鵜鶘嘅長嘴要正確。
  • 代碼生成:輸出可執行嘅SVG代碼,考驗模型對座標、路徑嘅掌握。
整理重點

半年換位5次,發生咗咩

由2025年11月到2026年4月,「最好模型」呢個位換咗5次主人。節奏非常密集:2025年11月11日內,GPT-5.1Gemini 3 Pro、Claude Opus 4.5輪流出場。之後每個月都有新版本。

  • 2025.11 – Gemini 3 Pro (Google):宣稱智能新紀元
  • 2025.11 – Claude Opus 4.5 (Anthropic):多模態+推理融合
  • 2026.02 – Claude Opus 4.6 (Anthropic):當時最強
  • 2026.03 – GPT-5.4 Pro (OpenAI):榜單改變者
  • 2026.04 – Claude Opus 4.7 (Anthropic):知識截止到2026年1月
  • 2026.04 – GPT-5.5 (OpenAI):最強自主Agent模型

最好嘅模型」呢個概念本身變得模糊,因為唔同模型喺唔同任務上各有所長。寫代碼用Claude,做研究用Gemini,通用場景用GPT,已經成為2026年嘅行業共識。

整理重點

三隻鵜鶘,三個方向

如果讓三家最新模型各畫一隻鵜鶘,會見到三種完全唔同嘅風格,呢啲係技術路線差異嘅縮影。

  • Anthropic嘅鵜鶘偏精確:結構嚴謹,細節到位,先求準確再求創意。Claude喺編程任務上嘅統治力就係呢個路線嘅產物。
  • OpenAI嘅鵜鶘偏豐富:可能帶背景、配色、故事感。GPT系列走通用性路線,擅長接近人類嘅表達。
  • Google嘅鵜鶘偏大膽Gemini 3 Deep Think畫嘅鵜鶘有雲、太陽、戴帽,社區公認最好。Google推推理深度,長上下文同Deep Think模式為複雜推理設計。
整理重點

呢半年真正改變咗咩

回顧過去6個月,有三件事比任何單一模型都重要:

  1. 1 思考型模型成為標配:模型回答之前先花時間諗,唔再係單純文字接龍。呢個轉變係根本性嘅。
  2. 2 自主Agent落地GPT-5.5係「最強自主Agent模型」,從你問一句佢答一句,變成你講個目標佢自己跑流程。
  3. 3 本地模型終於好用:唔使雲端API,唔使每月200美金,自己機上就能跑夠用嘅模型,改變咗AI嘅可及性。

如果你係普通用戶,最實用嘅建議好簡單:別追「最好嘅模型」,追「最適合你嘅模型」。寫代碼上Claude,做研究上Gemini,日常聊天用GPT,想慳錢跑本地模型。


「畫一隻踩單車嘅鵜鶘。」
這是 Simon Willison 測試新 AI 模型嗰陣用嘅標準 prompt。佢係 Django 框架嘅聯合創始人,過去兩年成副心機放喺 LLM 度,寫嘅 AI 評測博客被矽谷開發者羣體當做必讀材料。唔係複雜嘅推理題,唔係代碼生成任務,就係畫一隻踩單車嘅鵜鶘。
聽落似笑話,但過去半年,呢個測試幫無數人睇清咗一件事。AI 模型之間嘅差距以前所未有嘅速度縮細,同時喺縮細入面以意想不到嘅方式拉開。
由 2025 年 11 月到今日,「世界上最好嘅 AI 模型」呢個位換咗 5 次主人。OpenAIAnthropicGoogle 三家,你追我趕,輪流坐莊。某個月你啱啱覺得「就係佢啦」,下個月另一家拋出新版本將個榜單打爛曬。
呢篇文章用 5 分鐘幫你理清楚呢半年到底發生咗啲乜,同埋點解一隻鵜鶘可以幫你判斷應該用邊個模型。
五個模型畫的鵜鶘,從 Claude Sonnet 4.5 到 Claude Opus 4.5,差距一目瞭然。圖源:Simon Willison
五個模型畫嘅鵜鶘,由 Claude Sonnet 4.5 到 Claude Opus 4.5,差距一眼睇得出。圖源:Simon Willison
01
章節

點解一隻鵜鶘可以測出模型嘅真本事
「畫一隻踩單車嘅鵜鶘」之所以有效,因為佢同時考咗三件事。
第一,空間推理。鵜鶘要騎喺單車上面,即係模型要理解一隻鳥點樣坐到座椅上,腳可唔可以踩到踏板,翅膀放喺邊。呢個唔係文字接龍可以撞啱嘅,要真係諗明物理關係。
第二,細節還原。單車要有輪輻,鏈條要連住齒輪,鵜鶘嘅長嘴唔可以畫成鴨仔嘅扁嘴。每一條都係對模型觀察力嘅測試。
第三,代碼生成。呢個測試要求輸出 SVG 矢量圖代碼,唔係一張圖片。模型要用代碼畫出一個睇得過去嘅鵜鶘,即係佢要理解座標系、路徑、顏色填充,仲要保證代碼行得到。
最關鍵嘅係,呢個測試冇得刷題。 傳統嘅 benchmark 可以俾專項訓練,但鵜鶘踩單車太奇怪啦,太獨特啦,訓練數據裏面唔會有。模型想畫得好,只能靠真正嘅理解能力。
Simon Willison 由 2024 年底開始用呢個測試。佢發現,每次有新模型發佈,鵜鶘嘅畫法都會明顯進步。由最初歪歪扭扭嘅一團,到而家睇到清晰嘅翅膀紋理同埋正確嘅單車結構。
社區甚至整咗一個專門嘅交互式網站,等所有主流模型同枱畫鵜鶘,即時對比效果。呢個測試而家已經有咗自己嘅維基詞條。
02
章節

半年換位 5 次,發生咗啲乜
過去 6 個月「最好模型」王冠傳遞嘅時間線。留意節奏。
2025 年 11 月,拐點到咗。三家旗艦模型喺 11 日內密集發佈。GPT-5.1(11月13日)、Gemini 3 Pro(11月18日)、Claude Opus 4.5(11月24日)。密集程度前所未有。
跟住節奏冇停過。Anthropic 嘅 Opus 4 系列由 2025 年 5 月到 2026 年 4 月迭代咗 5 個版本,平均每兩個月一個大版本。OpenAI 從 GPT-5 到 GPT-5.5,半年出咗 4 個版本。Google 的 Gemini 3 系列都持續更新緊。
時間
模型
廠商
關鍵變化
2025.11
Gemini 3 Pro
Google
11月18日,宣稱智能新紀元
2025.11
Claude Opus 4.5
Anthropic
11月24日,多模態+推理融合
2026.02
Claude Opus 4.6
Anthropic
2月5日,當時最勁
2026.03
GPT-5.4 Pro
OpenAI
3月3日,榜單改變者
2026.04
Claude Opus 4.7
Anthropic
4月16日,知識截止到2026年1月
2026.04
GPT-5.5
OpenAI
4月23日,最強自主Agent模型
「最好嘅模型」呢個概念本身越嚟越模糊。 因為唔同嘅模型喺唔同嘅任務上各有長處。寫代碼用 Claude,做研究用 Gemini,通用場景用 GPT,呢個已經成為 2026 年嘅行業共識。
03
章節

三隻鵜鶘,三個方向
如果俾三家嘅最新模型各畫一隻鵜鶘,你會見到三種完全唔同嘅風格。呢個唔係巧合,係三家技術路線差異嘅縮影。
Anthropic 嘅鵜鶘偏向精準。結構嚴謹,細節到位,單車畫到好似單車咁。呢個同 Claude 系列一直強調嘅「有用、無害、誠實」理念一致,先求準確,再求創意。Claude 喺編程任務上嘅統治力,都係呢個路線嘅產物。
OpenAI 嘅鵜鶘偏向豐富。唔只係鵜鶘同單車,可能仲帶背景、帶配色、帶故事感。GPT 系列一直擅長更接近人類嘅表達,由 GPT-4 嘅文字創作到 GPT-5 嘅多模態能力,行嘅係通用性路線。
Google 嘅鵜鶘偏向大膽。Gemini 3 Deep Think 嘅鵜鶘係社區公認畫得最好嘅之一,加咗雲、太陽、鵜鶘頭上仲戴咗帽。Google 嘅技術路線一直推進推理深度,Gemini 嘅長上下文同 Deep Think 模式就係為複雜推理設計嘅。
Gemini 3.1 Pro 畫的鵜鶘,戴着帽子、車籃裏還有條魚,是社區公認最好的一隻。圖源:Simon Willison
Gemini 3.1 Pro 畫嘅鵜鶘,戴住帽、車籃裏面仲有條魚,係社區公認最好嘅一隻。圖源:Simon Willison
三種風格冇高低,只有各有長處。 就好似你唔可以話鎚仔好過螺絲批,只可以話唔同嘅嘢用唔同嘅工具。
04
章節

呢半年真正改變咗啲乜
回顧過去 6 個月,有三件事比任何單一模型都重要。
第一,思考型模型成為標配。2025 年之前,LLM 就係文字接龍,你問佢就答,冇中間過程。2025 年下半年開始,模型喺回答之前先花時間諗,諗完咗再俾你答案。呢個轉變係根本性嘅。唔係變得更聰明咗,係變得更似喺度思考緊。
第二,自主Agent落地。2026 年 4 月 GPT-5.5 發佈嗰陣,OpenAI 唔再講「最強對話模型」,講嘅係「最強自主Agent模型」。由對話到行動,由你問一句佢答一句到你講個目標佢自己行完整個流程,呢個係 AI 能力嘅質變。
第三,本地模型終於好用咗。Simon Willison 喺演講裏面講,「過去半年最令人興奮嘅趨勢係本地模型終於好用咗。」唔需要雲端 API,唔需要每月 200 美元訂閲,自己嘅機器上就可以行到一個夠用嘅模型。呢條趨勢改變嘅係 AI 嘅可及性,等更多人唔會被價格門檻擋喺門外。
呢三件事疊加埋一齊,先係呢半年真正嘅故事。 唔係某個模型比某個模型多考咗 2 分,係 AI 由「傾到偈」變咗做「做到嘢」。
如果你係一個普通用戶,過去半年最實用嘅建議其實好簡單。唔好追「最好嘅模型」,追「最啱你嘅模型」。 寫代碼用 Claude,做研究用 Gemini,日常傾偈用 GPT,想慳錢就用本地。鵜鶘測試話俾你知一個樸素嘅道理,冇萬能模型,只有啱嘅模型。
· · ·
以上,既然睇到呢度啦,如果覺得唔錯,順手點個讚、在看、轉發三連啦,如果想第一時間收到推送,都可以俾我個星標⭐~
多謝你睇我嘅文章,我哋,下次再見。


往期回顧

佢將巴菲特同大空頭塞咗入同一個項目,呢個開源項目 5.9 萬星跪咗
將銀行卡號俾 ChatGPT,你敢唔敢?
裝咗呢個 Skill,我用 Notebook LM 消化嘅信息量翻咗五倍

「畫一隻騎自行車的鵜鶘。」
這是 Simon Willison 測試新 AI 模型時用的標準 prompt。他是 Django 框架的聯合創始人,過去兩年全副精力撲在 LLM 上,寫的 AI 評測博客被硅谷開發者羣體當成必讀材料。不是複雜的推理題,不是代碼生成任務,就是畫一隻鵜鶘騎自行車。
聽起來像玩笑,但過去半年,這個測試幫無數人看清了一件事。AI 模型之間的差距在以前所未有的速度縮小,又在縮小中以意想不到的方式拉開。
從 2025 年 11 月到今天,「世界上最好的 AI 模型」這個位置換了 5 次主人。OpenAIAnthropicGoogle 三家,你追我趕,輪流坐莊。某個月你剛覺得「就是它了」,下個月另一家甩出新版本把榜單掀了。
這篇文章用 5 分鐘幫你理清楚這半年到底發生了什麼,以及為什麼一隻鵜鶘能幫你判斷該用哪個模型。
五個模型畫的鵜鶘,從 Claude Sonnet 4.5 到 Claude Opus 4.5,差距一目瞭然。圖源:Simon Willison
五個模型畫的鵜鶘,從 Claude Sonnet 4.5 到 Claude Opus 4.5,差距一目瞭然。圖源:Simon Willison
01
CHAPTER

為什麼一隻鵜鶘能測出模型的真本事
「畫一隻騎自行車的鵜鶘」之所以有效,因為它同時考了三件事。
第一,空間推理。鵜鶘要騎在自行車上,意味着模型得理解一隻鳥怎麼坐到座椅上,腳能不能夠到踏板,翅膀放在哪。這不是文字接龍能蒙對的,得真的想明白物理關係。
第二,細節還原。自行車要有輪輻,鏈條要連着齒輪,鵜鶘的長嘴不能畫成鴨子的扁嘴。每一條都是對模型觀察力的測試。
第三,代碼生成。這個測試要求輸出 SVG 矢量圖代碼,不是一張圖片。模型得用代碼畫出一個看得過去的鵜鶘,這意味着它得理解座標系、路徑、顏色填充,還要保證代碼能跑。
最關鍵的是,這個測試沒法刷題。 傳統的 benchmark 可以被專項訓練,但鵜鶘騎自行車太奇怪了,太獨特了,訓練數據裏不會有。模型想畫好,只能靠真正的理解能力。
Simon Willison 從 2024 年底開始用這個測試。他發現,每次有新模型發佈,鵜鶘的畫法都會明顯進步。從最初歪歪扭扭的一團,到現在能看到清晰的翅膀紋理和正確的自行車結構。
社區甚至建了一個專門的交互式網站,讓所有主流模型同台畫鵜鶘,實時對比效果。這個測試現在已經有了自己的維基詞條。
02
CHAPTER

半年換位 5 次,發生了什麼
過去 6 個月「最好模型」王冠傳遞的時間線。注意節奏。
2025 年 11 月,拐點來了。三家旗艦模型在 11 天內密集發佈。GPT-5.1(11月13日)、Gemini 3 Pro(11月18日)、Claude Opus 4.5(11月24日)。密集程度前所未有。
然後節奏沒停過。Anthropic 的 Opus 4 系列從 2025 年 5 月到 2026 年 4 月迭代了 5 個版本,平均每兩個月一個大版本。OpenAI 從 GPT-5 到 GPT-5.5,半年出了 4 個版本。Google 的 Gemini 3 系列也在持續更新。
時間
模型
廠商
關鍵變化
2025.11
Gemini 3 Pro
Google
11月18日,宣稱智能新紀元
2025.11
Claude Opus 4.5
Anthropic
11月24日,多模態+推理融合
2026.02
Claude Opus 4.6
Anthropic
2月5日,當時最強
2026.03
GPT-5.4 Pro
OpenAI
3月3日,榜單改變者
2026.04
Claude Opus 4.7
Anthropic
4月16日,知識截止到2026年1月
2026.04
GPT-5.5
OpenAI
4月23日,最強自主Agent模型
「最好的模型」這個概念本身正在變得模糊。 因為不同的模型在不同的任務上各有所長。寫代碼用 Claude,做研究用 Gemini,通用場景用 GPT,這已經成為 2026 年的行業共識。
03
CHAPTER

三隻鵜鶘,三個方向
如果讓三家的最新模型各畫一隻鵜鶘,你會看到三種完全不同的風格。這不是巧合,是三家技術路線差異的縮影。
Anthropic 的鵜鶘偏向精確。結構嚴謹,細節到位,自行車畫得像自行車。這跟 Claude 系列一直強調的「有用、無害、誠實」理念一致,先求準確,再求創意。Claude 在編程任務上的統治力,也是這個路線的產物。
OpenAI 的鵜鶘偏向豐富。不只是鵜鶘和自行車,可能還帶背景、帶配色、帶故事感。GPT 系列一直擅長更接近人類的表達,從 GPT-4 的文字創作到 GPT-5 的多模態能力,走的是通用性路線。
Google 的鵜鶘偏向大膽。Gemini 3 Deep Think 的鵜鶘是社區公認畫得最好的之一,加了雲、太陽、鵜鶘頭上還戴了帽子。Google 的技術路線一直在推推理深度,Gemini 的長上下文和 Deep Think 模式就是為複雜推理設計的。
Gemini 3.1 Pro 畫的鵜鶘,戴着帽子、車籃裏還有條魚,是社區公認最好的一隻。圖源:Simon Willison
Gemini 3.1 Pro 畫的鵜鶘,戴着帽子、車籃裏還有條魚,是社區公認最好的一隻。圖源:Simon Willison
三種風格沒有高下,只有各有所長。 就像你不能說錘子比螺絲刀好,只能說不同的活用不同的工具。
04
CHAPTER

這半年真正改變了什麼
回顧過去 6 個月,有三件事比任何單一模型都重要。
第一,思考型模型成為標配。2025 年之前,LLM 就是文字接龍,你問它就答,沒有中間過程。2025 年下半年開始,模型在回答之前先花時間想,想完了再給你答案。這個轉變是根本性的。不是變得更聰明瞭,是變得更像在思考了。
第二,自主Agent落地。2026 年 4 月 GPT-5.5 發佈時,OpenAI 不再說「最強對話模型」,說的是「最強自主Agent模型」。從對話到行動,從你問一句它答一句到你說個目標它自己跑完整個流程,這是 AI 能力的質變。
第三,本地模型終於好用了。Simon Willison 在演講裏說,「過去半年最令人興奮的趨勢是本地模型終於好用了。」不需要雲端 API,不需要每月 200 美元訂閲,自己的機器上就能跑一個夠用的模型。這條趨勢改變的是 AI 的可及性,讓更多人不被價格門檻擋在門外。
這三件事疊加在一起,才是這半年真正的故事。 不是某個模型比某個模型多考了 2 分,是 AI 從「能聊天」變成了「能幹活」。
如果你是一個普通用戶,過去半年最實用的建議其實很簡單。別追「最好的模型」,追「最適合你的模型」。 寫代碼上 Claude,做研究上 Gemini,日常聊天用 GPT,想省錢跑本地。鵜鶘測試告訴你一個樸素的道理,沒有萬能模型,只有對的模型。
· · ·
以上,既然看到這裏了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標⭐~
謝謝你看我的文章,我們,下次再見。


往期回顧

它把巴菲特和大空頭塞進了同一個項目,這個開源項目 5.9 萬星跪了
把銀行卡號給 ChatGPT,你敢嗎
裝上這個 Skill,我用 Notebook LM 消化的信息量翻了五倍