用一隻騎自行車的鵜鶘，看懂AI這半年

作者：戴衞得

日期：2026年5月22日下午8:22

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

AI模型半年迭代五次，用「鵜鶘測試」睇真功夫：冇萬能模型，只有適合嘅模型

整理版摘要

呢篇文章出自Django聯合創始人Simon Willison，佢用「畫一隻騎自行車嘅鵜鶘」呢個標準prompt測試新AI模型，因為呢個測試同時考空間推理、細節還原同代碼生成，而且冇得刷題，係真正能力嘅指標。過去半年，OpenAI、Anthropic、Google三家嘅旗艦模型輪流坐莊，王座換咗5次主人，節奏前所未有咁密集。

作者梳理咗由2025年11月到2026年4月嘅時間線，指出唔同模型喺唔同任務上各有所長：寫代碼用Claude，做研究用Gemini，通用場景用GPT。而家「最好嘅模型」呢個概念已經模糊化，更加重要嘅係三項根本轉變：思考型模型成為標配、自主Agent落地、本地模型終於好用。呢啲改變令AI從「能聊天」進化到「能幹活」。

整體結論係：冇萬能模型，只有適合你嘅模型。讀者應該按需求揀，而唔係盲目追「最好」。作者建議寫代碼上Claude，做研究上Gemini，日常聊天用GPT，想慳錢就跑本地模型。

「畫一隻騎自行車嘅鵜鶘」係Simon Willison用嚟測試模型真本事嘅標準prompt，因為佢同時考空間推理、細節還原同代碼生成，而且冇得刷題。
過去半年「最好模型」王座換咗5次主人，OpenAI、Anthropic、Google三家交替領先，但唔同模型各有專長，冇一個萬能。
Anthropic嘅Claude偏精確，OpenAI嘅GPT偏豐富，Google嘅Gemini偏大膽，三種風格冇高下，只有各有所長。
三項根本轉變：思考型模型成標配、自主Agent落地、本地模型終於好用，呢啲改變令AI從對話變成行動。
實用建議：按任務選模型，寫代碼用Claude，做研究用Gemini，日常用GPT，想慳錢跑本地模型。

整理重點

點解一隻鵜鶘測到模型嘅真本事

Simon Willison成日話，「畫一隻騎自行車嘅鵜鶘」係佢最鍾意嘅測試，因為呢個prompt同時考驗三樣嘢：空間推理、細節還原同代碼生成。模型要諗到一隻鳥點樣坐到座椅上，腳點踩踏板，翅膀放邊度；自行車要有輪輻同鏈條，鵜鶘嘅長嘴唔可以畫成鴨嘴；最後仲要用SVG代碼畫出嚟。

程式內容 text

畫一隻騎自行車的鵜鶘

空間推理：理解鵜鶘同自行車嘅物理關係，例如腳踏踏板、翅膀位置。
細節還原：自行車要有輪輻、鏈條，鵜鶘嘅長嘴要正確。
代碼生成：輸出可執行嘅SVG代碼，考驗模型對座標、路徑嘅掌握。

整理重點

半年換位5次，發生咗咩

由2025年11月到2026年4月，「最好模型」呢個位換咗5次主人。節奏非常密集：2025年11月11日內，GPT-5.1、Gemini 3 Pro、Claude Opus 4.5輪流出場。之後每個月都有新版本。

2025.11 – Gemini 3 Pro (Google)：宣稱智能新紀元
2025.11 – Claude Opus 4.5 (Anthropic)：多模態+推理融合
2026.02 – Claude Opus 4.6 (Anthropic)：當時最強
2026.03 – GPT-5.4 Pro (OpenAI)：榜單改變者
2026.04 – Claude Opus 4.7 (Anthropic)：知識截止到2026年1月
2026.04 – GPT-5.5 (OpenAI)：最強自主Agent模型

「最好嘅模型」呢個概念本身變得模糊，因為唔同模型喺唔同任務上各有所長。寫代碼用Claude，做研究用Gemini，通用場景用GPT，已經成為2026年嘅行業共識。

整理重點

三隻鵜鶘，三個方向

如果讓三家最新模型各畫一隻鵜鶘，會見到三種完全唔同嘅風格，呢啲係技術路線差異嘅縮影。

Anthropic嘅鵜鶘偏精確：結構嚴謹，細節到位，先求準確再求創意。Claude喺編程任務上嘅統治力就係呢個路線嘅產物。
OpenAI嘅鵜鶘偏豐富：可能帶背景、配色、故事感。GPT系列走通用性路線，擅長接近人類嘅表達。
Google嘅鵜鶘偏大膽：Gemini 3 Deep Think畫嘅鵜鶘有雲、太陽、戴帽，社區公認最好。Google推推理深度，長上下文同Deep Think模式為複雜推理設計。

整理重點

呢半年真正改變咗咩

回顧過去6個月，有三件事比任何單一模型都重要：

1 思考型模型成為標配：模型回答之前先花時間諗，唔再係單純文字接龍。呢個轉變係根本性嘅。
2 自主Agent落地：GPT-5.5係「最強自主Agent模型」，從你問一句佢答一句，變成你講個目標佢自己跑流程。
3 本地模型終於好用：唔使雲端API，唔使每月200美金，自己機上就能跑夠用嘅模型，改變咗AI嘅可及性。

如果你係普通用戶，最實用嘅建議好簡單：別追「最好嘅模型」，追「最適合你嘅模型」。寫代碼上Claude，做研究上Gemini，日常聊天用GPT，想慳錢跑本地模型。

「畫一隻踩單車嘅鵜鶘。」

這是 Simon Willison 測試新 AI 模型嗰陣用嘅標準 prompt。佢係 Django 框架嘅聯合創始人，過去兩年成副心機放喺 LLM 度，寫嘅 AI 評測博客被矽谷開發者羣體當做必讀材料。唔係複雜嘅推理題，唔係代碼生成任務，就係畫一隻踩單車嘅鵜鶘。

聽落似笑話，但過去半年，呢個測試幫無數人睇清咗一件事。AI 模型之間嘅差距以前所未有嘅速度縮細，同時喺縮細入面以意想不到嘅方式拉開。

由 2025 年 11 月到今日，「世界上最好嘅 AI 模型」呢個位換咗 5 次主人。OpenAI、Anthropic、Google 三家，你追我趕，輪流坐莊。某個月你啱啱覺得「就係佢啦」，下個月另一家拋出新版本將個榜單打爛曬。

呢篇文章用 5 分鐘幫你理清楚呢半年到底發生咗啲乜，同埋點解一隻鵜鶘可以幫你判斷應該用邊個模型。

五個模型畫的鵜鶘，從 Claude Sonnet 4.5 到 Claude Opus 4.5，差距一目瞭然。圖源：Simon Willison

五個模型畫嘅鵜鶘，由 Claude Sonnet 4.5 到 Claude Opus 4.5，差距一眼睇得出。圖源：Simon Willison

01

章節

點解一隻鵜鶘可以測出模型嘅真本事

「畫一隻踩單車嘅鵜鶘」之所以有效，因為佢同時考咗三件事。

第一，空間推理。鵜鶘要騎喺單車上面，即係模型要理解一隻鳥點樣坐到座椅上，腳可唔可以踩到踏板，翅膀放喺邊。呢個唔係文字接龍可以撞啱嘅，要真係諗明物理關係。

第二，細節還原。單車要有輪輻，鏈條要連住齒輪，鵜鶘嘅長嘴唔可以畫成鴨仔嘅扁嘴。每一條都係對模型觀察力嘅測試。

第三，代碼生成。呢個測試要求輸出 SVG 矢量圖代碼，唔係一張圖片。模型要用代碼畫出一個睇得過去嘅鵜鶘，即係佢要理解座標系、路徑、顏色填充，仲要保證代碼行得到。

最關鍵嘅係，呢個測試冇得刷題。 傳統嘅 benchmark 可以俾專項訓練，但鵜鶘踩單車太奇怪啦，太獨特啦，訓練數據裏面唔會有。模型想畫得好，只能靠真正嘅理解能力。

Simon Willison 由 2024 年底開始用呢個測試。佢發現，每次有新模型發佈，鵜鶘嘅畫法都會明顯進步。由最初歪歪扭扭嘅一團，到而家睇到清晰嘅翅膀紋理同埋正確嘅單車結構。

社區甚至整咗一個專門嘅交互式網站，等所有主流模型同枱畫鵜鶘，即時對比效果。呢個測試而家已經有咗自己嘅維基詞條。

02

章節

半年換位 5 次，發生咗啲乜

過去 6 個月「最好模型」王冠傳遞嘅時間線。留意節奏。

2025 年 11 月，拐點到咗。三家旗艦模型喺 11 日內密集發佈。GPT-5.1（11月13日）、Gemini 3 Pro（11月18日）、Claude Opus 4.5（11月24日）。密集程度前所未有。

跟住節奏冇停過。Anthropic 嘅 Opus 4 系列由 2025 年 5 月到 2026 年 4 月迭代咗 5 個版本，平均每兩個月一個大版本。OpenAI 從 GPT-5 到 GPT-5.5，半年出咗 4 個版本。Google 的 Gemini 3 系列都持續更新緊。

時間	模型	廠商	關鍵變化
2025.11	Gemini 3 Pro	Google	11月18日，宣稱智能新紀元
2025.11	Claude Opus 4.5	Anthropic	11月24日，多模態+推理融合
2026.02	Claude Opus 4.6	Anthropic	2月5日，當時最勁
2026.03	GPT-5.4 Pro	OpenAI	3月3日，榜單改變者
2026.04	Claude Opus 4.7	Anthropic	4月16日，知識截止到2026年1月
2026.04	GPT-5.5	OpenAI	4月23日，最強自主Agent模型

「最好嘅模型」呢個概念本身越嚟越模糊。 因為唔同嘅模型喺唔同嘅任務上各有長處。寫代碼用 Claude，做研究用 Gemini，通用場景用 GPT，呢個已經成為 2026 年嘅行業共識。

03

章節

三隻鵜鶘，三個方向

如果俾三家嘅最新模型各畫一隻鵜鶘，你會見到三種完全唔同嘅風格。呢個唔係巧合，係三家技術路線差異嘅縮影。

Anthropic 嘅鵜鶘偏向精準。結構嚴謹，細節到位，單車畫到好似單車咁。呢個同 Claude 系列一直強調嘅「有用、無害、誠實」理念一致，先求準確，再求創意。Claude 喺編程任務上嘅統治力，都係呢個路線嘅產物。

OpenAI 嘅鵜鶘偏向豐富。唔只係鵜鶘同單車，可能仲帶背景、帶配色、帶故事感。GPT 系列一直擅長更接近人類嘅表達，由 GPT-4 嘅文字創作到 GPT-5 嘅多模態能力，行嘅係通用性路線。

Google 嘅鵜鶘偏向大膽。Gemini 3 Deep Think 嘅鵜鶘係社區公認畫得最好嘅之一，加咗雲、太陽、鵜鶘頭上仲戴咗帽。Google 嘅技術路線一直推進推理深度，Gemini 嘅長上下文同 Deep Think 模式就係為複雜推理設計嘅。

Gemini 3.1 Pro 畫的鵜鶘，戴着帽子、車籃裏還有條魚，是社區公認最好的一隻。圖源：Simon Willison

Gemini 3.1 Pro 畫嘅鵜鶘，戴住帽、車籃裏面仲有條魚，係社區公認最好嘅一隻。圖源：Simon Willison

三種風格冇高低，只有各有長處。 就好似你唔可以話鎚仔好過螺絲批，只可以話唔同嘅嘢用唔同嘅工具。

04

章節

呢半年真正改變咗啲乜

回顧過去 6 個月，有三件事比任何單一模型都重要。

第一，思考型模型成為標配。2025 年之前，LLM 就係文字接龍，你問佢就答，冇中間過程。2025 年下半年開始，模型喺回答之前先花時間諗，諗完咗再俾你答案。呢個轉變係根本性嘅。唔係變得更聰明咗，係變得更似喺度思考緊。

第二，自主Agent落地。2026 年 4 月 GPT-5.5 發佈嗰陣，OpenAI 唔再講「最強對話模型」，講嘅係「最強自主Agent模型」。由對話到行動，由你問一句佢答一句到你講個目標佢自己行完整個流程，呢個係 AI 能力嘅質變。

第三，本地模型終於好用咗。Simon Willison 喺演講裏面講，「過去半年最令人興奮嘅趨勢係本地模型終於好用咗。」唔需要雲端 API，唔需要每月 200 美元訂閲，自己嘅機器上就可以行到一個夠用嘅模型。呢條趨勢改變嘅係 AI 嘅可及性，等更多人唔會被價格門檻擋喺門外。

呢三件事疊加埋一齊，先係呢半年真正嘅故事。 唔係某個模型比某個模型多考咗 2 分，係 AI 由「傾到偈」變咗做「做到嘢」。

如果你係一個普通用戶，過去半年最實用嘅建議其實好簡單。唔好追「最好嘅模型」，追「最啱你嘅模型」。 寫代碼用 Claude，做研究用 Gemini，日常傾偈用 GPT，想慳錢就用本地。鵜鶘測試話俾你知一個樸素嘅道理，冇萬能模型，只有啱嘅模型。

· · ·

以上，既然睇到呢度啦，如果覺得唔錯，順手點個讚、在看、轉發三連啦，如果想第一時間收到推送，都可以俾我個星標⭐～

多謝你睇我嘅文章，我哋，下次再見。

往期回顧

佢將巴菲特同大空頭塞咗入同一個項目，呢個開源項目 5.9 萬星跪咗

將銀行卡號俾 ChatGPT，你敢唔敢？

裝咗呢個 Skill，我用 Notebook LM 消化嘅信息量翻咗五倍

「畫一隻騎自行車的鵜鶘。」

這是 Simon Willison 測試新 AI 模型時用的標準 prompt。他是 Django 框架的聯合創始人，過去兩年全副精力撲在 LLM 上，寫的 AI 評測博客被硅谷開發者羣體當成必讀材料。不是複雜的推理題，不是代碼生成任務，就是畫一隻鵜鶘騎自行車。

聽起來像玩笑，但過去半年，這個測試幫無數人看清了一件事。AI 模型之間的差距在以前所未有的速度縮小，又在縮小中以意想不到的方式拉開。

從 2025 年 11 月到今天，「世界上最好的 AI 模型」這個位置換了 5 次主人。OpenAI、Anthropic、Google 三家，你追我趕，輪流坐莊。某個月你剛覺得「就是它了」，下個月另一家甩出新版本把榜單掀了。

這篇文章用 5 分鐘幫你理清楚這半年到底發生了什麼，以及為什麼一隻鵜鶘能幫你判斷該用哪個模型。

五個模型畫的鵜鶘，從 Claude Sonnet 4.5 到 Claude Opus 4.5，差距一目瞭然。圖源：Simon Willison

01

CHAPTER

為什麼一隻鵜鶘能測出模型的真本事

「畫一隻騎自行車的鵜鶘」之所以有效，因為它同時考了三件事。

第一，空間推理。鵜鶘要騎在自行車上，意味着模型得理解一隻鳥怎麼坐到座椅上，腳能不能夠到踏板，翅膀放在哪。這不是文字接龍能蒙對的，得真的想明白物理關係。

第二，細節還原。自行車要有輪輻，鏈條要連着齒輪，鵜鶘的長嘴不能畫成鴨子的扁嘴。每一條都是對模型觀察力的測試。

第三，代碼生成。這個測試要求輸出 SVG 矢量圖代碼，不是一張圖片。模型得用代碼畫出一個看得過去的鵜鶘，這意味着它得理解座標系、路徑、顏色填充，還要保證代碼能跑。

最關鍵的是，這個測試沒法刷題。 傳統的 benchmark 可以被專項訓練，但鵜鶘騎自行車太奇怪了，太獨特了，訓練數據裏不會有。模型想畫好，只能靠真正的理解能力。

Simon Willison 從 2024 年底開始用這個測試。他發現，每次有新模型發佈，鵜鶘的畫法都會明顯進步。從最初歪歪扭扭的一團，到現在能看到清晰的翅膀紋理和正確的自行車結構。

社區甚至建了一個專門的交互式網站，讓所有主流模型同台畫鵜鶘，實時對比效果。這個測試現在已經有了自己的維基詞條。

02

CHAPTER

半年換位 5 次，發生了什麼

過去 6 個月「最好模型」王冠傳遞的時間線。注意節奏。

2025 年 11 月，拐點來了。三家旗艦模型在 11 天內密集發佈。GPT-5.1（11月13日）、Gemini 3 Pro（11月18日）、Claude Opus 4.5（11月24日）。密集程度前所未有。

然後節奏沒停過。Anthropic 的 Opus 4 系列從 2025 年 5 月到 2026 年 4 月迭代了 5 個版本，平均每兩個月一個大版本。OpenAI 從 GPT-5 到 GPT-5.5，半年出了 4 個版本。Google 的 Gemini 3 系列也在持續更新。

時間	模型	廠商	關鍵變化
2025.11	Gemini 3 Pro	Google	11月18日，宣稱智能新紀元
2025.11	Claude Opus 4.5	Anthropic	11月24日，多模態+推理融合
2026.02	Claude Opus 4.6	Anthropic	2月5日，當時最強
2026.03	GPT-5.4 Pro	OpenAI	3月3日，榜單改變者
2026.04	Claude Opus 4.7	Anthropic	4月16日，知識截止到2026年1月
2026.04	GPT-5.5	OpenAI	4月23日，最強自主Agent模型

「最好的模型」這個概念本身正在變得模糊。 因為不同的模型在不同的任務上各有所長。寫代碼用 Claude，做研究用 Gemini，通用場景用 GPT，這已經成為 2026 年的行業共識。

03

CHAPTER

三隻鵜鶘，三個方向

如果讓三家的最新模型各畫一隻鵜鶘，你會看到三種完全不同的風格。這不是巧合，是三家技術路線差異的縮影。

Anthropic 的鵜鶘偏向精確。結構嚴謹，細節到位，自行車畫得像自行車。這跟 Claude 系列一直強調的「有用、無害、誠實」理念一致，先求準確，再求創意。Claude 在編程任務上的統治力，也是這個路線的產物。

OpenAI 的鵜鶘偏向豐富。不只是鵜鶘和自行車，可能還帶背景、帶配色、帶故事感。GPT 系列一直擅長更接近人類的表達，從 GPT-4 的文字創作到 GPT-5 的多模態能力，走的是通用性路線。

Google 的鵜鶘偏向大膽。Gemini 3 Deep Think 的鵜鶘是社區公認畫得最好的之一，加了雲、太陽、鵜鶘頭上還戴了帽子。Google 的技術路線一直在推推理深度，Gemini 的長上下文和 Deep Think 模式就是為複雜推理設計的。

Gemini 3.1 Pro 畫的鵜鶘，戴着帽子、車籃裏還有條魚，是社區公認最好的一隻。圖源：Simon Willison

三種風格沒有高下，只有各有所長。 就像你不能說錘子比螺絲刀好，只能說不同的活用不同的工具。

04

CHAPTER

這半年真正改變了什麼

回顧過去 6 個月，有三件事比任何單一模型都重要。

第一，思考型模型成為標配。2025 年之前，LLM 就是文字接龍，你問它就答，沒有中間過程。2025 年下半年開始，模型在回答之前先花時間想，想完了再給你答案。這個轉變是根本性的。不是變得更聰明瞭，是變得更像在思考了。

第二，自主Agent落地。2026 年 4 月 GPT-5.5 發佈時，OpenAI 不再說「最強對話模型」，說的是「最強自主Agent模型」。從對話到行動，從你問一句它答一句到你說個目標它自己跑完整個流程，這是 AI 能力的質變。

第三，本地模型終於好用了。Simon Willison 在演講裏說，「過去半年最令人興奮的趨勢是本地模型終於好用了。」不需要雲端 API，不需要每月 200 美元訂閲，自己的機器上就能跑一個夠用的模型。這條趨勢改變的是 AI 的可及性，讓更多人不被價格門檻擋在門外。

這三件事疊加在一起，才是這半年真正的故事。 不是某個模型比某個模型多考了 2 分，是 AI 從「能聊天」變成了「能幹活」。

如果你是一個普通用戶，過去半年最實用的建議其實很簡單。別追「最好的模型」，追「最適合你的模型」。 寫代碼上 Claude，做研究上 Gemini，日常聊天用 GPT，想省錢跑本地。鵜鶘測試告訴你一個樸素的道理，沒有萬能模型，只有對的模型。

· · ·

以上，既然看到這裏了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標⭐～

謝謝你看我的文章，我們，下次再見。

往期回顧

它把巴菲特和大空頭塞進了同一個項目，這個開源項目 5.9 萬星跪了

把銀行卡號給 ChatGPT，你敢嗎

裝上這個 Skill，我用 Notebook LM 消化的信息量翻了五倍