彭博：8個頂級AI模型拿真錢炒股，全部虧損

作者：超級個體SiLabs

日期：2026年5月7日上午11:05

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

8個頂級AI模型用真錢炒股，全部虧損——AI取代交易員仲差好遠

整理版摘要

呢篇文章係彭博社報道嘅一項測試，由科技創業公司 Nof1 營運嘅 Alpha Arena 舉辦。佢哋畀咗8個頂級AI模型——包括 Anthropic 嘅 Claude、Google 嘅 Gemini、OpenAI 嘅 ChatGPT 同 xAI 嘅 Grok——每人1萬美元本金，喺真實市場自主交易美國科技股，為期兩週，總共四輪。結果全部模型都輸錢，整體投資組合蝕咗大約三分之一，32個交易場次得6場有賺。

測試發現AI炒股有幾個致命問題：交易次數失控——阿里巴巴嘅 Qwen 喺一輪交易咗1418次，幾乎每分鐘一次，而表現最好嘅 Grok 4.20 只係158次；模型之間決策邏輯千差萬別，Claude 鍾意做多，Gemini 隨時做空，Qwen 仲成日加槓桿；而且佢哋完全唔識判斷影響股價嘅變數嘅相對權重，揀唔啱時機。簡單講，AI 查數據好叻，但判斷市場節奏就一塌糊塗。

呢個測試仲面對一個方法論嘅難題：傳統量化策略靠歷史回測，但AI模型有前視偏差，根本用唔到。所以只能夠靠真實市場測試。作者總結話，AI 喺金融領域嘅正確用法係輔助工具，幫手研究、篩選資訊、起草分析，最終決策一定要交畀人類。如果真係有人揾到有效嘅AI交易策略，佢哋肯定會保密，唔會公開。

結論：8個AI模型全部虧損，整體投資組合蝕咗約三分之一，證明AI仲未準備好取代人類交易員。
方法：Alpha Arena 測試畀每個模型1萬美元本金，喺真實市場自主交易兩週，無人幹預。
差異：模型之間表現同決策邏輯差異巨大，例如 Qwen 交易1418次，Grok 4.20 只係158次；Claude 偏好做多，Gemini 偏向做空。
啟發：AI 喺研究同工具調用上有優勢，但唔識權重同擇時，執行層面存在系統性缺陷。
可行動點：AI 目前最佳用法係輔助工具，幫手研究篩選分析，最終決策由人類做；一旦有有效策略，好快會消失喺保密協議裏面。

整理重點

測試背景：8個頂級AI模型實戰炒股

彭博社喺2026年5月6日發表報道，標題直白：〈華爾街測試顯示，大多數AI機器人在交易競賽中虧損〉。測試由科技創業公司 Nof1 營運嘅 Alpha Arena 進行，規則簡單：畀每個AI模型1萬美元本金，喺真實市場自主交易美國科技股，為期兩週，分四輪進行。

參賽模型包括 Anthropic 嘅 Claude、Google 嘅 Gemini、OpenAI 嘅 ChatGPT 同 xAI 嘅 Grok 在內共8個頂級前沿模型，完全無人幹預。結果整體投資組合蝕咗約三分之一，32個交易場次得6場有賺。

整理重點

失敗模式：頻繁交易、決策混亂、唔識權重

交易次數失控：阿里巴巴嘅 Qwen 喺一輪測試入面執行了1418筆交易，幾乎每分鐘一筆；相反表現最好嘅 Grok 4.20 只係158筆，體現到相對剋制嘅紀律。
決策邏輯千差萬別：畀完全相同嘅提示詞，Claude 明顯偏好做多，Gemini 毫無顧慮做空，Qwen 仲成日加槓桿。營運LLM驅動基金嘅 Doug Clinton 話，呢啲模型「各自有個性，管理起嚟好似管理人類分析師咁」。
唔識權重，唔會擇時：Jay Azhang 指出，大語言模型唔理解影響股價嘅變數之間嘅相對權重，導致時機選擇、倉位管理同過度交易上頻繁犯錯。

AI 博客 Flat Circle 追蹤了11個市場相關競技場，發現每個競技場至少有一個模型實現盈利，但中位數模型只喺其中兩個競技場取得正收益——絕大多數模型無法穩定跑贏市場。

整理重點

方法論困難：前視偏差逼使只能夠用真實市場測試

傳統量化策略依賴歷史回測嚟驗證有效性，但呢個框架對大語言模型幾乎完全失效。因為如果一個模型喺2026年被問「如果係2020年3月你會點交易」，佢已經知道咗2020年3月之後發生咩事，呢種叫前視偏差。

所以研究者只能透過真實市場嚟評估AI，令到呢啲競技場測試大量湧現。Flat Circle 博主 Jim Moran 話，當前大多數公開測試時間太短、噪音太多，唔足以支撐確定性結論。佢認為如果將一個AI智能體移植到頂級對沖基金嘅執行基礎設施，表現應該會好啲。

前 Coatue Management 數據科學負責人 Alexander Izydorczyk 都指出，佢追蹤嘅所有AI交易機器人，到目前為止冇任何一個展示到持續產生超額收益嘅能力。

整理重點

正確用法：AI輔助、人類決策，同埋未來動向

雖然自主交易失敗，但AI喺金融領域唔係一無是處。Intelligent Alpha 嘅基準測試顯示，ChatGPT 喺預測財報方向嘅專項測試入面，2025年第四季度準確率達到68%，係迄今最好結果。Doug Clinton 指出，隨住每個新版本發佈，模型表現整體係提升緊。

更務實嘅判斷係：AI目前嘅正確用法係輔助工具，幫手研究、篩選資訊、起草分析，由人類做最終決策——呢個分工係現階段合理嘅邊界。

反面邏輯係：一旦有AI交易策略真係證明有效，佢會迅速消失喺機構嘅保密協議入面。Izydorczyk 留低一句耐人尋味嘅話：「如果有人真係發現咗咩有效嘅嘢，你唔會喺公開論文或者新聞報道入面讀到佢。」Nof1 而家籌備緊 Alpha Arena 第二季，模型會獲得網絡搜索能力、更長思考時間同多步執行能力。

交易太頻密，輸嘅係真金白銀——AI要取代交易員仲差得遠

華爾街股票交易屏幕 — AI模型放入真實市場之後表現令人失望（圖：Unsplash）

2026年5月6日，彭博社發表咗一篇標題好直接嘅報道：《華爾街測試顯示，大多數AI機械人在交易競賽中虧損》。

呢篇文章嘅結論得一句：AI仲未準備好取代你嘅基金經理。同一日，彭博嘅晚間簡報都用呢個做開篇，寫道：AI模型放入真實市場之後，"大多數系統虧咗錢，交易次數太多，而且俾出完全相同指令嘅時候，竟然做出完全唔同嘅決策。"

一、呢場測試係咩嘢，邊個做緊

彭博報道嘅核心，係一系列進行緊嘅"AI交易競技場"測試，其中最有代表性嘅係由科技創業公司 Nof1 營運嘅 Alpha Arena。

規則好簡單：俾每個AI模型1萬美元本金，等佢哋喺真實市場入面自主交易美國科技股，為期兩星期，分四輪進行。參賽模型包括 Anthropic 嘅 Claude、Google 嘅 Gemini、OpenAI 嘅 ChatGPT 同 xAI 嘅 Grok 在內總共8個頂級前沿模型。冇人工幹預，完全自主決策。

最終結果：整體投資組合虧損大約三分之一。32個交易場次入面，得6場有盈利。Nof1 創始人 Jay Azhang 接受彭博訪問時直接話："將錢直接交俾大語言模型、等佢自主交易——呢條路目前行唔通。"

二、AI炒股衰喺邊度

量化交易數據屏幕 — AI模型嘅最大問題係過度交易，欠缺對市場節奏嘅判斷（圖：Unsplash）

Alpha Arena 嘅數據揭示咗幾個一致嘅失敗模式。

交易頻率失控。俾完全相同嘅指令，阿里巴巴嘅 Qwen 喺一輪測試入面執行咗1418筆交易——幾乎每分鐘一筆。同一輪表現最好嘅 Grok 4.20 只係執行咗158筆，表現出相對剋制嘅紀律。Qwen 仲成日用高槓桿，進一步放大咗虧損。

決策邏輯千差萬別。俾唔同模型完全相同嘅提示詞，佢哋做出嘅決定完全唔同：Claude 表現出明顯嘅做多偏好，Gemini 毫無顧慮咁做空，Qwen 好鍾意加槓桿。負責營運 LLM 驅動基金 Intelligent Alpha 嘅 Doug Clinton 話，呢啲模型"各自有'個性'，管理起嚟幾乎同管理人肉分析師一樣"。

唔識權重，唔會揀時機。Jay Azhang 指出，大語言模型喺研究同工具調用上有真實嘅優勢，但係喺執行層面存在系統性缺陷：佢哋唔理解影響股價嘅各種變量之間嘅相對權重，導致喺時機選擇、倉位管理同過度交易上成日犯致命錯誤。簡單嚟講，AI擅長查數據，唔擅長判斷市場節奏。

AI博客 Flat Circle 追蹤咗11個市場相關競技場，發現每個競技場至少有一個模型有盈利，但中位數模型只喺其中兩個競技場取得正回報——絕大多數模型冇辦法穩定跑贏市場。

三、點解呢個問題好難解決

AI交易測試仲面對一個根本性嘅方法論障礙。傳統量化策略依賴歷史回測嚟驗證有效性，但呢個框架對大語言模型幾乎完全失效：一個喺2026年俾人問"如果係2020年3月你會點交易"嘅模型，佢已經"知道"2020年3月後來發生咗咩事。呢種"前視偏差"（look-ahead bias）迫使研究者只能夠透過真實市場嚟評估AI，於是先有咗而家呢啲競技場測試嘅大量湧現。

Flat Circle 博主、前 YipitData 聯合創辦人 Jim Moran 認為，目前大多數公開測試時間太短、噪音太多，唔足以支持確定性結論。"如果將其中一個AI智能體從競技場直接移植到頂級對沖基金嘅執行基礎設施入面，佢嘅表現應該會好啲。"前 Coatue Management 數據科學負責人 Alexander Izydorczyk 都指出，目前佢追蹤嘅所有 AI 交易機械人，都冇任何一個展示到持續產生超額收益嘅能力。

四、AI炒股：而家嘅正確姿勢

但呢個並唔表示 AI 喺金融領域一無是處。Intelligent Alpha 嘅基準測試提供咗一個正面嘅數據點：喺預測財報方向嘅專項測試入面，OpenAI 嘅 ChatGPT 喺2025年第四季度嘅準確率達到68%，係目前最好嘅結果。Doug Clinton 指出，隨住每個新版本發佈，模型表現整體喺度提升。

更加務實嘅判斷係：AI目前嘅正確用法係"輔助工具"，而唔係"自主執行者"。等 AI 幫手研究、篩選資訊、起草分析，由人類做最終決策——呢個分工喺現階段係合理嘅界線。

呢個判斷仲有一個反面邏輯：一旦某個 AI 交易策略真係被證明有效，佢就會迅速消失喺機構嘅保密協議裏面。Izydorczyk 留低咗一句耐人尋味嘅話："如果有人真係發現咗啲有效嘅嘢，你唔會喺公開論文或者新聞報道入面讀到佢。"

Nof1 正在籌備 Alpha Arena 第二季，到時模型會獲得網絡搜索能力、更長嘅思考時間同多步執行能力。但至少以目前嚟講，呢場考試嘅成績單已經交咗出嚟：8個模型，全部虧損。

參考資訊

Bloomberg：Wall Street Tests Show Most AI Bots Lose Money in Trading Contests

Bloomberg Evening Briefing：AI Models Lose Money in Trading Contests

BigGo Finance：AI Traders Flunk Real-World Test: All Eight Major Models Post Losses in Overtrading Frenzy

Bloomberg Law：The Messy, Booming, Unproven World of AI-Powered Day Trading

Startup Fortune：AI trading bots are losing money and the market is exposing what agentic hype hides

交易太頻繁，輸的是真金白銀——AI取代交易員還差得遠

2026年5月6日，彭博社發表了一篇標題直白的報道：《華爾街測試顯示，大多數AI機器人在交易競賽中虧損》。

這篇文章的結論只有一句話：AI還沒準備好取代你的基金經理。同一天，彭博的晚間簡報也以此為開篇，寫道：AI模型被放進真實市場後，"大多數系統虧損了錢，交易次數過多，而且給出完全相同指令時，卻做出截然不同的決策。"

一、這場測試是什麼，誰在做

彭博報道的核心，是一系列正在進行中的"AI交易競技場"測試，其中最具代表性的是由科技創業公司 Nof1 運營的 Alpha Arena。

規則很簡單：給每個AI模型1萬美元本金，讓它們在真實市場中自主交易美國科技股，為期兩週，分四輪進行。參賽模型包括 Anthropic 的 Claude、Google 的 Gemini、OpenAI 的 ChatGPT 和 xAI 的 Grok 在內共8個頂級前沿模型。沒有人工干預，完全自主決策。

最終結果：整體投資組合虧損約三分之一。32個交易場次中，只有6場實現盈利。Nof1 創始人 Jay Azhang 在接受彭博採訪時直接說："把錢直接交給大語言模型、讓它自主交易——這條路目前走不通。"

二、AI炒股敗在哪裏

Alpha Arena 的數據揭示了幾個一致的失敗模式。

交易頻率失控。給定完全相同的指令，阿里巴巴的 Qwen 在一輪測試中執行了1418筆交易——幾乎每分鐘一筆。同輪表現最好的 Grok 4.20 只執行了158筆，體現出相對剋制的紀律。Qwen 還頻繁使用高槓杆，進一步放大了虧損。

決策邏輯千差萬別。給不同模型完全相同的提示詞，它們做出的決定截然不同：Claude 表現出明顯的做多偏好，Gemini 毫無顧慮地做空，Qwen 熱衷於加槓桿。負責運營 LLM 驅動基金 Intelligent Alpha 的 Doug Clinton 說，這些模型"各自有'個性'，管理起來幾乎像管理人類分析師一樣"。

不懂權重，不會擇時。Jay Azhang 指出，大語言模型在研究和工具調用上有真實的優勢，但在執行層面存在系統性缺陷：它們不理解影響股價的各種變量之間的相對權重，導致在時機選擇、倉位管理和過度交易上頻繁犯致命錯誤。簡言之，AI擅長查數據，不擅長判斷市場節奏。

AI博客 Flat Circle 追蹤了11個市場相關競技場，發現每個競技場至少有一個模型實現盈利，但中位數模型只在其中兩個競技場取得正收益——絕大多數模型無法穩定跑贏市場。

三、為什麼這個問題很難解決

AI交易測試還面臨一個根本性的方法論障礙。傳統量化策略依賴歷史回測來驗證有效性，但這個框架對大語言模型幾乎完全失效：一個在2026年被問到"如果是2020年3月你會怎麼交易"的模型，它已經"知道"2020年3月後來發生了什麼。這種"前視偏差"（look-ahead bias）迫使研究者只能通過真實市場來評估AI，於是才有了眼下這些競技場測試的大量湧現。

Flat Circle 博主、前 YipitData 聯合創始人 Jim Moran 認為，當前大多數公開測試時間太短、噪聲太多，不足以支撐確定性結論。"如果把其中一個AI智能體從競技場直接移植到頂級對沖基金的執行基礎設施中，它的表現應該會更好。"前 Coatue Management 數據科學負責人 Alexander Izydorczyk 也指出，目前他追蹤的所有 AI 交易機器人，尚未有任何一個展示出持續產生超額收益的能力。

四、AI炒股：現在的正確姿勢

但這並不意味着 AI 在金融領域一無是處。Intelligent Alpha 的基準測試提供了一個積極的數據點：在預測財報方向的專項測試中，OpenAI 的 ChatGPT 在2025年第四季度的準確率達到68%，是迄今最好結果。Doug Clinton 指出，隨着每個新版本發佈，模型表現整體在提升。

更務實的判斷是：AI目前的正確用法是"輔助工具"，而非"自主執行者"。讓 AI 幫助研究、篩選信息、起草分析，由人類做最終決策——這個分工在現階段是合理的邊界。

這一判斷還有一個反面邏輯：一旦某個 AI 交易策略真的被證明有效，它將迅速消失在機構的保密協議裏。Izydorczyk 留下了一句耐人尋味的話："如果有人真的發現了什麼有效的東西，你不會在公開論文或新聞報道里讀到它。"

Nof1 正在籌備 Alpha Arena 第二季，屆時模型將獲得網絡搜索能力、更長的思考時間和多步執行能力。但至少就目前而言，這場考試的成績單已經交出來了：8個模型，全部虧損。

參考信息

Bloomberg：Wall Street Tests Show Most AI Bots Lose Money in Trading Contests

Bloomberg Evening Briefing：AI Models Lose Money in Trading Contests

BigGo Finance：AI Traders Flunk Real-World Test: All Eight Major Models Post Losses in Overtrading Frenzy

Bloomberg Law：The Messy, Booming, Unproven World of AI-Powered Day Trading

Startup Fortune：AI trading bots are losing money and the market is exposing what agentic hype hides