彭博:8個頂級AI模型拿真錢炒股,全部虧損

作者:超級個體SiLabs
日期:2026年5月7日 上午11:05
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

8個頂級AI模型用真錢炒股,全部虧損——AI取代交易員仲差好遠

整理版摘要

呢篇文章係彭博社報道嘅一項測試,由科技創業公司 Nof1 營運嘅 Alpha Arena 舉辦。佢哋畀咗8個頂級AI模型——包括 AnthropicClaude、Google 嘅 Gemini、OpenAI 嘅 ChatGPT 同 xAI 嘅 Grok——每人1萬美元本金,喺真實市場自主交易美國科技股,為期兩週,總共四輪。結果全部模型都輸錢,整體投資組合蝕咗大約三分之一,32個交易場次得6場有賺。

測試發現AI炒股有幾個致命問題:交易次數失控——阿里巴巴嘅 Qwen 喺一輪交易咗1418次,幾乎每分鐘一次,而表現最好嘅 Grok 4.20 只係158次;模型之間決策邏輯千差萬別,Claude 鍾意做多,Gemini 隨時做空,Qwen 仲成日加槓桿;而且佢哋完全唔識判斷影響股價嘅變數嘅相對權重,揀唔啱時機。簡單講,AI 查數據好叻,但判斷市場節奏就一塌糊塗。

呢個測試仲面對一個方法論嘅難題:傳統量化策略靠歷史回測,但AI模型有前視偏差,根本用唔到。所以只能夠靠真實市場測試。作者總結話,AI 喺金融領域嘅正確用法係輔助工具,幫手研究、篩選資訊、起草分析,最終決策一定要交畀人類。如果真係有人揾到有效嘅AI交易策略,佢哋肯定會保密,唔會公開。

  • 結論:8個AI模型全部虧損,整體投資組合蝕咗約三分之一,證明AI仲未準備好取代人類交易員。
  • 方法Alpha Arena 測試畀每個模型1萬美元本金,喺真實市場自主交易兩週,無人幹預。
  • 差異:模型之間表現同決策邏輯差異巨大,例如 Qwen 交易1418次,Grok 4.20 只係158次;Claude 偏好做多,Gemini 偏向做空。
  • 啟發:AI 喺研究同工具調用上有優勢,但唔識權重同擇時,執行層面存在系統性缺陷。
  • 可行動點:AI 目前最佳用法係輔助工具,幫手研究篩選分析,最終決策由人類做;一旦有有效策略,好快會消失喺保密協議裏面。
整理重點

測試背景:8個頂級AI模型實戰炒股

彭博社喺2026年5月6日發表報道,標題直白:〈華爾街測試顯示,大多數AI機器人在交易競賽中虧損〉。測試由科技創業公司 Nof1 營運嘅 Alpha Arena 進行,規則簡單:畀每個AI模型1萬美元本金,喺真實市場自主交易美國科技股,為期兩週,分四輪進行。

參賽模型包括 AnthropicClaudeGoogleGemini、OpenAI 嘅 ChatGPT 同 xAI 嘅 Grok 在內共8個頂級前沿模型,完全無人幹預。結果整體投資組合蝕咗約三分之一,32個交易場次得6場有賺。

整理重點

失敗模式:頻繁交易、決策混亂、唔識權重

  • 交易次數失控:阿里巴巴嘅 Qwen 喺一輪測試入面執行了1418筆交易,幾乎每分鐘一筆;相反表現最好嘅 Grok 4.20 只係158筆,體現到相對剋制嘅紀律。
  • 決策邏輯千差萬別:畀完全相同嘅提示詞,Claude 明顯偏好做多,Gemini 毫無顧慮做空,Qwen 仲成日加槓桿。營運LLM驅動基金嘅 Doug Clinton 話,呢啲模型「各自有個性,管理起嚟好似管理人類分析師咁」。
  • 唔識權重,唔會擇時Jay Azhang 指出,大語言模型唔理解影響股價嘅變數之間嘅相對權重,導致時機選擇、倉位管理同過度交易上頻繁犯錯。

AI 博客 Flat Circle 追蹤了11個市場相關競技場,發現每個競技場至少有一個模型實現盈利,但中位數模型只喺其中兩個競技場取得正收益——絕大多數模型無法穩定跑贏市場。

整理重點

方法論困難:前視偏差逼使只能夠用真實市場測試

傳統量化策略依賴歷史回測嚟驗證有效性,但呢個框架對大語言模型幾乎完全失效。因為如果一個模型喺2026年被問「如果係2020年3月你會點交易」,佢已經知道咗2020年3月之後發生咩事,呢種叫 前視偏差。

所以研究者只能透過真實市場嚟評估AI,令到呢啲競技場測試大量湧現。Flat Circle 博主 Jim Moran 話,當前大多數公開測試時間太短、噪音太多,唔足以支撐確定性結論。佢認為如果將一個AI智能體移植到頂級對沖基金嘅執行基礎設施,表現應該會好啲。

Coatue Management 數據科學負責人 Alexander Izydorczyk 都指出,佢追蹤嘅所有AI交易機器人,到目前為止冇任何一個展示到持續產生超額收益嘅能力。

整理重點

正確用法:AI輔助、人類決策,同埋未來動向

雖然自主交易失敗,但AI喺金融領域唔係一無是處。Intelligent Alpha 嘅基準測試顯示,ChatGPT 喺預測財報方向嘅專項測試入面,2025年第四季度準確率達到68%,係迄今最好結果。Doug Clinton 指出,隨住每個新版本發佈,模型表現整體係提升緊。

更務實嘅判斷係:AI目前嘅正確用法係 輔助工具,幫手研究、篩選資訊、起草分析,由人類做最終決策——呢個分工係現階段合理嘅邊界。

反面邏輯係:一旦有AI交易策略真係證明有效,佢會迅速消失喺機構嘅保密協議入面。Izydorczyk 留低一句耐人尋味嘅話:「如果有人真係發現咗咩有效嘅嘢,你唔會喺公開論文或者新聞報道入面讀到佢。」Nof1 而家籌備緊 Alpha Arena 第二季,模型會獲得網絡搜索能力、更長思考時間同多步執行能力。

交易太頻密,輸嘅係真金白銀——AI要取代交易員仲差得遠

華爾街股票交易屏幕
AI模型放入真實市場之後表現令人失望(圖:Unsplash)

2026年5月6日,彭博社發表咗一篇標題好直接嘅報道:《華爾街測試顯示,大多數AI機械人在交易競賽中虧損》。

呢篇文章嘅結論得一句:AI仲未準備好取代你嘅基金經理。同一日,彭博嘅晚間簡報都用呢個做開篇,寫道:AI模型放入真實市場之後,"大多數系統虧咗錢,交易次數太多,而且俾出完全相同指令嘅時候,竟然做出完全唔同嘅決策。"


一、呢場測試係咩嘢,邊個做緊

彭博報道嘅核心,係一系列進行緊嘅"AI交易競技場"測試,其中最有代表性嘅係由科技創業公司 Nof1 營運嘅 Alpha Arena。

規則好簡單:俾每個AI模型1萬美元本金,等佢哋喺真實市場入面自主交易美國科技股,為期兩星期,分四輪進行。參賽模型包括 Anthropic 嘅 Claude、Google 嘅 Gemini、OpenAI 嘅 ChatGPT 同 xAI 嘅 Grok 在內總共8個頂級前沿模型。冇人工幹預,完全自主決策。

最終結果:整體投資組合虧損大約三分之一。32個交易場次入面,得6場有盈利。Nof1 創始人 Jay Azhang 接受彭博訪問時直接話:"將錢直接交俾大語言模型、等佢自主交易——呢條路目前行唔通。"


二、AI炒股衰喺邊度

量化交易數據屏幕
AI模型嘅最大問題係過度交易,欠缺對市場節奏嘅判斷(圖:Unsplash)

Alpha Arena 嘅數據揭示咗幾個一致嘅失敗模式。

交易頻率失控。俾完全相同嘅指令,阿里巴巴嘅 Qwen 喺一輪測試入面執行咗1418筆交易——幾乎每分鐘一筆。同一輪表現最好嘅 Grok 4.20 只係執行咗158筆,表現出相對剋制嘅紀律。Qwen 仲成日用高槓桿,進一步放大咗虧損。

決策邏輯千差萬別。俾唔同模型完全相同嘅提示詞,佢哋做出嘅決定完全唔同:Claude 表現出明顯嘅做多偏好,Gemini 毫無顧慮咁做空,Qwen 好鍾意加槓桿。負責營運 LLM 驅動基金 Intelligent Alpha 嘅 Doug Clinton 話,呢啲模型"各自有'個性',管理起嚟幾乎同管理人肉分析師一樣"。

唔識權重,唔會揀時機。Jay Azhang 指出,大語言模型喺研究同工具調用上有真實嘅優勢,但係喺執行層面存在系統性缺陷:佢哋唔理解影響股價嘅各種變量之間嘅相對權重,導致喺時機選擇、倉位管理同過度交易上成日犯致命錯誤。簡單嚟講,AI擅長查數據,唔擅長判斷市場節奏。

AI博客 Flat Circle 追蹤咗11個市場相關競技場,發現每個競技場至少有一個模型有盈利,但中位數模型只喺其中兩個競技場取得正回報——絕大多數模型冇辦法穩定跑贏市場。


三、點解呢個問題好難解決

AI交易測試仲面對一個根本性嘅方法論障礙。傳統量化策略依賴歷史回測嚟驗證有效性,但呢個框架對大語言模型幾乎完全失效:一個喺2026年俾人問"如果係2020年3月你會點交易"嘅模型,佢已經"知道"2020年3月後來發生咗咩事。呢種"前視偏差"(look-ahead bias)迫使研究者只能夠透過真實市場嚟評估AI,於是先有咗而家呢啲競技場測試嘅大量湧現。

Flat Circle 博主、前 YipitData 聯合創辦人 Jim Moran 認為,目前大多數公開測試時間太短、噪音太多,唔足以支持確定性結論。"如果將其中一個AI智能體從競技場直接移植到頂級對沖基金嘅執行基礎設施入面,佢嘅表現應該會好啲。"前 Coatue Management 數據科學負責人 Alexander Izydorczyk 都指出,目前佢追蹤嘅所有 AI 交易機械人,都冇任何一個展示到持續產生超額收益嘅能力。


四、AI炒股:而家嘅正確姿勢

但呢個並唔表示 AI 喺金融領域一無是處。Intelligent Alpha 嘅基準測試提供咗一個正面嘅數據點:喺預測財報方向嘅專項測試入面,OpenAI 嘅 ChatGPT 喺2025年第四季度嘅準確率達到68%,係目前最好嘅結果。Doug Clinton 指出,隨住每個新版本發佈,模型表現整體喺度提升。

更加務實嘅判斷係:AI目前嘅正確用法係"輔助工具",而唔係"自主執行者"。等 AI 幫手研究、篩選資訊、起草分析,由人類做最終決策——呢個分工喺現階段係合理嘅界線。

呢個判斷仲有一個反面邏輯:一旦某個 AI 交易策略真係被證明有效,佢就會迅速消失喺機構嘅保密協議裏面。Izydorczyk 留低咗一句耐人尋味嘅話:"如果有人真係發現咗啲有效嘅嘢,你唔會喺公開論文或者新聞報道入面讀到佢。"

Nof1 正在籌備 Alpha Arena 第二季,到時模型會獲得網絡搜索能力、更長嘅思考時間同多步執行能力。但至少以目前嚟講,呢場考試嘅成績單已經交咗出嚟:8個模型,全部虧損。


參考資訊

Bloomberg:Wall Street Tests Show Most AI Bots Lose Money in Trading Contests

Bloomberg Evening Briefing:AI Models Lose Money in Trading Contests

BigGo Finance:AI Traders Flunk Real-World Test: All Eight Major Models Post Losses in Overtrading Frenzy

Bloomberg Law:The Messy, Booming, Unproven World of AI-Powered Day Trading

Startup Fortune:AI trading bots are losing money and the market is exposing what agentic hype hides


交易太頻繁,輸的是真金白銀——AI取代交易員還差得遠

華爾街股票交易屏幕
AI模型被放進真實市場後表現令人失望(圖:Unsplash)

2026年5月6日,彭博社發表了一篇標題直白的報道:《華爾街測試顯示,大多數AI機器人在交易競賽中虧損》。

這篇文章的結論只有一句話:AI還沒準備好取代你的基金經理。同一天,彭博的晚間簡報也以此為開篇,寫道:AI模型被放進真實市場後,"大多數系統虧損了錢,交易次數過多,而且給出完全相同指令時,卻做出截然不同的決策。"


一、這場測試是什麼,誰在做

彭博報道的核心,是一系列正在進行中的"AI交易競技場"測試,其中最具代表性的是由科技創業公司 Nof1 運營的 Alpha Arena。

規則很簡單:給每個AI模型1萬美元本金,讓它們在真實市場中自主交易美國科技股,為期兩週,分四輪進行。參賽模型包括 Anthropic 的 Claude、Google 的 Gemini、OpenAI 的 ChatGPT 和 xAI 的 Grok 在內共8個頂級前沿模型。沒有人工干預,完全自主決策。

最終結果:整體投資組合虧損約三分之一。32個交易場次中,只有6場實現盈利。Nof1 創始人 Jay Azhang 在接受彭博採訪時直接說:"把錢直接交給大語言模型、讓它自主交易——這條路目前走不通。"


二、AI炒股敗在哪裏

量化交易數據屏幕
AI模型的最大問題是過度交易,缺乏對市場節奏的判斷(圖:Unsplash)

Alpha Arena 的數據揭示了幾個一致的失敗模式。

交易頻率失控。給定完全相同的指令,阿里巴巴的 Qwen 在一輪測試中執行了1418筆交易——幾乎每分鐘一筆。同輪表現最好的 Grok 4.20 只執行了158筆,體現出相對剋制的紀律。Qwen 還頻繁使用高槓杆,進一步放大了虧損。

決策邏輯千差萬別。給不同模型完全相同的提示詞,它們做出的決定截然不同:Claude 表現出明顯的做多偏好,Gemini 毫無顧慮地做空,Qwen 熱衷於加槓桿。負責運營 LLM 驅動基金 Intelligent Alpha 的 Doug Clinton 說,這些模型"各自有'個性',管理起來幾乎像管理人類分析師一樣"。

不懂權重,不會擇時。Jay Azhang 指出,大語言模型在研究和工具調用上有真實的優勢,但在執行層面存在系統性缺陷:它們不理解影響股價的各種變量之間的相對權重,導致在時機選擇、倉位管理和過度交易上頻繁犯致命錯誤。簡言之,AI擅長查數據,不擅長判斷市場節奏。

AI博客 Flat Circle 追蹤了11個市場相關競技場,發現每個競技場至少有一個模型實現盈利,但中位數模型只在其中兩個競技場取得正收益——絕大多數模型無法穩定跑贏市場。


三、為什麼這個問題很難解決

AI交易測試還面臨一個根本性的方法論障礙。傳統量化策略依賴歷史回測來驗證有效性,但這個框架對大語言模型幾乎完全失效:一個在2026年被問到"如果是2020年3月你會怎麼交易"的模型,它已經"知道"2020年3月後來發生了什麼。這種"前視偏差"(look-ahead bias)迫使研究者只能通過真實市場來評估AI,於是才有了眼下這些競技場測試的大量湧現。

Flat Circle 博主、前 YipitData 聯合創始人 Jim Moran 認為,當前大多數公開測試時間太短、噪聲太多,不足以支撐確定性結論。"如果把其中一個AI智能體從競技場直接移植到頂級對沖基金的執行基礎設施中,它的表現應該會更好。"前 Coatue Management 數據科學負責人 Alexander Izydorczyk 也指出,目前他追蹤的所有 AI 交易機器人,尚未有任何一個展示出持續產生超額收益的能力。


四、AI炒股:現在的正確姿勢

但這並不意味着 AI 在金融領域一無是處。Intelligent Alpha 的基準測試提供了一個積極的數據點:在預測財報方向的專項測試中,OpenAI 的 ChatGPT 在2025年第四季度的準確率達到68%,是迄今最好結果。Doug Clinton 指出,隨着每個新版本發佈,模型表現整體在提升。

更務實的判斷是:AI目前的正確用法是"輔助工具",而非"自主執行者"。讓 AI 幫助研究、篩選信息、起草分析,由人類做最終決策——這個分工在現階段是合理的邊界。

這一判斷還有一個反面邏輯:一旦某個 AI 交易策略真的被證明有效,它將迅速消失在機構的保密協議裏。Izydorczyk 留下了一句耐人尋味的話:"如果有人真的發現了什麼有效的東西,你不會在公開論文或新聞報道里讀到它。"

Nof1 正在籌備 Alpha Arena 第二季,屆時模型將獲得網絡搜索能力、更長的思考時間和多步執行能力。但至少就目前而言,這場考試的成績單已經交出來了:8個模型,全部虧損。


參考信息

Bloomberg:Wall Street Tests Show Most AI Bots Lose Money in Trading Contests

Bloomberg Evening Briefing:AI Models Lose Money in Trading Contests

BigGo Finance:AI Traders Flunk Real-World Test: All Eight Major Models Post Losses in Overtrading Frenzy

Bloomberg Law:The Messy, Booming, Unproven World of AI-Powered Day Trading

Startup Fortune:AI trading bots are losing money and the market is exposing what agentic hype hides