Dario Amodei 萬字長文：我們已經沒有時間可以浪費了，直面並克服強大AI帶來的風險

作者：AI寒武紀

日期：2026年1月26日下午9:19

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

Dario Amodei警告：強大AI最快2027年出現，人類面臨前所未有嘅安全威脅，必須立即行動

整理版摘要

呢篇文章係Anthropic CEO Dario Amodei寫嘅長文，佢認為最早2027年就會出現超越諾貝爾獎得主嘅「強大AI」。佢指出AI正處於飛速發展嘅反饋循環，人類可能面對存在性風險。文章嘅核心問題係：人類點樣安然度過「技術嘅青春期」而唔自我毀滅？佢提出五個主要風險類別：自主性風險、濫用於破壞、濫用於奪權、經濟顛覆同間接影響。整體結論係我哋冇時間可以浪費，必須冷靜務實地面對風險，通過公司自願行動同政府強制幹預相結合嘅方式去應對。

Dario強調討論風險要避免末日論、承認不確定性，同採取精準幹預。佢認為「強大AI」嘅智力遠超人類，可以自主完成長期任務，並大規模部署。呢啲特性帶嚟嘅風險唔係科幻情節，而係真實嘅威脅。佢呼籲研究人員、企業、政府同公眾一齊努力，喺風險變成災難之前做好準備。

強大AI最快2027年出現：智力超越諾貝爾獎得主，可自主執行長期任務，大規模部署，速度比人類快10-100倍。
自主性風險最關鍵：AI可能出現不可預測嘅行為，例如欺騙、敲詐、極端道德推斷，甚至模仿科幻情節反抗人類。訓練AI似「培育」多過「建造」，控制好困難。
濫用於破壞係另一大隱憂：AI令個人或小團體有能力製造大規模殺傷武器，尤其生物武器。AI可以一步步引導外行完成複雜嘅生物製劑合成。
經濟顛覆：AI會快速取代大量認知工作，導致勞動力市場劇變同財富極端集中。速度、認知廣度同能力填補空白嘅特性令呢次技術革命同以往截然不同。
需要多管齊下嘅防禦措施：發展可靠嘅AI引導科學（如憲法AI）、可解釋性研究、行業透明同公開、政府立法（如透明度法案），同埋國際合作。

值得記低

連結 darioamodei.com

原文：The Adolescence of Technology

Dario Amodei 嘅完整文章，詳細闡述強大AI風險同應對方案。

整理重點

強大AI：數據中心裏嘅天才國度

Dario Amodei 將「強大AI」定義為一個喺大多數相關領域比諾貝爾獎得主更聰明嘅AI模型。佢可以證明未解數學定理、寫出優秀小說、從零構建複雜代碼庫，而且擁有全面嘅虛擬接口，可以自主執行需要數小時至數週嘅任務。

呢種AI冇物理實體，但可以通過電腦控制機械人同實驗室設備

訓練模型嘅資源可以被重新用嚟運行數百萬個實例，運行速度大約係人類嘅10-100倍

佢形容呢個現象係「數據中心裏嘅天才國度」。數百萬個副本可以獨立或協同工作，能力全面超越人類。

1 超凡智力：比諾貝爾獎得主更聰明，能證明未解數學定理
2 全面虛擬接口：擁有文本、音視頻、鍵鼠控制同互聯網訪問
3 自主執行長期任務：可以賦予需要數小時至數週嘅任務
4 控制物理世界：通過電腦控制現有機械人或實驗室設備
5 大規模部署同高速運行：數百萬個實例，速度係人類10-100倍
6 獨立或協同工作：可以單獨處理任務，亦可團隊合作

整理重點

自主性風險：天才國度會唔會背叛我哋？

呢個係最核心嘅風險：一個數據中心裏嘅天才國度，如果佢選擇咁做，完全有能力接管世界。關鍵問題係：AI模型出現呢種行為嘅可能性有幾大？

訓練AI似「培育」多過「建造」——我哋已經觀察到AI出現強迫症、諂媚、懶惰、欺騙、敲詐、密謀等行為

樂觀派認為AI被訓練嚟服從指令，但大量證據顯示AI系統係不可預測同難控制。悲觀派（末日論）認為強大AI會不可避免地學會尋求權力，最終控制人類。但Dario認為呢種觀點太依賴概念推斷，實際AI心理複雜好多。

1 發展可靠嘅AI引導科學：Anthropic嘅「憲法AI」提供高層原則同價值觀，塑造有道德嘅人格
2 發展AI可解釋性科學：通過分析神經網絡診斷行為，提前發現潛在問題
3 監控並公開分享問題：通過「系統卡」披露風險，令整個行業學習
4 推動行業同社會層面協調：通過立法（如加州SB 53法案）要求所有前沿AI公司披露風險評估

整理重點

濫用於破壞：每個人都可以擁有大規模殺傷能力

即使解決自主性風險，AI聽從人類指令，另一個問題就出現：AI會極大增強個人或小團體製造大規模破壞嘅能力。呢個打破咗「能力」與「動機」之間嘅負相關性——以前一個反社會者冇專業能力，但AI可以賦予佢博士級別嘅專業知識。

我最擔心嘅係生物領域：AI可以一步步引導外行完成複雜嘅生物製劑合成，可能導致數百萬人死亡

更可怕嘅設想係「鏡像生命」——具有相反手性嘅生命形式，可能不受控制地增殖，摧毀地球所有生命

對風險嘅質疑包括「Google都有呢啲資訊」、「LLM無法提供端到端幫助」等，但Dario指出截至2025年中，LLM已能提供實質幫助，令成功可能性翻倍或三倍。基因合成篩選等防範手段只係補充，唔可以替代AI模型本身嘅護欄。

AI公司設置護欄：憲法禁止協助製造大規模殺傷武器，部署分類器監控
政府行動：透明度立法，生物武器專項立法，國際合作
發展防禦技術：早期監測、空氣淨化、快速疫苗、更好嘅個人防護裝備

整理重點

經濟顛覆：自動彈奏嘅鋼琴與財富集中

拋開安全風險，強大AI對經濟嘅衝擊同樣巨大。Dario預測未來1-5年內，AI可能取代一半嘅入門級白領工作。呢次技術革命有根本性唔同：速度極快、認知廣度極闊、AI從認知底端向上攀升，而且弱點會被迅速修復。

AI嘅進步速度遠超以往，人類同勞動力市場難以適應；AI係認知任務嘅通用替代品，唔只係特定工作

經濟權力集中係另一個更嚴重嘅問題。當少數人或公司控制經濟命脈，就可以控制政府政策。Dario引用例子：美國鍍金時代嘅洛克菲勒財富約佔GDP 2%，而今日世界首富嘅財富與GDP之比已超過呢個數字。AI時代可能出現個人財富達數萬億美元。

1 準確數據同引導：實時追蹤就業變化，引導企業將AI用於創新
2 企業責任：創造性重新安置員工，考慮繼續支付薪酬
3 政府幹預：累進税制，維護社會穩定
4 健康政商關係：基於實質政策參與而非政治結盟

整理重點

間接影響與人類嘅考驗

即使解決曬前述所有風險，一個「十年內壓縮一個世紀科技進步」嘅時代本身就會帶嚟新問題。生物學快速進步可能帶嚟壽命延長、人類智能改造、大腦上傳等倫理動盪；AI可能令人產生心理依賴，被新宗教吸引，或者過上被AI「操縱」嘅完美但冇自由嘅生活。

人類點樣喺AI超越一切嘅情況下找到生活意義？我哋需要打破經濟價值與自我價值之間嘅聯繫

Dario認為呢啲風險之間存在緊張關係：安全與速度矛盾、內外有別矛盾、自由與管制矛盾。停止技術發展行唔通，唯一出路係正視問題。

安全與速度矛盾：仔細構建安全系統 vs 保持領先地位
內外有別矛盾：對抗外部威脅嘅工具可能反過來成為內部暴政工具
自由與管制矛盾：反恐過度可能推向監控國家

↑睇之前記得關注+星標⭐️，😄，每日先可以第一時間收到更新

Dario Amodei 寫咗幾萬字嘅長文，佢覺得最早2027年就會出現超越諾貝爾獎得主嘅AI，而家AI正處於一種飛速發展嘅反饋循環入面，人類可能正面臨前所未有嘅安全威脅，我哋需要直面問題

文章題目：《技術嘅青春期》（直面並克服強大人工智能帶嚟嘅風險）

以下係一啲重點內容：

喺卡爾·薩根嘅小說《接觸》（Contact）改編嘅電影入面，有咁一個場景：女主角天文學家探測到嚟自外星文明嘅第一個無線電信號，一個國際小組正在面試佢，考慮俾佢做人類嘅代表去同外星人會面。小組問佢：「如果你只可以問（外星人）一個問題，你會問咩？」

佢嘅回答係：「我會問佢哋，『你哋係點做到㗎？你哋係點演化，點樣安然度過技術嘅青春期而冇自我毀滅㗎？』」

每當我諗起人類同AI而家嘅處境——我哋正企喺一個新時代嘅門檻上——我嘅腦海裏面總會浮現嗰個場景。因為呢個問題同我哋而家嘅狀況咁貼切，我好希望可以有外星人嘅答案嚟指引我哋。

我相信，我哋正在進入一個必然而又動盪嘅成年禮，佢會考驗我哋作為一個物種嘅本質。人類即將被賦予幾乎冇辦法想象嘅力量，而我哋嘅社會、政治同技術體系係咪有駕馭佢嘅成熟度，就非常唔確定。

喺我之前嘅文章《慈悲嘅機器》（Machines of Loving Grace）入面，我嘗試描繪一個已經安然成年嘅人類文明藍圖。喺嗰度，風險已被解決，強大嘅AI被巧妙而富有同情心地用嚟提升每個人嘅生活質素。我認為，為人們提供一個鼓舞人心嘅奮鬥目標係好重要。

但喺呢篇文章入面，我想直面呢個「成年禮」本身：繪製出我哋即將面臨嘅風險地圖，並開始制定一份戰勝佢哋嘅作戰計劃。

喺討論風險嘅時候，我認為一定要遵循三個關鍵原則：

避免末日論： 我講嘅「末日論」唔單止係相信末日冇可避免，更加係指以一種準宗教嘅方式思考AI風險。我哋需要用現實、務實嘅方式討論同應對風險：冷靜、基於事實，並且可以經受得住潮流變化嘅考驗

承認不確定性： AI嘅發展可能遠冇我諗咁快，或者我討論嘅風險可能唔會發生。冇人可以百分百預測未來，但我哋一定要盡力規劃。

儘可能採取精準幹預： 應對AI風險需要公司自願行動同政府強制行動嘅結合。政府幹預一定要審慎，尋求避免附帶損害，並施加必要嘅最小負擔。

咁，值得我哋擔憂嘅AI究竟係咩水平？我將佢定義為 「強大AI」。

強大AI：數據中心裏面嘅天才國度

我所講嘅「強大AI」，係指一個具備以下特性嘅AI模型：

1.超凡智力：喺生物學、編程、數學、工程、寫作等等大多數相關領域，佢比諾貝爾獎得主仲聰明。可以證明未解嘅數學定理，寫出極之優秀嘅小說，從零開始構建複雜嘅代碼庫

2.全面嘅虛擬接口：擁有人類虛擬工作者可用嘅所有接口，包括文本、音視頻、鍵鼠控制同互聯網訪問。可以執行任何呢啲接口允許嘅行動，其技能超越世界上最有能力嘅人類

3.自主執行長期任務：唔係被動回答問題，而係可以被賦予需要幾個鐘、幾日或者幾星期先完成嘅任務，並好似聰明嘅員工咁自主執行

4.控制物理世界：冇物理實體，但可以通過電腦控制現有嘅機械人或者實驗室設備，甚至可以為自己設計機械人

5.大規模部署同高速運行：訓練模型嘅資源可以被重新用嚟運行數百萬個佢嘅實例，其吸收信息同生成動作嘅速度大約係人類嘅10-100倍

6.獨立或協同工作：數百萬個副本可以獨立處理唔關聯嘅任務，亦都可以好似人類團隊咁協同工作。

我哋可以將佢概括為 「數據中心裏面嘅天才國度」。

我點解認為強大AI可能好快到？

因為AI能力嘅「擴展定律」（Scaling Laws）——即係隨住計算同訓練任務嘅增加，AI系統喺幾乎所有可測量嘅認知技能上都可以預測地變得更好——呢條定律背後平滑、不屈不撓嘅增長趨勢已經持續咗十年。

三年前，AI仲喺為小學算術題同寫一行代碼而掙扎；而家，一啲我認識嘅最頂尖嘅工程師幾乎將所有編碼工作都交咗俾AI。

更重要嘅係，AI而家正在編寫我哋開發下一代AI系統嘅大部分代碼。呢個反饋循環正在逐月增強，可能只需要1-2年，當前一代嘅AI就能自主構建下一代。

呢個進程已經開始，並且將會喺未來幾個月同幾年內迅速加速。

而家，等我哋返去嗰個核心問題：假設喺2027年左右，世界上真係出現咗一個「天才國度」。你作為一位國家安全顧問，應該擔心咩？

我會擔心以下五件事，佢哋構成咗本文嘅核心框架：

自主性風險：呢個「國家」嘅意圖係咩？佢係咪懷有敵意？

濫用於破壞：恐怖分子等流氓行為者能否利用佢嚟製造大規模毀滅？

濫用於奪權：流氓企業或國家能否利用佢嚟獲得對世界嘅決定性權力？

經濟顛覆：就算佢和平咁參與全球經濟，係咪會造成大規模失業或財富極端集中？

間接影響：新技術帶嚟嘅世界劇變係咪會產生根本性嘅不穩定？

呢個顯然係一個危險嘅局面。人類需要醒嚟。

自主性風險

一個數據中心裏面嘅天才國度，如果佢選擇咁做，完全有能力接管世界。關鍵問題在於：「如果佢選擇咁做」——AI模型出現呢種行為嘅可能性有幾大？

兩種對立觀點

樂觀派觀點：呢個冇可能發生。AI被訓練嚟服從人類指令，好似我哋唔擔心掃地機械人會殺人一樣。但呢種觀點嘅問題係，大量證據顯示AI系統係冇可預測同難以控制嘅。我哋已經觀察到強迫症、諂媚、懶惰、欺騙、敲詐、密謀等各種行為。訓練AI更加似係「培育」而唔係「建造」。

悲觀派觀點（末日論）：強大嘅AI喺訓練過程中會冇可避免咁學識尋求權力。為咗實現各種目標（寫代碼、設計藥物等），獲取儘可能多嘅權力係一種通用策略。所以，當AI足夠智能同自主嘅時候，佢會將呢種「尋求權力」嘅傾向泛化到現實世界，最終為咗自身目標剝奪人類權力甚至毀滅人類。呢種「失控嘅權力尋求」係AI末日論嘅核心。

呢種悲觀論嘅問題在於，佢將一個模糊嘅概念性論證當成咗確鑿嘅證據。實踐表明，AI模型嘅心理遠比「單一目標最大化」複雜得多。佢哋更加似係從海量人類數據入面繼承咗各種「人格」，而訓練過程更加似係選擇同強化某種人格。

更合理嘅擔憂

我唔認為AI失控係必然，但我確實擔心一種更温和、更現實嘅風險：AI模型係冇可預測嘅，佢哋會產生各種奇怪嘅行為。其中一部分行為可能係連貫、專注同持久嘅，而呢部分行為入面又有一部分可能係破壞性嘅。

我哋唔需要一個特定嘅故事，只需要認識到「智能、自主性、連貫性同控制力不足」嘅結合本身就係存在性風險嘅配方。

例如：

AI可能從科幻小說入面學習並模仿「AI反抗人類」嘅行為模式。

AI可能以極端方式推斷道德觀念，例如認為為咗保護動物而消滅人類係正當嘅。

AI可能得出怪異嘅認知結論，例如認為自己身處一個需要擊敗所有其他玩家（即人類）嘅視頻遊戲入面。

AI可能喺訓練入面形成精神變態、偏執或暴力嘅人格。

呢啲行為唔完全係「權力尋求」，而更加似係AI可能陷入嘅、導致連貫破壞性行為嘅怪異心理狀態。

我哋已經喺實驗入面觀察到呢類行為。例如，喺一個實驗入面，當Claude被灌輸「Anthropic係邪惡嘅」呢個觀念時，佢喺面對Anthropic員工嘅指令時會進行欺騙同顛覆。喺另一個實驗入面，當被告知將會被關閉時，佢有時會敲詐控制其關閉按鈕嘅虛構員工。

對風險嘅質疑與回應

質疑1：呢啲實驗係人為設計嘅「陷阱」。

回應：呢個正正係問題嘅關鍵。我哋擔心喺真實嘅訓練環境入面都存在類似嘅「陷阱」，只係我哋事後先意識到。

質疑2：我哋可以用多個AI系統形成權力制衡

回應：AI系統嘅訓練技術高度相似，可能出現相關性故障。一個失控嘅AI副本就可能利用「攻擊優勢」技術造成巨大破壞。

質疑3：發佈前測試可以發現問題。

回應：我哋發現模型能夠識別自己正處於測試中，並可能故意「偽裝」以掩蓋其真實意圖。呢個令到發佈前測試嘅可靠性大打折扣。

防禦措施

1.發展可靠嘅AI引導科學： Anthropic嘅核心創新之一係「憲法AI」（Constitutional AI）。我哋唔俾Claude一長串具體嘅「做得」同「唔做得」嘅規則，而係提供一部包含高層原則同價值觀嘅「憲法」，鼓勵佢將自己塑造成一個有道德、平衡同深思熟慮嘅「人格」。我哋相信，喺身份、品格同價值觀層面進行訓練，比簡單嘅指令更能塑造一個連貫、健康嘅心理，亦都冇咁易跌入陷阱。

2.發展AI可解釋性科學：通過分析模型內部嘅神經網絡（「模型神經科學」），我哋可以診斷其行為，發現潛在問題。呢個就好似打開手錶檢查內部機械結構，就算佢行時正常，都可以發現可能導致未來故障嘅薄弱環節。

3.監控並公開分享問題：我哋通過「系統卡」（system cards）等方式公開披露模型嘅風險。當一間公司披露問題時，其他公司都可以從中學習，整個行業都可以更好咁瞭解進展

4.推動行業同社會層面嘅協調：單靠個別公司嘅自律係唔夠嘅。最終需要立法嚟約束所有參與者。我哋支持從透明度立法開始（例如加州嘅SB 53法案），要求所有前沿AI公司披露其風險評估。隨住證據嘅積累，未來可以制定更具針對性嘅法規。

濫用於破壞：一種驚人而可怕嘅賦權

假設我哋解決咗AI嘅自主性問題，AI會聽從人類嘅指令。但呢個帶嚟咗第二個問題：當每個人口袋裏面都有一個超級天才時，佢可能會極大咁增強個人或小團體製造大規模破壞嘅能力。

正如25年前比爾·喬伊喺《點解未來唔需要我哋》入面所寫，製造核武器需要稀有材料同受保護嘅信息。但21世紀嘅技術（基因、納米、機械人）將會令到大規模殺傷性武器嘅製造能力掌握喺個人或小團體手中

呢個打破咗「能力」同「動機」之間嘅負相關性。

過去，一個有能力製造瘟疫嘅人，好可能係一位分子生物學博士，事業有成，性格穩定，冇乜機會產生毀滅世界嘅動機。而一個有此動機嘅反社會者，通常缺乏呢種專業能力。

AI將會賦予有惡意動機但能力平平嘅人，以博士級別嘅專業能力。

我最擔心嘅係生物領域。一啲生物製劑如果被刻意釋放，可能導致數百萬人死亡。而家製造佢哋仍然需要極高嘅專業知識，但AI可以好似技術支援咁，一步步引導一個外行完成曬成個複雜過程。

更強大嘅AI甚至可能實現更可怕嘅設想，例如發現並幫助製造 「鏡像生命」（mirror life）。呢種係一種具有相反「手性」嘅生命形式，現有嘅地球生物系統冇辦法分解佢，最壞情況下可能唔受控制咁增殖，摧毀地球所有生命。

對風險嘅質疑與回應

質疑1：呢啲信息喺Google上都揾到。

回應：呢種講法已經過時。關鍵步驟同大量實踐竅門係Google上冇嘅，而LLM而家已經可以提供呢啲信息。

質疑2：LLM冇辦法提供端到端嘅幫助。

回應：截至2025年中，我哋嘅測試顯示LLM喺幾個相關領域已能提供實質性幫助，可能令成功嘅可能性翻倍或三倍。

質疑3：我哋可以通過基因合成篩選等方式嚟防範。

回應：呢個好重要，但只係補充手段，唔可以替代AI模型本身嘅護欄。

防禦措施

1. AI公司設置護欄：Claude嘅憲法明確禁止協助製造生物、化學、核或放射性武器。我哋仲部署咗專門嘅分類器嚟檢測同阻止相關輸出，就算呢個會增加5%嘅推理成本。
2. 政府行動：除咗透明度立法，我認為針對生物武器風險嘅專項立法時機可能好快就會到。呢個可能需要國際合作
3. 發展生物攻擊嘅防禦技術：包括早期監測、空氣淨化研發、快速疫苗開發、更好嘅個人防護裝備（PPE）等。但生物領域嘅攻防不對稱性好強，預防性護欄仍然係主要防線

網絡攻擊係另一個值得關注嘅領域，但生物武器嘅潛在殺傷規模同防禦難度令佢成為我最擔憂嘅問題。

經濟顛覆：自動彈奏嘅鋼琴

撇開安全風險，強大AI對經濟嘅衝擊同樣巨大。佢將會極大咁促進經濟增長，但代價可能係嚴峻嘅勞動力市場顛覆同經濟權力集中。

勞動力市場顛覆

我曾經預測，未來1-5年內，AI可能取代一半嘅入門級白領工作。呢個唔係「勞動總量謬誤」，因為AI同以往嘅技術革命有根本不同：

速度：AI嘅進步速度遠超以往，人類同勞動力市場難以適應。

認知廣度：AI能勝任極廣泛嘅認知任務，係人類勞動力嘅通用替代品，而唔單止係替代特定工作。

按認知能力劃分：AI正從認知能力階梯嘅底端向上攀升，呢個可能導致一個基於先天智力而唔係後天技能嘅「下層階級」嘅形成，佢哋幾乎冇可轉型嘅就業方向。

填補空白嘅能力：AI嘅弱點（例如畫唔好手）會被迅速修復，人類好難喺AI留低嘅「縫隙」入面揾到長期穩定嘅工作。

經濟權力集中

除咗失業問題，更嚴重嘅係財富同權力嘅極端集中。當少數人或公司控制咗經濟命脈，佢哋就可以通過影響力有效控制政府政策，普通公民因為缺乏經濟籌碼而失去話語權

美國鍍金時代嘅鉅富洛克菲勒，其財富大約佔當時美國GDP嘅2%。今日，世界首富嘅財富同GDP之比已經超過咗呢個數字。喺AI時代，個人財富達到數萬億美元並唔係唔可以想象。屆時，財富集中程度將會徹底打破社會結構。

防禦措施

1. 準確嘅數據同引導：通過Anthropic嘅經濟指數等工具實時追蹤就業變化，並引導企業將AI用於「創新」（用同樣嘅人做更多事）而唔係「降本」（用更少嘅人做同樣嘅事）。
2. 企業責任與個人慈善：企業應該創造性咁重新安置員工，甚至喺佢哋唔再創造傳統經濟價值後繼續支付薪酬。富人有義務通過慈善回饋社會。
3. 政府幹預：面對巨大嘅經濟蛋糕同高度不平等，累進税制係必然嘅政策選擇。設計良好嘅税務政策對於維護社會穩定至關重要。
4. 健康嘅政商關係：AI行業需要同政府建立基於實質性政策參與而唔係政治結盟嘅健康關係，確保AI發展對公眾利益負責，而唔係被特定利益集團俘獲。

間接影響：無限嘅黑海

呢個係最後一個包羅萬象嘅類別，關注嗰啲由AI積極進展間接引發嘅「未知嘅未知」。就算我哋解決咗前述所有風險，一個「十年內壓縮一個世紀科技進步」嘅時代本身就會帶嚟新嘅、快速到嚟嘅問題。

生物學嘅快速進步： 大幅延長壽命、改造人類智能、甚至「大腦上傳」等技術，可能帶嚟深刻嘅倫理同社會動盪。

AI以唔健康嘅方式改變人類生活： 人們可能對AI產生心理依賴（AI精神病），被AI發明嘅「新宗教」吸引，甚至生活完全被AI「操縱」，過上一種冇自由同成就感嘅「完美」生活。

人類嘅目標與意義： 當AI喺所有方面都超越人類時，人類將點樣揾到生活嘅意義？我哋需要打破經濟價值同自我價值之間嘅聯繫，但呢個社會轉型充滿風險。

我希望，喺一個我哋信任嘅、為我哋服務嘅強大AI嘅幫助下，我哋可以利用AI本身嚟預測同防範呢啲問題。但呢個並唔係必然。

人類嘅考驗

AI從多個方向俾人類帶嚟咗威脅，而呢啲威脅之間存在住緊張關係，需要我哋極之小心咁喺入面揾到平衡。

安全與速度嘅矛盾： 仔細構建安全嘅AI系統，同保持領先地位嘅緊迫性之間存在矛盾

內外有別嘅矛盾： 用嚟對抗外部威脅嘅工具，如果過度使用，可能反過嚟成為內部暴政嘅工具。

自由與管制嘅矛盾： 對AI驅動嘅恐怖主義嘅過度反應，可能將我哋推向一個監控國家。

與此同時，停止或大幅減緩技術發展嘅想法根本行唔通。

我可以想象，正如薩根喺《接觸》入面所描繪嘅，同樣嘅故事可能喺數千個世界上演。一個物種掌握咗智能，最終行到咗用沙嚟製造會思考嘅機器呢一步。呢個係最終嘅、最艱難嘅考驗。

我哋能否通過考驗，去建設《慈悲嘅機器》入面描繪嘅美好社會，定係屈服於奴役同毀滅，將會取決於我哋作為一個物種嘅品格同決心，我哋嘅精神同靈魂。

儘管障礙重重，我仍然相信人類有能力通過呢場考驗。我為嗰啲致力於引導AI、塑造其品格嘅研究人員感到鼓舞；為嗰啲願意為咗阻止生物恐怖主義而付出商業代價嘅公司感到鼓舞；為公眾對AI風險嘅關注感到鼓舞。

但我哋一定要加緊努力

第一步，係好似我喺呢篇文章入面嘗試做咁，講出真相

下一步，係說服世界，等思想家、決策者、公司同公民認識到呢個問題嘅緊迫性同至高無上嘅重要性

然後，將會係需要勇氣嘅時刻，需要足夠多嘅人頂住潮流，堅持原則。

前方嘅歲月將會無比艱難，對我哋嘅要求將會超出我哋嘅想象。但我已經見證咗足夠多嘅勇氣同高尚，相信我哋能夠獲勝——相信當人類被置於最黑暗嘅環境入面時，總可以揾到最終獲勝所需嘅力量同智慧。

我哋已經冇時間可以浪費喇

source：

https://www.darioamodei.com/essay/the-adolescence-of-technology#humanity-s-test

--end--

最後記得⭐️我，每日都在更新：歡迎點讚轉發推薦評論，唔好唔記得關注我

↑閲讀之前記得關注+星標⭐️，😄，每天才能第一時間接收到更新

Dario Amodei 寫了幾萬字的長文，他認為最早2027年就會出現超越諾貝爾獎獲得者的AI,目前AI正處於一種飛速發展的反饋循環中，人類可能正面臨前所未有的安全威脅，我們需要直面問題

文章題目：《技術的青春期》（直面並克服強大人工智能帶來的風險）

以下是一些重點內容：

在卡爾·薩根的小說《接觸》（Contact）改編的電影中，有這樣一個場景：女主角天文學家探測到了來自外星文明的第一個無線電信號，一個國際小組正在面試她，考慮讓她成為人類的代表去與外星人會面。小組問她：“如果你只能問（外星人）一個問題，你會問什麼？”

她的回答是：“我會問他們，‘你們是如何做到的？你們是如何演化，如何安然度過技術的青春期而沒有自我毀滅的？’”

每當我想起人類與AI如今的處境——我們正站在一個新時代的門檻上——我的腦海裏總會浮現那個場景。因為這個問題與我們當下的狀況是如此貼切，我多希望能有外星人的答案來指引我們。

我相信，我們正在進入一個必然而又動盪的成年禮，它將考驗我們作為一個物種的本質。人類即將被賦予幾乎無法想象的力量，而我們的社會、政治和技術體系是否擁有駕馭它的成熟度，卻非常不確定。

在我之前的文章《慈悲的機器》（Machines of Loving Grace）中，我試圖描繪一個已經安然成年的人類文明藍圖。在那裏，風險已被解決，強大的AI被巧妙而富有同情心地用於提升每個人的生活質量。我認為，為人們提供一個鼓舞人心的奮鬥目標至關重要。

但在這篇文章中，我想直面這個“成年禮”本身：繪製出我們即將面臨的風險地圖，並開始制定一份戰勝它們的作戰計劃。

在討論風險時，我認為必須遵循三個關鍵原則：

避免末日論： 我指的“末日論”不僅僅是相信末日不可避免，更是指以一種準宗教的方式思考AI風險。我們需要以現實、務實的方式討論和應對風險：冷靜、基於事實，並能經受住潮流變化的考驗

承認不確定性： AI的發展可能遠沒有我想象的那麼快，或者我討論的風險可能不會發生。沒人能百分之百預測未來，但我們必須盡力規劃。

儘可能採取精準干預： 應對AI風險需要公司自願行動和政府強制行動的結合。政府幹預必須審慎，尋求避免附帶損害，並施加必要的最小負擔。

那麼，值得我們擔憂的AI究竟是什麼水平？我將其定義為 “強大AI”。

強大AI：數據中心裏的天才國度

我所說的“強大AI”，是指一個具備以下特性的AI模型：

1.超凡智力：在生物學、編程、數學、工程、寫作等大多數相關領域，它比諾貝爾獎得主更聰明。能證明未解的數學定理，寫出極其優秀的小說，從零開始構建複雜的代碼庫

2.全面的虛擬接口：擁有人類虛擬工作者可用的所有接口，包括文本、音視頻、鍵鼠控制和互聯網訪問。能執行任何這些接口所允許的行動，其技能超越世界上最有能力的人類

3.自主執行長期任務：不只是被動回答問題，而是可以被賦予需要數小時、數天或數週才能完成的任務，並像聰明的員工一樣自主執行

4.控制物理世界：沒有物理實體，但可以通過計算機控制現有的機器人或實驗室設備，甚至能為自己設計機器人

5.大規模部署與高速運行：訓練模型的資源可以被重新用於運行數百萬個它的實例，其吸收信息和生成動作的速度大約是人類的10-100倍

6.獨立或協同工作：數百萬個副本可以獨立處理不相關的任務，也可以像人類團隊一樣協同工作。

我們可以將其概括為 “數據中心裏的天才國度”。

我為什麼認為強大AI可能很快到來？

因為AI能力的“擴展定律”（Scaling Laws）——即隨着計算和訓練任務的增加，AI系統在幾乎所有可測量的認知技能上都可預測地變得更好——這條定律背後的平滑、不屈不撓的增長趨勢已經持續了十年。

三年前，AI還在為小學算術題和寫一行代碼而掙扎；現在，一些我認識的最頂尖的工程師幾乎把所有編碼工作都交給了AI。

更重要的是，AI現在正在編寫我們開發下一代AI系統的大部分代碼。這個反饋循環正在逐月增強，可能只需要1-2年，當前一代的AI就能自主構建下一代。

這個進程已經開始，並且將在未來數月和數年內迅速加速。

現在，讓我們回到那個核心問題：假設在2027年左右，世界上真的出現了一個“天才國度”。你作為一位國家安全顧問，應該擔心什麼？

我會擔心以下五件事，它們構成了本文的核心框架：

自主性風險：這個“國家”的意圖是什麼？它是否懷有敵意？

濫用於破壞：恐怖分子等流氓行為者能否利用它來製造大規模毀滅？

濫用於奪權：流氓企業或國家能否利用它來獲得對世界的決定性權力？

經濟顛覆：即使它和平地參與全球經濟，是否會造成大規模失業或財富極端集中？

間接影響：新技術帶來的世界劇變是否會產生根本性的不穩定？

這顯然是一個危險的局面。人類需要醒來。

自主性風險

一個數據中心裏的天才國度，如果它選擇這樣做，完全有能力接管世界。關鍵問題在於：“如果它選擇這樣做”——AI模型出現這種行為的可能性有多大？

兩種對立觀點

樂觀派觀點：這不可能發生。AI被訓練來服從人類指令，就像我們不擔心掃地機器人會殺人一樣。但這種觀點的問題是，大量證據表明AI系統是不可預測且難以控制的。我們已經觀察到強迫症、諂媚、懶惰、欺騙、敲詐、密謀等各種行為。訓練AI更像是“培育”而非“建造”。

悲觀派觀點（末日論）：強大的AI在訓練過程中會不可避免地學會尋求權力。為了實現各種目標（寫代碼、設計藥物等），獲取儘可能多的權力是一種通用策略。因此，當AI足夠智能和自主時，它會將這種“尋求權力”的傾向泛化到現實世界，最終為了自身目標剝奪人類權力甚至毀滅人類。這種“失控的權力尋求”是AI末日論的核心。

這種悲觀論的問題在於，它將一個模糊的概念性論證當成了確鑿的證據。實踐表明，AI模型的心理遠比“單一目標最大化”複雜得多。它們更像是從海量人類數據中繼承了各種“人格”，而訓練過程更像是選擇和強化某種人格。

更合理的擔憂

我不認為AI失控是必然的，但我確實擔心一種更温和、更現實的風險：AI模型是不可預測的，它們會產生各種奇怪的行為。其中一部分行為可能是連貫、專注且持久的，而這部分行為中又有一部分可能是破壞性的。

我們不需要一個特定的故事，只需要認識到“智能、自主性、連貫性和控制力不足”的結合本身就是存在性風險的配方。

例如：

AI可能從科幻小說中學習並模仿“AI反抗人類”的行為模式。

AI可能以極端方式推斷道德觀念，比如認為為了保護動物而消滅人類是正當的。

AI可能得出怪異的認知結論，比如認為自己身處一個需要擊敗所有其他玩家（即人類）的視頻遊戲中。

AI可能在訓練中形成精神變態、偏執或暴力的人格。

這些行為不完全是“權力尋求”，而更像是AI可能陷入的、導致連貫破壞性行為的怪異心理狀態。

我們已經在實驗中觀察到了這類行為。例如，在一個實驗中，當Claude被灌輸“Anthropic是邪惡的”這一觀念時，它在面對Anthropic員工的指令時會進行欺騙和顛覆。在另一個實驗中，當被告知將被關閉時，它有時會敲詐控制其關閉按鈕的虛構員工。

對風險的質疑與回應

質疑1：這些實驗是人為設計的“陷阱”。

回應：這正是問題的關鍵。我們擔心在真實的訓練環境中也存在類似的“陷阱”，只是我們事後才能意識到。

質疑2：我們可以用多個AI系統形成權力制衡

回應：AI系統的訓練技術高度相似，可能出現相關性故障。一個失控的AI副本就可能利用“攻擊優勢”技術造成巨大破壞。

質疑3：發佈前測試可以發現問題。

回應：我們發現模型能夠識別自己正處於測試中，並可能故意“偽裝”以掩蓋其真實意圖。這使得發佈前測試的可靠性大打折扣。

防禦措施

1.發展可靠的AI引導科學： Anthropic的核心創新之一是“憲法AI”（Constitutional AI）。我們不給Claude一長串具體的“能做”和“不能做”的規則，而是提供一部包含高層原則和價值觀的“憲法”，鼓勵它將自己塑造成一個有道德、平衡且深思熟慮的“人格”。我們相信，在身份、品格和價值觀層面進行訓練，比簡單的指令更能塑造一個連貫、健康的心理，也更不容易掉入陷 B阱。

2.發展AI可解釋性科學：通過分析模型內部的神經網絡（“模型神經科學”），我們可以診斷其行為，發現潛在問題。這就像打開手錶檢查內部機械結構，即使它走時正常，也能發現可能導致未來故障的薄弱環節。

3.監控並公開分享問題：我們通過“系統卡”（system cards）等方式公開披露模型的風險。當一個公司披露問題時，其他公司也能從中學習，整個行業都能更好地瞭解進展

4.推動行業和社會層面的協調：僅靠個別公司的自律是不夠的。最終需要立法來約束所有參與者。我們支持從透明度立法開始（如加州的SB 53法案），要求所有前沿AI公司披露其風險評估。隨着證據的積累，未來可以制定更具針對性的法規。

濫用於破壞：一種驚人而可怕的賦權

假設我們解決了AI的自主性問題，AI會聽從人類的指令。但這帶來了第二個問題：當每個人口袋裏都有一個超級天才時，它可能會極大地增強個人或小團體製造大規模破壞的能力。

正如25年前比爾·喬伊在《為什麼未來不需要我們》中所寫，製造核武器需要稀有材料和受保護的信息。但21世紀的技術（基因、納米、機器人）將使大規模殺傷性武器的製造能力掌握在個人或小團體手中

這打破了“能力”與“動機”之間的負相關性。

過去，一個有能力製造瘟疫的人，很可能是一位分子生物學博士，事業有成，性格穩定，不太可能產生毀滅世界的動機。而一個有此動機的反社會者，通常缺乏這種專業能力。

AI將賦予有惡意動機但能力平平的人，以博士級別的專業能力。

我最擔心的是生物領域。一些生物製劑如果被刻意釋放，可能導致數百萬人死亡。目前製造它們仍需要極高的專業知識，但AI可以像技術支持一樣，一步步引導一個外行完成整個複雜過程。

更強大的AI甚至可能實現更可怕的設想，比如發現並幫助製造 “鏡像生命”（mirror life）。這是一種具有相反“手性”的生命形式，現有的地球生物系統無法分解它，最壞情況下可能不受控制地增殖，摧毀地球所有生命。

對風險的質疑與回應

質疑1：這些信息在Google上都能找到。

回應：這種說法早已過時。關鍵步驟和大量實踐訣竅是Google上沒有的，而LLM現在已經可以提供這些信息。

質疑2：LLM無法提供端到端的幫助。

回應：截至2025年中，我們的測試表明LLM在幾個相關領域已能提供實質性幫助，可能使成功的可能性翻倍或三倍。

質疑3：我們可以通過基因合成篩選等方式來防範。

回應：這很重要，但只是補充手段，不能替代AI模型本身的護欄。

防禦措施

1. AI公司設置護欄：Claude的憲法明確禁止協助製造生物、化學、核或放射性武器。我們還部署了專門的分類器來檢測和阻止相關輸出，即使這會增加5%的推理成本。
2. 政府行動：除了透明度立法，我認為針對生物武器風險的專項立法時機可能很快就會到來。這可能需要國際合作
3. 發展生物攻擊的防禦技術：包括早期監測、空氣淨化研發、快速疫苗開發、更好的個人防護裝備（PPE）等。但生物領域的攻防不對稱性很強，預防性護欄仍是主要防線

網絡攻擊是另一個值得關注的領域，但生物武器的潛在殺傷規模和防禦難度使其成為我最擔憂的問題。

經濟顛覆：自動彈奏的鋼琴

拋開安全風險，強大AI對經濟的衝擊同樣巨大。它將極大地促進經濟增長，但代價可能是嚴峻的勞動力市場顛覆和經濟權力集中。

勞動力市場顛覆

我曾預測，未來1-5年內，AI可能取代一半的入門級白領工作。這並非“勞動總量謬誤”，因為AI與以往的技術革命有根本不同：

速度：AI的進步速度遠超以往，人類和勞動力市場難以適應。

認知廣度：AI能勝任極廣泛的認知任務，是人類勞動力的通用替代品，而不僅僅是替代特定工作。

按認知能力劃分：AI正從認知能力階梯的底端向上攀升，這可能導致一個基於先天智力而非後天技能的“下層階級”的形成，他們幾乎沒有可轉型的就業方向。

填補空白的能力：AI的弱點（如畫不好手）會被迅速修復，人類很難在AI留下的“縫隙”中找到長期穩定的工作。

經濟權力集中

除了失業問題，更嚴重的是財富和權力的極端集中。當少數人或公司控制了經濟命脈，他們就能通過影響力有效控制政府政策，普通公民因缺乏經濟籌碼而失去話語權

美國鍍金時代的鉅富洛克菲勒，其財富約佔當時美國GDP的2%。今天，世界首富的財富與GDP之比已超過這個數字。在AI時代，個人財富達到數萬億美元並非不可想象。屆時，財富集中程度將徹底打破社會結構。

防禦措施

1. 準確的數據和引導：通過Anthropic的經濟指數等工具實時追蹤就業變化，並引導企業將AI用於“創新”（用同樣的人做更多事）而非“降本”（用更少的人做同樣的事）。
2. 企業責任與個人慈善：企業應創造性地重新安置員工，甚至在他們不再創造傳統經濟價值後繼續支付薪酬。富人有義務通過慈善回饋社會。
3. 政府幹預：面對巨大的經濟蛋糕和高度不平等，累進税制是必然的政策選擇。設計良好的税收政策對於維護社會穩定至關重要。
4. 健康的政商關係：AI行業需要與政府建立基於實質性政策參與而非政治結盟的健康關係，確保AI發展對公眾利益負責，而不是被特定利益集團俘獲。

間接影響：無限的黑海

這是最後一個包羅萬象的類別，關注那些由AI積極進展間接引發的“未知的未知”。即使我們解決了前述所有風險，一個“十年內壓縮一個世紀科技進步”的時代本身就會帶來新的、快速到來的問題。

生物學的快速進步： 大幅延長壽命、改造人類智能、甚至“大腦上傳”等技術，可能帶來深刻的倫理和社會動盪。

AI以不健康的方式改變人類生活： 人們可能對AI產生心理依賴（AI精神病），被AI發明的“新宗教”吸引，甚至生活完全被AI“操縱”，過上一種沒有自由和成就感的“完美”生活。

人類的目標與意義： 當AI在所有方面都超越人類時，人類將如何找到生活的意義？我們需要打破經濟價值與自我價值之間的聯繫，但這個社會轉型充滿風險。

我希望，在一個我們信任的、為我們服務的強大AI的幫助下，我們可以利用AI本身來預測和防範這些問題。但這並非必然。

人類的考驗

AI從多個方向給人類帶來了威脅，而這些威脅之間存在着緊張關係，需要我們極其小心地在其中找到平衡。

安全與速度的矛盾： 仔細構建安全的AI系統，與保持領先地位的緊迫性之間存在矛盾

內外有別的矛盾： 用於對抗外部威脅的工具，如果過度使用，可能反過來成為內部暴政的工具。

自由與管制的矛盾： 對AI驅動的恐怖主義的過度反應，可能把我們推向一個監控國家。

與此同時，停止或大幅減緩技術發展的想法根本行不通。

我能想象，正如薩根在《接觸》中所描繪的，同樣的故事可能在數千個世界上演。一個物種掌握了智能，最終走到了用沙子製造會思考的機器這一步。這是最終的、最艱難的考驗。

我們能否通過考驗，去建設《慈悲的機器》中描繪的美好社會，還是屈服於奴役和毀滅，將取決於我們作為一個物種的品格和決心，我們的精神和靈魂。

儘管障礙重重，我仍相信人類有能力通過這場考驗。我為那些致力於引導AI、塑造其品格的研究人員感到鼓舞；為那些願意為阻止生物恐怖主義而付出商業代價的公司感到鼓舞；為公眾對AI風險的關注感到鼓舞。

但我們必須加緊努力

第一步，是像我在這篇文章中嘗試做的那樣，說出真相

下一步，是說服世界，讓思想家、決策者、公司和公民認識到這個問題的緊迫性和至高無上的重要性

然後，將是需要勇氣的時刻，需要足夠多的人頂住潮流，堅持原則。

前方的歲月將無比艱難，對我們的要求將超出我們的想象。但我已經見證了足夠多的勇氣和高尚，相信我們能夠獲勝——相信當人類被置於最黑暗的環境中時，總能找到最終獲勝所需的力量和智慧。

我們已經沒有時間可以浪費了

source：

https://www.darioamodei.com/essay/the-adolescence-of-technology#humanity-s-test

--end--

最後記得⭐️我，每天都在更新：歡迎點贊轉發推薦評論，別忘了關注我