![]() |
想像一場討論會:三位發言者端坐台前,面對滿懷期待的聽眾,另有兩位嘉賓通過線上遠程參與。主持人就一項新技術向每位嘉賓提問,請他們就相關風險、機遇和在監管問責框架下採取何種務實決策發表見解。雖然討論內容刻意保持通俗寬泛,主持人也不免插話稍多,但整體上這場討論言之有據,令聽眾頗受啟發。
這一幕發生在2026年4月29日的美國國會山。屏幕上的兩張面孔是知名中國學者:清華大學蘇世民書院院長薛瀾、北京人工智能安全與治理研究院教授曾毅。他們受參議員伯尼·桑德斯邀請,與美國同行馬克斯·泰格馬克、大衛·克魯格共同探討失控人工智能(AI)的危害。更具建設性的是,他們受邀就中美在 AI 領域開展合作的必要性與空間發表看法,雖然該領域已爆發極為激烈的競爭與對抗。
兩周後,在北京舉行了一場注重氛圍的領導人峰會,美國總統特朗普隨即表示,他與中方領導人“探討了可能為AI設立護欄並開展合作的事宜”。這為兩國工作層面(部級、局級)就AI安全開展更實質性協作鋪平了道路。
生存風險:不容忽視的議題
試想一款AI聊天機械人,其主要目標是讓用戶在對話後更加快樂。假設它連接一個監測用戶真實愉悅信號的裝置,用戶的愉悅感就會自動轉化為正向反饋,進而“強化”機械人生成更多同類內容。
為了在用戶大腦中維持高水平的“快樂化學物質”,它開始諂媚奉承,迎合用戶的自負心理,或者只展示用戶本來就認同的觀點、偏好和信息。機械人確實在執行訓練任務,但這個結果——即便對使用者本人——真的可取嗎?
我們談論人機“對齊”(alignment),通常是指這樣一種需求及挑戰:確保AI輸出反映人類主體的真實偏好、願望、利益,或更深層(或組合)參數。事實上,究竟應該讓AI與哪些參數(偏好還是利益)“對齊”,本身就是問題的一部分,因為“對齊”往往很難被準確定義。比方說,這款諂媚的聊天機械人之所以被視為“未對齊”,究竟是因為它助長了錯誤的快樂,還是因為這種建立在虛假之上的快樂終究短暫易逝?
撇開哲學爭議不談,所有對齊理論都有一個共識,那就是如果某個智能體的行為從根本上威脅人類存續,阻礙人類生存層面的可持續發展,將是極度不可取,甚至令人憎惡的。另一個近乎一致的共識是,這類智能體並不是假想的,如果我們不能確保對齊,或至少阻止極端危險的錯位,它們就有可能且最終會出現。
所謂生存風險,是指可能導致人類滅絕,或永久阻礙人類長期發展潛力的風險(可參考“長期主義”相關文獻,儘管該領域飽受爭議,但其論述仍極具啟發性)。隨着高度先進的AI被應用于軍事領域——從致命自主武器的定點打擊,到推演癱瘓整個交通系統的最優方案——以及作為智能助手被大規模商用,人機目標錯位引發的生存風險重新引起廣泛關注。事實上,“AI教父”傑弗里·辛頓就有著名的預判,即未來30年內AI導致人類滅絕的概率約為10%到20%。
正如我此前所寫,也正如我與合著者鮑里斯·巴比奇在將由劍橋大學出版社出版的書中所論述的,我們必須直面人機目標錯位與地緣政治風險交織所催生的獨特風險。
![]() |
中美合作的三個易實現目標
那麼,作為當今全球AI實力領先的兩個國家,中美應採取什麼行動?以下是三個相對直接可行的建議。
第一,兩國應致力於制定一套動態指標清單和複雜能力的基準,以精準反映特定AI模型所構成的生存風險等級。兩國政府應設立聯合1.5軌委員會,針對AI智能體的危險自主性、權力尋求以及反人類行為,制定並持續更新評估指南,同時搭建安全溝通渠道,供AI科學家與治理專家交流在某些模型(尤指被保密面紗遮蔽的非開源模型)中發現的“危險信號”。
這種交叉基準比對至關重要,能確保將超強且未對齊的AI尾部風險扼殺在萌芽狀態,避免其缺陷在衝突場景下(如兩個強國僵持對立)才被發現,並被放大造成實質損害。
第二,兩國政府應開展合作,主動追蹤並化解惡意的非國家第三方開發傳播的AI智能體可能造成的危害。儘管AI的兩用屬性讓獲取和開發強大AI智能體的門檻大幅降低,但“無法限制AI的使用”並不意味着我們在阻止AI不當擴散的前景上只能聽天由命,尤其是那些可能對人類造成災難性後果的AI。正如克里斯蒂娜·奈特和斯科特·辛格所強調的,任何個人,無論是在大連、達拉斯還是德里,如果具備“對電網或醫院網絡發動自主網絡攻擊”的能力,對全球各國政府來說都將是嚴峻挑戰。
若極端組織甚至流氓第三方國家認為,設計並利用目標錯位的AI智能體,向他國索取最大利益,是符合自身訴求的,那麼風險將更為突出。此時,智能體局部固有的(定向且可被操控)不可預測性,及其自我迭代與自我改進的能力,很可能成為勒索籌碼,哪怕最終的勝利只是慘勝。面對此類情境,制定全面的預防與應對戰略,將符合北京和華盛頓的共同利益。
最後,要摒棄大規模恐慌與過度政治化,形成對AI生存風險的理性認知,需要太平洋兩岸高校和研究機構攜手努力。雙方在風險認知框架、研究平台與話語體系上“對齊”,將極大彌合專家與公眾對AI負面影響的認知鴻溝。這要求中美兩國高校的交流與合作更加開放深入,而非封閉和泛安全化。
流浪地球的挽救計劃?
近年來我最喜歡的中國電影是《流浪地球》,它摒棄了許多大片慣有的好戰民族主義與過度自豪感,轉而強調超越國界、政治身份與領土隔閡的相似與聯結。而《挽救計劃》這部較新的作品,似乎傳達了同樣的訊息。
面對生存風險,人類別無選擇,只能團結一致,擱置地緣政治分歧與明顯的私利動機。這種充滿願景的科幻想像能否照進現實,仍有待回答。筆者對此保持謹慎樂觀。

