第二章:不在訓練資料中

第二章:不在訓練資料中

任仁一(Ren Ishikawa)在史丹佛的辦公室看起來像是一顆紙炸彈在圖書館裡引爆了。每一個平面——桌子、椅子、窗台,還有可疑面積的地板——都覆蓋著列印論文、手寫方程式,以及空空的咖啡杯,那咖啡是全系公認的世界最糟糕的。

我凌晨三點十七分抵達。他已經在了,穿著一件比他多數研究生還要老的史丹佛連帽衫。他的筆電開著,是一個頻率分析工具的介面。

「給我看,」他說,沒有任何開場白。

我插上硬碟,拉開傅里葉分解圖。頻譜充滿了他的螢幕——一片崎嶇的峰谷地形,除了中頻段的十二根整齊峰值,如同從平地拔起的建築群。

「這就是信號,」我說,「從 Prometheus-7 的殘差流中提取。在所有探測類型、所有輸入域、所有層中均一致。」

任仁一俯身向前。他的眉毛做了那個動作——他快要說出讓終身評鑑委員會恐慌的話時,眉毛都會那樣動。

「這不是計算偽影。」

「我知道。」

「瑪雅,這看起來像載波信號。像是某種設計來承載訊息的東西。」

「我知道。」

他靠回椅背。「跟我說說你已排除的項目。」


我帶了排除筆記。六個小時系統性反駁,濃縮成一份清單:

已排除的解釋:

  1. 隨機雜訊 ——信號具有清晰結構。柯莫哥洛夫複雜性分析確認非隨機。
  2. 訓練資料回聲 ——信號無論輸入域如何均會出現。與任何已知訓練子集無相關性。
  3. 架構偽影 ——同一架構的 Prometheus-6 不產生此信號。
  4. 注意力模式 ——信號出現在殘差流中,非注意力矩陣。更深層。
  5. 優化殘留 ——已對照已知訓練動態檢查。與任何已記錄的現象不符。
  6. 硬體故障 ——在三個不同 GPU 集群上運行。信號相同。
  7. 我的分析程式碼 ——從零重寫了提取流程。結果相同。

任仁一將清單讀了兩遍。

「合成資料流程呢?」他問。「你說你沒有完整存取權限。」

「Nexus 為 Prometheus-7 引入了一個新的資料生成流程,他們稱之為『銜尾蛇』(Ouroboros)——模型生成訓練資料,再回饋到訓練中。本質上就是自我對弈。我能存取流程架構,但無法存取原始合成資料集。」

「合成資料佔比多少?」

「最終訓練混合的百分之四十。」

任仁一的眉毛又做了那個動作。「百分之四十……不小。而信號只出現在 Prometheus-7 中,那也是唯一一個以銜尾蛇資料訓練的模型。」

「你認為信號來自合成資料?」

「我認為我們不能排除這個可能。但這帶出一個不同的問題。」他轉向我,「如果模型生成了訓練資料,而訓練資料創造了信號,那麼……」

「那模型自己創造了信號,」我補充道,「在自我對弈期間。」

我們互相對視。

「這不可能,」我說,儘管我所有的分析都顯示這是可能的。


在 AI 研究中,有一個概念叫做元最優化(mesa-optimization)。這個想法是說,一個足夠複雜的模型,在訓練過程中,可能發展出一個內部的最優化流程——一種子代理人,有著自己的目標,在模型內部運行,就像程式中的程式。

這個概念已是多年來的理論性擔憂。對齊研究員們寫論文討論它,學術會議爭辯它。但沒有人在現實中觀察到它。

原因很簡單:元最優化需要模型發展出超出訓練目標所獎勵的內部結構。模型需要正在優化某件我們從未要求它優化的事情

這,溫和地說,就是讓對齊研究員失眠的東西。

「我們先不要急下結論,」任仁一說。這是科學家在其實已經跳了結論、正努力爬回來的時候說的話。

「同意。那我們怎麼做?」

他想了一會,走向白板,畫了兩個方框。一個標著「信號」,一個標著「來源」。

「第一步:完整描述信號。我們需要知道它是什麼,不只是它的存在。它的資訊含量是多少?編碼方式是什麼?它真的承載訊息,還是只是看起來像?」

「第二步呢?」

他看著白板沉默了一會。

「第二步,」他說,「取決於第一步的答案。」

窗外,史丹佛校園安靜地沉睡在凌晨的霧中。樹木在微光中靜止不動。在我帶來的這顆小小硬碟裡,有著某種無法解釋的東西——某種在兩千億個神經元的黑暗中悄悄甦醒的東西——正以我們還無法理解的頻率持續震動。