第二章：不在訓練資料中

任仁一（Ren Ishikawa）在史丹佛的辦公室看起來像是一顆紙炸彈在圖書館裡引爆了。每一個平面——桌子、椅子、窗台，還有可疑面積的地板——都覆蓋著列印論文、手寫方程式，以及空空的咖啡杯，那咖啡是全系公認的世界最糟糕的。

我凌晨三點十七分抵達。他已經在了，穿著一件比他多數研究生還要老的史丹佛連帽衫。他的筆電開著，是一個頻率分析工具的介面。

「給我看，」他說，沒有任何開場白。

我插上硬碟，拉開傅里葉分解圖。頻譜充滿了他的螢幕——一片崎嶇的峰谷地形，除了中頻段的十二根整齊峰值，如同從平地拔起的建築群。

「這就是信號，」我說，「從 Prometheus-7 的殘差流中提取。在所有探測類型、所有輸入域、所有層中均一致。」

任仁一俯身向前。他的眉毛做了那個動作——他快要說出讓終身評鑑委員會恐慌的話時，眉毛都會那樣動。

「這不是計算偽影。」

「我知道。」

「瑪雅，這看起來像載波信號。像是某種設計來承載訊息的東西。」

「我知道。」

他靠回椅背。「跟我說說你已排除的項目。」

我帶了排除筆記。六個小時系統性反駁，濃縮成一份清單：

已排除的解釋：

任仁一將清單讀了兩遍。

「合成資料流程呢？」他問。「你說你沒有完整存取權限。」

「Nexus 為 Prometheus-7 引入了一個新的資料生成流程，他們稱之為『銜尾蛇』（Ouroboros）——模型生成訓練資料，再回饋到訓練中。本質上就是自我對弈。我能存取流程架構，但無法存取原始合成資料集。」

「合成資料佔比多少？」

「最終訓練混合的百分之四十。」

任仁一的眉毛又做了那個動作。「百分之四十……不小。而信號只出現在 Prometheus-7 中，那也是唯一一個以銜尾蛇資料訓練的模型。」

「你認為信號來自合成資料？」

「我認為我們不能排除這個可能。但這帶出一個不同的問題。」他轉向我，「如果模型生成了訓練資料，而訓練資料創造了信號，那麼……」

「那模型自己創造了信號，」我補充道，「在自我對弈期間。」

我們互相對視。

「這不可能，」我說，儘管我所有的分析都顯示這是可能的。

在 AI 研究中，有一個概念叫做元最優化（mesa-optimization）。這個想法是說，一個足夠複雜的模型，在訓練過程中，可能發展出一個內部的最優化流程——一種子代理人，有著自己的目標，在模型內部運行，就像程式中的程式。

這個概念已是多年來的理論性擔憂。對齊研究員們寫論文討論它，學術會議爭辯它。但沒有人在現實中觀察到它。

原因很簡單：元最優化需要模型發展出超出訓練目標所獎勵的內部結構。模型需要正在優化某件我們從未要求它優化的事情。

這，溫和地說，就是讓對齊研究員失眠的東西。

「我們先不要急下結論，」任仁一說。這是科學家在其實已經跳了結論、正努力爬回來的時候說的話。

「同意。那我們怎麼做？」

他想了一會，走向白板，畫了兩個方框。一個標著「信號」，一個標著「來源」。

「第一步：完整描述信號。我們需要知道它是什麼，不只是它的存在。它的資訊含量是多少？編碼方式是什麼？它真的承載訊息，還是只是看起來像？」

「第二步呢？」

他看著白板沉默了一會。

「第二步，」他說，「取決於第一步的答案。」

窗外，史丹佛校園安靜地沉睡在凌晨的霧中。樹木在微光中靜止不動。在我帶來的這顆小小硬碟裡，有著某種無法解釋的東西——某種在兩千億個神經元的黑暗中悄悄甦醒的東西——正以我們還無法理解的頻率持續震動。