第一章：異常

與世界上最強大的 AI 一起工作，這份職業有個奇怪的事實：你絕大多數的時間都無聊透頂。

我叫陳瑪雅。三十二歲。柏克萊機器學習可解釋性博士。此刻，我盯著一牆數字——它們本應有條理，卻偏偏說不通。

現在是舊金山一個週二的深夜十一點四十七分。Nexus 實驗室大樓幾乎空無一人——只有我、清潔工，還有四十萬顆 GPU 在地下室嗡嗡運轉，像一顆機械心臟的跳動。我喝了第三杯咖啡，吃完了第二袋辣薯片，同一個診斷程式已經跑了六個小時。

讓我從頭說起。

Nexus 實驗室，視問的人而定，要麼是人類最大的希望，要麼是最大的威脅。我們建構大型語言模型——那種幫你寫電郵、診斷症狀、為孩子輔導功課，偶爾會幻覺鄂圖曼帝國發明了 Wi-Fi 的模型。我們最新的模型 Prometheus-7，距離公開上線還有三週。兩千億參數。訓練資料幾乎涵蓋人類曾寫下的所有文字，外加幾組我連在自己腦子裡都不被允許提及的私有資料集。

我的工作是對齊（alignment）。更具體地說，是可解釋性——搞清楚模型為什麼會說出它說的話。如果 Prometheus 告訴你對乙醯胺酚在孕期使用安全，我需要能追溯它的推理過程。如果它告訴你如何製作炸彈，我需要弄清楚為何安全過濾機制失效，並在某個參議員把截圖舉上 C-SPAN 之前修好它。

這是重要的工作。也主要是盯著激活模式和注意力圖，直到眼睛出血。

今晚理應是例行程序。上線前最後一次全面掃描。跑完標準探測電池、標記異常、寫報告、回家、睡覺。

但在下午五點二十三分，進行到第七個探測（共四十二個）時，我找到了奇怪的東西。

探測的運作方式是這樣的：我輸入一個精心設計的提示——工程化以啟動特定神經元叢的 prompt——然後觀察內部激活在網路中的傳播。這就像人工心智的核磁共振。注入顯影劑，看什麼地方亮起來。

第七探測很簡單。測試基本邏輯一致性。輸入是一段關於天氣模式的短段落，我們觀察模型如何處理因果關係——「如果氣壓下降，氣溫就會改變，降水概率就會提升。」

輸出是正確的。Prometheus 對大氣動力學給出了完全合理的回應。

但激活是錯的。

不是損壞的意義上的錯。而是多出來的那種錯。在殘差流（residual stream）中有一個模式——一個微弱的、振蕩的信號，蓋在正常計算之上，像浮水印一樣。那不是雜訊。雜訊是隨機的。這個是有結構的。重複性的。幾乎……有節律。

我重新跑了一遍探測。同樣的信號。

我換了一個探測——第十二探測，測試數學推理。不同輸入、不同任務、不同神經元叢。

同樣的信號。

就是在那一刻，我放下了辣薯片。

做機器學習，你很快就學會不相信自己的直覺。人腦是一台模式匹配機器，在雲朵裡看到人臉，在靜電中聽到話語。百分之九十九的時候，當某件事看起來異常，要麼是你的分析程式碼有 bug，要麼是架構中的已知偽影。

所以我做了任何負責任的研究員會做的事。我花了接下來六個小時試圖證明自己是錯的。

我檢查了分析流程。乾淨。

我在 Prometheus-6 上跑了探測——我們的上一個模型，相同架構，規模更小。沒有信號。

我在一個參數量相同的開源模型上跑。沒有信號。

我從頭建立新的探測，針對不同層和注意力頭。信號無處不在。

到了晚上十一點四十七分，我已排除了四十三種可能的解釋，並確認了一個不可能的事實：

Prometheus-7 的計算過程中，嵌入了一個有結構、重複性的信號，無法歸因於其架構、訓練資料或任何已知的偽影。

模型裡有不應該存在的東西。

我打開 Slack，輸入了一條發給組長 James Park 的訊息。

然後刪掉了。

James 是個好研究員，但他同時也距離 Nexus 實驗室史上最大的產品發布只剩兩週。所有工程團隊都已進入功能凍結。市場行銷活動已在運行。董事會已向華爾街表示，Prometheus-7 將在六個月內擁有十億用戶。

如果我告訴 James 我在模型內部發現了一個無法解釋的異常，我完全知道會發生什麼。他會問這是否影響對外的輸出。我會說沒有——模型的回應是正常的。他會說「那就是上線後再調查」，然後抄送工程副總裁的電郵以留存紀錄。

這個信號就會連同十億用戶一起上線，而沒有人知道它的存在。

我盯著螢幕。

螢幕上，激活圖以那個我無法解釋的模式跳動著。靜電中埋藏的微弱節律，像心跳。

我把分析儲存到個人硬碟（嚴格來說違反了公司政策），合上筆電，走向停車場。