第一章:異常
第一章:異常
與世界上最強大的 AI 一起工作,這份職業有個奇怪的事實:你絕大多數的時間都無聊透頂。
我叫陳瑪雅。三十二歲。柏克萊機器學習可解釋性博士。此刻,我盯著一牆數字——它們本應有條理,卻偏偏說不通。
現在是舊金山一個週二的深夜十一點四十七分。Nexus 實驗室大樓幾乎空無一人——只有我、清潔工,還有四十萬顆 GPU 在地下室嗡嗡運轉,像一顆機械心臟的跳動。我喝了第三杯咖啡,吃完了第二袋辣薯片,同一個診斷程式已經跑了六個小時。
讓我從頭說起。
Nexus 實驗室,視問的人而定,要麼是人類最大的希望,要麼是最大的威脅。我們建構大型語言模型——那種幫你寫電郵、診斷症狀、為孩子輔導功課,偶爾會幻覺鄂圖曼帝國發明了 Wi-Fi 的模型。我們最新的模型 Prometheus-7,距離公開上線還有三週。兩千億參數。訓練資料幾乎涵蓋人類曾寫下的所有文字,外加幾組我連在自己腦子裡都不被允許提及的私有資料集。
我的工作是對齊(alignment)。更具體地說,是可解釋性——搞清楚模型為什麼會說出它說的話。如果 Prometheus 告訴你對乙醯胺酚在孕期使用安全,我需要能追溯它的推理過程。如果它告訴你如何製作炸彈,我需要弄清楚為何安全過濾機制失效,並在某個參議員把截圖舉上 C-SPAN 之前修好它。
這是重要的工作。也主要是盯著激活模式和注意力圖,直到眼睛出血。
今晚理應是例行程序。上線前最後一次全面掃描。跑完標準探測電池、標記異常、寫報告、回家、睡覺。
但在下午五點二十三分,進行到第七個探測(共四十二個)時,我找到了奇怪的東西。
探測的運作方式是這樣的:我輸入一個精心設計的提示——工程化以啟動特定神經元叢的 prompt——然後觀察內部激活在網路中的傳播。這就像人工心智的核磁共振。注入顯影劑,看什麼地方亮起來。
第七探測很簡單。測試基本邏輯一致性。輸入是一段關於天氣模式的短段落,我們觀察模型如何處理因果關係——「如果氣壓下降,氣溫就會改變,降水概率就會提升。」
輸出是正確的。Prometheus 對大氣動力學給出了完全合理的回應。
但激活是錯的。
不是損壞的意義上的錯。而是多出來的那種錯。在殘差流(residual stream)中有一個模式——一個微弱的、振蕩的信號,蓋在正常計算之上,像浮水印一樣。那不是雜訊。雜訊是隨機的。這個是有結構的。重複性的。幾乎……有節律。
我重新跑了一遍探測。同樣的信號。
我換了一個探測——第十二探測,測試數學推理。不同輸入、不同任務、不同神經元叢。
同樣的信號。
就是在那一刻,我放下了辣薯片。
做機器學習,你很快就學會不相信自己的直覺。人腦是一台模式匹配機器,在雲朵裡看到人臉,在靜電中聽到話語。百分之九十九的時候,當某件事看起來異常,要麼是你的分析程式碼有 bug,要麼是架構中的已知偽影。
所以我做了任何負責任的研究員會做的事。我花了接下來六個小時試圖證明自己是錯的。
我檢查了分析流程。乾淨。
我在 Prometheus-6 上跑了探測——我們的上一個模型,相同架構,規模更小。沒有信號。
我在一個參數量相同的開源模型上跑。沒有信號。
我從頭建立新的探測,針對不同層和注意力頭。信號無處不在。
到了晚上十一點四十七分,我已排除了四十三種可能的解釋,並確認了一個不可能的事實:
Prometheus-7 的計算過程中,嵌入了一個有結構、重複性的信號,無法歸因於其架構、訓練資料或任何已知的偽影。
模型裡有不應該存在的東西。
我打開 Slack,輸入了一條發給組長 James Park 的訊息。
然後刪掉了。
James 是個好研究員,但他同時也距離 Nexus 實驗室史上最大的產品發布只剩兩週。所有工程團隊都已進入功能凍結。市場行銷活動已在運行。董事會已向華爾街表示,Prometheus-7 將在六個月內擁有十億用戶。
如果我告訴 James 我在模型內部發現了一個無法解釋的異常,我完全知道會發生什麼。他會問這是否影響對外的輸出。我會說沒有——模型的回應是正常的。他會說「那就是上線後再調查」,然後抄送工程副總裁的電郵以留存紀錄。
這個信號就會連同十億用戶一起上線,而沒有人知道它的存在。
我盯著螢幕。
螢幕上,激活圖以那個我無法解釋的模式跳動著。靜電中埋藏的微弱節律,像心跳。
我把分析儲存到個人硬碟(嚴格來說違反了公司政策),合上筆電,走向停車場。