在剛剛過去的機器學習頂會——神經信息處理系統大會(NeurIPS,Neural Information Processing Systems)上,火出圈的既有 OpenAI 前首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)的“預訓練結束”言論,也有美國紐約大學教授 Kyunghyun Cho 的會后感想文章《我在 NeurIPS’24 上感受到了焦慮和挫敗》。
而一名來自德國漢堡的 00 后菲利克斯·彼得森(Felix Petersen)也小小地出圈了一把。早年,彼得森在德國洪堡文理中學讀書,后來在德國康斯坦茨大學讀完本科和博士。
17 歲時,他開發出一種 X 射線激光器,一度曾引起業界關注,并得到了德國媒體的報道。剛到大學時,他不僅已能輔導別人,還管理著德國洪堡體育館的機器人小組。
(來源:SüDKURIER)
圖 | 19 歲時的彼得森(來源:彼得森個人主頁)
目前,他在美國斯坦福大學做博士后,師從于該校的斯特凡諾·埃爾蒙(Stefano Ermon)教授。在本次 NeurIPS 上,彼得森展示了自己和導師設計的由邏輯門組成的神經網絡(下稱“邏輯門網絡”)。
圖 | 彼得近照森(來源:https://petersen.ai/)
關于這一成果的相關論文已以《卷積可微分邏輯門網絡》(Convolutional Differentiable Logic Gate Networks)為題發在arXiv上 [1]。
圖 | 相關論文 (來源:arXiv)
讓邏輯門網絡變得“松弛”
那么,彼得森為何要研發邏輯門網絡?
這要從 GPT-4 和 Stable Diffusion 等大模型說起,在這些大模型中神經網絡是通過將感知器連接在一起而構建的,感知器是對人類大腦神經元的一種高度簡化模擬。
盡管感知器非常強大,但是它們也消耗了大量能量,以至于微軟已經達成了一項協議要重新啟動三里島核電站,以便為其人工智能進步提供動力。
部分問題在于感知器只是軟件層面的抽象。在圖形處理器(GPU,Graphics Processing Unit)上運行感知器網絡的時候,需要將這一網絡轉換為硬件語言,而這需要時間和能量。
但是,直接使用硬件來構建網絡則能省去很多成本。彼得森認為,與支持大多數現代人工智能系統的傳統神經網絡相比,直接存于計算機芯片硬件中的神經網絡可以更快地識別圖像,并且消耗的能量更少。
未來某一天,直接存于計算機芯片硬件中的神經網絡甚至可以直接內置到智能手機和其他設備的芯片中,從而大大減少向服務器發送數據和從服務器發送數據的需求。
那么,該怎樣實現上述目標?如前所述,彼得森設計了由邏輯門組成的神經網絡。
邏輯門,是計算機芯片的基本構建模塊。邏輯門由晶體管組成,它可以接受兩個比特(1 或 0)來作為輸入,并能根據特定晶體管模式規定的規則輸出一個比特。
就像感知器一樣,邏輯門可以鏈接成網絡。而運行邏輯門網絡可謂既便宜、又快速、又簡單。彼得森在 NeurIPS 的演講中表示,邏輯門網絡的能耗比感知器網絡低數十萬倍。
(來源:arXiv)
目前,彼得森并沒有刻意去尋找構建節能人工智能網絡的方法。他是基于對于“可微分松弛(differentiable relaxations)”的興趣,才開始研究邏輯門。
可微分松弛,指的是將某類數學問題變成微積分可以解決的形式。讓深度學習革命成為可能的反向傳播(訓練)算法,是應用可微分松弛方法的一個經典案例。
但是,由于反向傳播是基于微積分而構建的,因此并不能直接用于訓練邏輯門網絡。邏輯門只能用 0 和 1,而微積分需要得到 0 和 1 之間的所有中間值。
為此,彼得森設計了一種方法:創建類似于使用 0 和使用 1 的邏輯門、同時也能給出中間值答案的函數,讓邏輯門網絡變得“松弛”,以便能夠進行反向傳播。
通過訓練這些門運行模擬網絡,可以將邏輯門網絡轉換回能在計算機硬件中實現的東西。
這種方法的一個挑戰是,“松弛”的網絡很難被訓練。網絡中的每個節點最終都有可能成為 16 個不同邏輯門中的任何一個,與每個邏輯門相關的 16 種概率必須被追蹤被記錄并不斷被調整。
而這需要大量的時間和能量。彼得森說,相比在 GPU 上訓練傳統神經網絡,訓練他所打造的邏輯門網絡在時間上要多出數百倍。在無法負擔數十萬 GPU 的大學里,GPU 在時間分配收納柜很難周轉得開。
因此,彼得森與合作者開發了邏輯門網絡。盡管開發過程無比困難,但是一旦網絡經過訓練,它就會變得越來越便宜。
二進制神經網絡,則是另外一種已有的超高效網絡,在這一網絡中需要使用只能處理二進制值的簡化感知器。為了驗證邏輯門網絡的效果,彼得森將它與二進制神經網絡進行比較。
在做對比時他使用了 CIFAR-10 數據集,該數據集包括從“青蛙”到“卡車”等 10 種不同類別的低分辨率圖片。
他讓邏輯門網絡和二進制神經網絡,同時針對 CIFAR-10 數據集中的圖像進行分類,借此發現邏輯門網絡與其他方法做得一樣好。
具體來說:相比其他分類神經網絡所需的邏輯門數量,邏輯門網絡所使用的邏輯門數量不僅低于前者所需數量的十分之一,并在不到千分之一的時間內完成了同一任務。
現場可編程門陣列(FPGA,Field Programmable Gate Array),可被用于模擬邏輯門的多種不同潛在模式。
為此,彼得森使用了 FPGA測試了邏輯門網絡。這是一種可編程計算機芯片,可用于模擬邏輯門的多種不同潛在模式(組合)。
事實上,也可以在專用集成電路(ASIC,Application Specific Integrated Circuit)芯片上實現該網絡,這樣還能進一步降低成本,因為 FPGA 使用了更多組件故其成本更高。
在一些資源有限的場景中,比如在移動設備和嵌入式系統上,它們對于能量和速度的要求很高。而即使在處理能力有限的環境中,邏輯門網絡也能讓深度學習繼續工作。
(來源:arXiv)
或在機器學習領域開辟更多可能性
不過,對于彼得森的研究成果,也有學者對于其應用前景表示擔憂。美國加州大學圣地亞哥分校電氣與計算機工程教授法里納茲·庫尚法爾(Farinaz Koushanfar)表示,她不相信邏輯門網絡在面臨更現實的問題時能夠發揮作用。
她說:“這是一個有趣的想法,但我不確定它的規模有多大。”她指出,邏輯門網絡只能通過 relaxation 策略進行近似訓練,而近似訓練可能會失敗。
盡管目前看起來問題不大,但是庫尚法爾表示隨著網絡的發展,問題可能會越來越大。
彼得森也承認,讓邏輯門的性能媲美傳統神經網絡并不是他的目標。造出有效且盡可能高效的東西就足夠了?!斑@不會是最好的模型?!彼f,“但它應該是最便宜的。”
邏輯門網絡在圖像標記等任務上的表現不如傳統神經網絡,但美國康奈爾大學電氣與計算機工程教授 Zhiru Zhang 表示,這種方法的速度和效率使其潛力巨大。
他說:“如果我們能縮小差距,那么這可能會在機器學習的這一領域開辟很多可能性?!?/p>
因此,彼得森對于未來很有信心。他打算繼續改進邏輯門網絡的能力,并期待最終能夠創建一個“硬件基礎模型”。
試想一下,假如一個邏輯門網絡不僅功能強大而可以實現通用,那么就能直接在芯片上實現大規模應用,而這些芯片進而能被集成到手機和計算機等設備中。
這樣一來就有望帶來巨大的能源效益。如果邏輯門網絡能從低分辨率信息中,有效地重建照片和重建視頻,那么服務器和個人設備之間所需要發送的數據就會少得多。
參考資料:
1.https://arxiv.org/abs/2411.04732
https://www.suedkurier.de/region/kreis-konstanz/konstanz/Streng-geheimes-Forschungsprojekt-17-jaehriger-Informatik-Student-entwickelt-neuartigen-Roentgenlaser;art372448,9184349
https://www.technologyreview.com/2024/12/20/1109183/the-next-generation-of-neural-networks-could-live-in-hardware/
https://www.linkedin.com/in/felix-petersen-4aa014140/
https://petersen.ai/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.