Anthropic剛剛宣布了一個(gè)重磅消息:開源電路追蹤工具!簡單說,就是AI模型的“黑箱”有望被進(jìn)一步打開
劃重點(diǎn)
1. “讀心術(shù)”:Anthropic開源的新方法能追蹤大型語言模型(LLM)的神經(jīng)元
2. 歸因圖譜是關(guān)鍵:通過生成“歸因圖譜”(attribution graphs),部分揭示模型內(nèi)部為啥會(huì)給出特定輸出
3. 工具全家桶:不僅開源了生成圖譜的庫,還聯(lián)合Neuronpedia提供了酷炫的交互式前端,讓你點(diǎn)點(diǎn)鼠標(biāo)就能探索
長久以來,大模型的“黑箱”問題一直是AI研究者和開發(fā)者心頭的一塊大石。模型越來越強(qiáng),但我們對(duì)其內(nèi)部運(yùn)作機(jī)制的理解卻遠(yuǎn)遠(yuǎn)跟不上。正如Anthropic的CEO Dario Amodei最近強(qiáng)調(diào)的,提升AI的可解釋性迫在眉睫。如果我們不知道AI是怎么“想”的,那安全性和可信度從何談起?
這次,Anthropic直接放了大招!他們開源的這套電路追蹤工具,核心就是生成“歸因圖譜”。你可以把它想象成一張?jiān)敿?xì)的“思維導(dǎo)圖”,展示了模型在處理你的輸入時(shí),內(nèi)部哪些神經(jīng)元、哪些注意力頭在關(guān)鍵時(shí)刻發(fā)揮了作用,它們之間是如何相互影響,最終“合謀”生成了那個(gè)答案
開源地址:
https://github.com/safety-research/circuit-tracer
具體來說,Anthropic這次開源了:
一個(gè)開源庫:這個(gè)庫能讓你在流行的開源權(quán)重模型上生成歸因圖譜。以后研究者們不用從零開始造輪子了,直接上手就能用。
一個(gè)Neuronpedia托管的前端:你可以通過這個(gè)交互界面,直觀地查看、分析這些復(fù)雜的圖譜
地址:
https://www.neuronpedia.org/gemma-2-2b/graph
有了這些工具,可以做什么?
1.追蹤電路:在支持的模型上,針對(duì)你感興趣的輸入,生成專屬的歸因圖譜。
2.可視化、注釋和共享:利用交互式前端,不僅能看,還能在圖譜上做標(biāo)記、寫注釋,甚至方便地分享給同行。
3.檢驗(yàn)假設(shè):更進(jìn)一步,你可以修改圖譜中某些特征的數(shù)值,然后觀察模型的輸出會(huì)發(fā)生什么變化,以此來驗(yàn)證你對(duì)模型內(nèi)部機(jī)制的猜想。
Anthropic自己已經(jīng)用這套工具在Gemma-2-2b和Llama-3.2-1b等模型上搞了不少有意思的研究,比如多步推理過程、多語言表征等。他們還準(zhǔn)備了demo notebook,手把手教你怎么用
notebook地址:
https://github.com/safety-research/circuit-tracer/blob/main/demos/circuit_tracing_tutorial.ipynb
參考:
https://www.anthropic.com/research/open-source-circuit-tracing
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.