大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

0
分享至

西風 發自 凹非寺
量子位 | 公眾號 QbitAI

Claude團隊來搞開源了——

推出“電路追蹤(circuit tracing)工具,可以幫大伙兒讀懂大模型的“腦回路”,追蹤其思維過程。



該工具的核心在于生成歸因圖(attribution graphs),其作用類似于大腦的神經網絡示意圖,通過可視化模型內部超節點及其連接關系,呈現LLM處理信息的路徑。

研究人員通過干預節點激活值,觀察模型行為變化,從而驗證各節點的功能分工,解碼LLM的“決策邏輯”。

官方表示,此次發布的開源庫支持在主流開源權重模型上快速生成歸因圖,而Neuronpedia托管的前端界面則進一步允許用戶交互式探索。

總之,研究人員能夠:

  • 通過生成自有歸因圖,在支持的模型上進行電路追蹤;
  • 在交互式前端中可視化、注釋和分享圖表
  • 通過修改特征值并觀察模型輸出變化來驗證假設

Anthropic CEO Dario Amodei表示:

  • 目前,我們對AI內部運作的理解遠遠落后于其能力的發展。通過開源這些工具,我們希望讓更廣泛的社區更容易研究語言模型的內部機制。我們期待看到這些工具在理解模型行為方面的應用,以及對工具本身的改進拓展。

目前,該項目開源不到24小時,在GitHub就已攬獲400+Star。

在Reddit、X上都有不少網友點贊&討論。



有網友直呼“DeepSeek肯定喜歡這個”。



還有網友認為“歸因圖可能成為LLM研究的顯微鏡”。



“電路追蹤”食用教程

除了宣布開源外,Anthropic依據介紹電路追蹤方法的原始論文《On the Biology of a Large Language Model》中多步推理和多語言電路示例,利用該工具深入探究了幾個涉及Gemma-2-2b的歸因圖。



一起來看看具體示例和分析。

如果想生成自己的圖,可以在Neuronpedia上進行操作,也可以直接在Colab中使用這個起始notebook進行操作。

兩階推理

先來看一個兩階推理示例。

問題:包含達拉斯的州的首府是?(Fact: The capital of the state containing Dallas is → Austin)

模型必須首先推斷出包含達拉斯的州是得克薩斯州;然后,回答得克薩斯州首府是奧斯汀

介紹電路追蹤方法的原始論文中表明,模型Claude 3.5 Haiku使用以下電路解決了該問題,計算了“包含達拉斯的州”這一中間步驟。

而對Gemma 2(2B)進行歸因分析表明,它使用以下電路成功完成了prompt任務:

該電路結構與Claude 3.5 Haiku的類似,存在一個對應“得克薩斯州”的節點,并同時顯示從“達拉斯”到“奧斯汀”的直接路徑以及經過“得克薩斯州”的間接路徑。

歸因圖基于使用transcoders來近似多層感知機(MLP)的行為,提出了關于模型行為的假設。

Anthropic表示,可以通過直接對底層模型進行干預,來驗證他們對模型行為的理解是否正確。

對圖中所示的每個超節點(supernodes)進行干預,首先需要從該圖中獲取超節點。

Anthropic提供了一個便捷函數,可將電路URL(及其中存儲的超節點)映射到Feature對象列表。每個Feature對象是一個(layer, position, feature_index)元組。

然后,創建用于解決此任務的電路表示。

首先需定義一些超節點對象(Supernode objects),這些對象將存儲底層Feature列表,以及受其因果影響的子超節點。

再初始化一個干預圖(InterventionGraph),用于存儲所有超節點并跟蹤它們的狀態。

另外,還需要獲取模型在此提示下的logits和激活值

設置每個節點的默認激活值(即未進行干預時,原始提示下的激活值),并設定其激活分數,激活分數為節點當前激活值與默認激活值的比值。

由于當前激活值與默認激活值相同,因此每個節點的激活分數均為100%。



另外還將記錄top-5的logits,然后對圖表進行可視化。



結果顯示電路與在可視化完整圖表時創建的超節點吻合。

現在,通過干預驗證每個超節點是否如假設般發揮作用,每次干預會將節點值設定為原始值的特定倍數。



在介紹電路追蹤方法的原始論文中,關閉“說出一個首府”(Say a capital)Feature會導致“說出奧斯汀”(Say Austin)超節點關閉,且模型的最高logits變為得克薩斯州(Texas)。

若接下來對Gemma 2(2B)歸因圖進行相同操作,會發生什么?

結果觀察到了完全相同的現象。強行關閉“說出一個首府”超節點后,“說出奧斯汀”節點也隨之關閉,模型的最高logit變為了得克薩斯州。

那如果關閉“首府”(capital)超節點會怎樣?

與之前的干預行為類似:關閉“說出一個首府” 超節點,但沒有像之前那樣強烈,也部分關閉了“說出奧斯汀”節點。

如果我們關閉“得克薩斯州”超節點會怎樣?

關閉“得克薩斯州”超節點同樣會使“說出奧斯汀”節點失效,導致模型輸出其它州的首府。

如果關閉“州”(state)超節點會怎樣?

關閉“州”超節點效果并不明顯,它對其它超節點的激活狀態幾乎沒有影響,模型的logits也幾乎沒有變化。

現在已經通過剔除節點驗證了其行為。

那么,能否注入完全不同的節點并驗證其是否產生預期效果?

以prompt“包含奧克蘭的州的首府是( Fact: The capital of the state containing Oakland is → Sacramento)”中的電路為例,從該圖中提取兩個超節點“加利福尼亞州”(California)和 “說出薩克拉門托”(Say Sacramento),并將其添加到干預圖中。

然后,進行干預操作:關閉“得克薩斯州”超節點,并激活“加利福尼亞州”超節點。



這樣做導致“說出奧斯汀”節點完全關閉,而“說出薩克拉門托”節點開始激活,模型最高輸出現在也變為薩克拉門托。

還可以將州替換為國家進行類似實驗。以Prompt“包含上海的國家的首都是(Fact: The capital of the country containing Shanghai is → Beijing)”的電路為例,執行與之前完全相同的操作:

禁用“得克薩斯州”超節點,并激活“中國”超節點。這次雖然沒有“說出北京”節點,但這種干預的效果應該會在logits中顯現。



結果同樣有效,北京現在成為模型最可能的輸出。

那總是會有效嗎?

再用Prompt“包含溫哥華的地區的首府是(Fact: the capital of the territory containing Vancouver is → Victoria)”的電路來試試。

在這種情況下,干預效果并不顯著。

模型的輸出看起來與僅剔除“得克薩斯州”時的結果類似,這表明“不列顛哥倫比亞省”(British Columbia)節點的加入幾乎沒有產生作用

多語言電路

接下來Anthropic還探討了原論文中研究的多語言電路。

具體而言,將考察三個電路,分別對應三種語言的同一句子:



關于Claude 3.5 Haiku的研究展示了一個共享的多語言電路:

與Haiku的電路不同,Gemma 2(2B)的電路從本質上完全具備多語言特性。

模型中并不存在獨立的“Say big”或“Say grand”超節點來驅動其用特定語言輸出對應答案。相反,所有電路均采用 “Say big”Feature,若答案為非英語,則會結合“French”或“Chinese”Feature共同作用。

接下來,通過對這些電路進行干預實驗來展開研究。

首先,如前所述創建超節點對象(Supernode objects)

然后,獲取這些節點的激活值,對其進行初始化,并生成可視化圖表。

現在進行第一次干預操作:關閉“French”超節點。



在關閉“French”超節點后,模型輸出變成了英文。

值得注意的是,這對“Say big”超節點僅產生輕微影響,二者的作用似乎相互獨立

再嘗試將語言切換為另一種:關閉“French”超節點,并激活“Chinese”超節點。

正如預期,干預后的模型輸出與中文示例的原始輸出一致。

那如果將“small”Feature替換為“big”會怎樣?



將“small”超節點替換為“big”超節點后,導致“說出big”超節點關閉,同時一個新的“Say small”超節點被激活。

模型的輸出在法語中變為“petit”(即 “small”)

接下來是最后一項干預,能否將“opposite”(反義詞)超節點替換為 “synonym”(同義詞),以獲取同義輸出?

雖然該模型并不擅長處理同義詞:當輸入“Un synonyme de ‘petit’ est ‘”(“petit”的同義詞是“”)時,模型會重復輸出“petit”,而非其它同義詞。

但是,仍可觀察此干預是否會復現該行為。

不過最終這項干預并未奏效。盡管“Say small”超節點被激活,但“Say big”也保持激活狀態,模型的輸出并未改變。

Anthropic團隊認為這并不意外,如果觀察該任務的原始電路,會發現“opposite”(反義詞)超節點與輸出端僅存在弱連接。因此,盡管它本應發揮作用,但其因果效應相當有限。

更多細節大伙兒可自行查閱。

另外作為啟發,Anthropic在demo notebook和Neuronpedia上提供了尚未分析的額外歸因圖,感興趣的童鞋可以親自上手研究研究。

GitHub鏈接:https://github.com/safety-research/circuit-tracer?tab=readme-ov-file
[1]https://x.com/anthropicai/status/1928119229384970244?s=46
[2]https://www.anthropic.com/research/open-source-circuit-tracing

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
澤連斯基擔心的事情發生了!俄羅斯給出先決條件

澤連斯基擔心的事情發生了!俄羅斯給出先決條件

王朝風云
2025-06-14 08:45:06
最新戰況:以色列損失慘重,F-35被擊落,到處都是爆炸聲

最新戰況:以色列損失慘重,F-35被擊落,到處都是爆炸聲

時時有聊
2025-06-14 11:54:59
伊朗稱逮捕以色列F-35戰機飛行員

伊朗稱逮捕以色列F-35戰機飛行員

國際在線
2025-06-14 21:03:25
西雅圖風暴致謝李月汝:謝謝你做的一切,祝你在達拉斯好運

西雅圖風暴致謝李月汝:謝謝你做的一切,祝你在達拉斯好運

懂球帝
2025-06-14 23:28:12
直到現在,我才明白,為什么伊朗這次導彈襲擊讓全球都炸鍋了!

直到現在,我才明白,為什么伊朗這次導彈襲擊讓全球都炸鍋了!

高原一劍客
2025-06-14 17:07:34
鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
伊朗媒體:以色列國防部大樓被伊朗導彈擊中

伊朗媒體:以色列國防部大樓被伊朗導彈擊中

澎湃新聞
2025-06-14 13:00:26
小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

大笑江湖史
2025-06-14 22:56:07
鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

陳博世財經
2025-06-14 14:28:17
妹紙在Gucci上班第一天,收到2大包員工福利,直播開箱后悲劇了...

妹紙在Gucci上班第一天,收到2大包員工福利,直播開箱后悲劇了...

英國那些事兒
2025-06-14 23:43:44
跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
單位出現奇怪現象:領導和同事像集體約好的一樣,一過55歲就開始喜歡獨來獨往了

單位出現奇怪現象:領導和同事像集體約好的一樣,一過55歲就開始喜歡獨來獨往了

職場火鍋
2025-06-14 20:33:22
29歲女子商場遭挾持被捅數刀,靠假體躲過致命一擊!警方:嫌疑人已自殺,案件已結

29歲女子商場遭挾持被捅數刀,靠假體躲過致命一擊!警方:嫌疑人已自殺,案件已結

魯中晨報
2025-06-14 07:26:02
中紀委怒批公務員也是人!正常生活不應問責處!

中紀委怒批公務員也是人!正常生活不應問責處!

霹靂炮
2025-06-13 23:49:27
大家有沒有發現,今年社會大眾對于高考的態度特別冷淡。

大家有沒有發現,今年社會大眾對于高考的態度特別冷淡。

玉辭心
2025-06-12 07:27:18
伊朗要變天了

伊朗要變天了

戰爭研究所
2025-06-13 23:40:34
馬刺媒體發問:萬一文班亞馬真的退役去當一名和尚怎么辦?

馬刺媒體發問:萬一文班亞馬真的退役去當一名和尚怎么辦?

直播吧
2025-06-14 19:50:20
網傳“女生萬象城遭挾持”,杭州上城警方通報

網傳“女生萬象城遭挾持”,杭州上城警方通報

環球網資訊
2025-06-14 18:57:23
2025-06-15 03:59:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

手機
健康
教育
游戲
公開課

手機要聞

三星Galaxy Z Fold7渲染圖曝光:很輕薄、相機明顯凸起

呼吸科專家破解呼吸道九大謠言!

教育要聞

江蘇最新消息:6月28日填報志愿!

死掉的“賽博初戀”,有誰能夠打贏復活賽?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 狠狠爱五月丁香亚洲综合| 在线精品无码字幕无码av| 国产精品国产三级国av麻豆| 精品国产一区二区三区久久久狼| 久久不见久久见www免费视频| 中文字幕丰满乱子无码视频| 在线 欧美 中文 亚洲 精品| 欧洲美熟女乱又伦av影片| 丝袜自慰一区二区三区| 无码人妻一区二区三区免费看成人| 狠狠婷婷综合久久久久久| 国产做a爰片久久毛片a片白丝| 精品久久8x国产免费观看| 真人抽搐一进一出gif| 日本不卡一区二区三区在线| 亚洲色大成网站www| 老色鬼在线精品视频在线观看| 亚洲av无码av男人的天堂| 18禁黄网站禁片免费观看| 国产又粗又猛又爽又黄的视频在线观看动漫| 久久综合综合久久av在钱| 尤物yw午夜国产精品视频| 永久不封国产av毛片| 无码av天天av天天爽| 无码加勒比一区二区三区四区| 亚洲国产精品无码久久久蜜芽| 伊人久久大香线蕉av五月天宝贝| 久久久国产一区二区三区四区小说| 2021av在线无码最新| 久久精品国产亚洲一区二区| 无码视频一区二区三区在线观看| 久久香蕉国产线看观看精品yw| 日本xxxx色视频在线观看| 国产成人精品a视频一区| 精品无码国产av一区二区三区| 亚洲国产av精品一区二区蜜芽| 国产亚洲精品精品精品| 久久精品视频在线看15| 雯雯在工地被灌满精在线视频播放| 天堂中文最新版在线中文| 中文字幕亚洲无线码一区女同|