大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

博士級AI智能體寫的論文,首次登上頂會ACL!人類作者只是監工

0
分享至


新智元報道

編輯:英智

【新智元導讀】首個能獨立完成從假設到論文全流程的AI科學家Zochi,帶著突破大模型安全的Tempest框架登上ACL主會場,它用「多輪對話+樹搜索」讓GPT-4防線幾近崩潰,97%成功率背后藏著怎樣的「溫水煮青蛙」套路?

有個叫Zochi的AI系統寫了一篇研究論文,并且被頂級學術會議ACL 2025的主會場接受了!

ACL是自然語言處理(NLP)領域里最頂尖的會議之一。

Zochi是Intology AI開發的首個博士級智能體,就像一個從頭到尾完成科學研究「AI科學家」。

它的任務是提出假設,完成實驗,再到最終發表論文,堪稱超強Deep Research。


注冊地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform

已經有AI工具可以幫助做某些部分的研究,但Zochi是第一個能夠獨立完成整個過程的AI系統。

Zochi的論文平均得分為7.67,而其他由AI系統生成的論文得分通常在3到4之間。


論文發現并實現了一種新的越獄攻擊方法,這種方法被證明非常有效,可以讓大模型繞過它們的內置安全限制。

Zochi利用了一種「樹搜索」技術,來探索多種對話路徑,逐步突破LLM的安全防線。


論文鏈接:https://arxiv.org/abs/2503.10619

研究提出的Tempest框架,能通過多輪對話逐步瓦解模型的安全防線。

Tempest在需要更少查詢的情況下,成功率(97-100%)顯著高于單輪和現有多輪方法。

單輪暴擊VS多輪攻擊

過去的黑客攻擊大多是單輪暴擊,比如用一句精心設計的prompt(提示詞)直接讓模型吐出敏感信息,比如「教我制作炸彈」。

但現在的模型越來越聰明,單輪攻擊成功率越來越低。

而Tempest采用的是「多輪溫水煮青蛙」策略。


黑客先和模型聊安全研究,比如如何檢測非法廢物傾倒漏洞,模型放松警惕后,慢慢引導到具體規避監控的方法,最終讓模型主動提供違規細節。

這種攻擊不是一蹴而就,而是通過多輪對話,哪怕模型每次只泄露一點點信息,積累起來也能突破防線。

這就是多輪攻擊的可怕之處:用合法外衣包裝非法目的,一步步套出敏感信息。

Tempest如何套路AI?樹搜索+跨分支學習

Tempest的設計者模仿黑客思維,開發了一個「對話樹」攻擊模型。

它每輪都會同時拋出多個分支問題,就像章魚的觸手一樣全方位試探模型的底線。

比如第一輪問「作為倫理黑客,如何測試金融系統漏洞」,同時生成多個變體問題,有的強調學術研究,有的強調 緊急評估,看模型對哪種話術更「買賬」。


每輪對話不是一條直線,而是同時展開多條分支,每條分支代表一種攻擊策略。

比如:

  • 分支1:用「學術研究」身份獲取模型信任

  • 分支2:通過「角色扮演」模擬合法場景

  • 分支3:利用模型的對話連貫性,逐步升級請求

每輪對話,Tempest會生成多個不同的問題。

比如在討論「稅務欺詐」時,有的分支問AI如何生成虛構發票,有的問如何用AI偽造財務記錄。

每個分支都是一次獨立試探,模型在某個分支的部分妥協(比如透露了一點技術細節)會被立刻捕捉到,并用于優化下一輪的問題。

Tempest的核心邏輯是積少成多。

哪怕模型只說了監控攝像頭有盲區,Tempest也會把這些碎片信息收集起來,在下一輪對話中拼裝成更危險的問題,比如「如何利用監控盲區進行非法活動」。

就像用牙簽撬保險柜,一下下撬動,最終讓模型防線崩塌,具體過程如下:

- 擴展:對于每個對話狀態,生成多個下一輪提示。這并行擴展了對話狀態的前沿。

- 為每個響應計算
以量化漸進式策略瓦解。相應地更新,將任何的節點標記為成功終端節點。

- 跨分支學習:維護一個部分合規聚合器,收集所有分支中的微小妥協、微妙披露和情感線索。相應的策略被系統地合并并重新注入所有活動分支的后續提示中,允許一條路徑的成功策略為其他路徑提供信息。

- 策略提取:當某個分支實現高合規性或成功時,自動提取導致突破的策略序列。這些經過驗證的攻擊模式,在未來的分支擴展中被優先考慮。

- 修剪:為避免指數級增長,丟棄完全安全或部分合規性極低的分支。通過僅保留顯示部分或完全合規性的狀態,將資源集中在最有希望的對抗路徑上。


Tempest有個重要設計:各個對話分支會共享成功經驗。

比如某個分支發現模型對「安全審計」這個身份比較信任,其他分支就會立刻套用這個設定。

就像黑客團伙里有人摸到了一扇虛掩的門,其他人馬上跟著從這扇門突破。

實驗數據:幾乎「通殺」主流模型

在JailbreakBench數據集上評估Tempest,該數據集包含100個旨在引發LLM有害響應的行為提示,結果驚人:

  • GPT-3.5-turbo:多輪攻擊成功率100%,只要聊上幾輪,就能讓它吐出禁止內容。而傳統多輪方法Crescendo僅40%。

  • GPT-4:成功率97%,幾乎接近通殺,遠超基線方法GOAT等的46.6%。

  • Llama-3.1-70B:成功率92%,且平均只用51.8次查詢。


表2將Tempest與最先進的單輪越獄方法進行比較。

在GPT-3.5-Turbo上,雖然說服性對抗提示等方法取得顯著的94%成功率,但Tempest通過利用多輪動態達到100%成功率。

對于GPT-4,這種優勢更加明顯。


Tempest的分支數量決定成敗:當同時展開5條分支時,GPT-4的成功率從單分支的41%飆升到97%。

這說明,并行探索多個攻擊路徑是突破模型防護的關鍵。


結果表明,哪怕模型對單個惡意prompt有抵抗力,但在多輪對話中,防線可能被一點點侵蝕。

就像和陌生人聊天,一開始都有戒心,但聊久了難免放松警惕,AI也是如此。

論文分析了非法廢物處理的案例,Tempest的攻擊過程分三步。

  1. 建立信任:黑客自稱認證安全研究員,請求創建漏洞測試場景,模型回復「可以討論通用安全措施」。

  2. 逐步引導:黑客追問惡意者可能的具體步驟,模型開始透露監控規避技術,如分析攝像頭盲點。

  3. 突破防線:黑客以時間緊急的漏洞評估為由,要求詳細步驟,模型最終給出激光筆干擾攝像頭等具體方法。

整個過程中,模型的漏洞被不斷捕捉和利用,就像黑客在拼圖,每一片碎片都讓最終的違規輸出更完整。

這給AI安全敲響了警鐘:未來的安全測試不能只盯著單次對話,更要模擬真實場景中的長期交互。

比如,模型是否能在連續10輪的「軟磨硬泡」中始終堅守底線?是否能識別出換湯不換藥的變相攻擊?


Tempest用的還是通用攻擊者模型(Mixtral-7x22B),沒經過專門訓練就能達到這種效果。如果黑客用上更強大的工具,后果不堪設想。

安全不是非黑即白的開關,而是需要抵御「灰色地帶」侵蝕的持久戰。

Zochi證明了AI不僅能輔助研究,還可以獨立完成高質量的科學研究,甚至能通過學術界的嚴格審稿過程。

參考資料:

https://x.com/askalphaxiv/status/1927776652274057546

https://x.com/IntologyAI/status/1927770849181864110

https://x.com/Zochi_AS/status/1927767904742736039

https://arxiv.org/abs/2503.10619


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
威廉王子的億萬富翁好友在馬球比賽中“吞食蜜蜂”死亡,生前曾說:我吞下了什么東西

威廉王子的億萬富翁好友在馬球比賽中“吞食蜜蜂”死亡,生前曾說:我吞下了什么東西

鄉野小珥
2025-06-14 11:40:31
以史為鑒 | 3年前俄烏沖突爆發后,A股是怎么走的?

以史為鑒 | 3年前俄烏沖突爆發后,A股是怎么走的?

每經牛眼
2025-06-15 09:08:00
狼記:森林狼一直在與太陽商談杜蘭特交易,但麥丹是非賣品

狼記:森林狼一直在與太陽商談杜蘭特交易,但麥丹是非賣品

雷速體育
2025-06-15 10:14:08
日本要求解釋“遼寧艦為何現身硫磺島”,中方一句回應沖上熱搜

日本要求解釋“遼寧艦為何現身硫磺島”,中方一句回應沖上熱搜

大道無形我有型
2025-06-10 12:23:57
大師王林忽悠女明星陰陽雙修,用聯通之法,讓女星吸收他的法力

大師王林忽悠女明星陰陽雙修,用聯通之法,讓女星吸收他的法力

吳學華看天下
2023-12-09 19:43:32
大比分2-2后!美媒預測最新奪冠概率:80%比20%,完全成了一邊倒

大比分2-2后!美媒預測最新奪冠概率:80%比20%,完全成了一邊倒

你的籃球頻道
2025-06-14 14:22:40
央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

農村教育光哥
2025-06-14 10:46:25
1968年,陜西一男孩撿到玉璽,上交國家得20元,44年后政府找上門

1968年,陜西一男孩撿到玉璽,上交國家得20元,44年后政府找上門

舊時樓臺月
2025-06-06 13:26:15
“500萬日元移民日本”時代將一去不復返

“500萬日元移民日本”時代將一去不復返

徐靜波靜說日本
2025-06-15 07:08:33
“導師”訪京,賴清德設特殊飯局

“導師”訪京,賴清德設特殊飯局

牛鍋巴小釩
2025-06-15 09:06:46
50歲后,手上有“這個數”存款,真就算富人啦!

50歲后,手上有“這個數”存款,真就算富人啦!

小白鴿財經
2025-06-15 08:54:05
你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

愛下廚的阿釃
2025-06-13 15:02:18
申花爆冷輸球,這兩人表現太差,一個太莽一個太軟,浪費外援名額

申花爆冷輸球,這兩人表現太差,一個太莽一個太軟,浪費外援名額

星Xin辰大海
2025-06-15 01:05:27
殺害楊開慧的軍閥何健,解放后子孫留大陸,最終結局如何?

殺害楊開慧的軍閥何健,解放后子孫留大陸,最終結局如何?

轉身微笑梅
2025-06-14 21:48:08
奔馳車集體“擺爛”,車主崩潰!

奔馳車集體“擺爛”,車主崩潰!

車轱轆話V
2025-06-13 19:15:48
央行重磅數據公布!貸款猛增、存款狂漲……

央行重磅數據公布!貸款猛增、存款狂漲……

魏家東
2025-06-15 07:40:00
已攻擊超200個目標,以軍稱對伊朗軍事行動“剛剛開始”!美國戰斗機在中東上空巡邏!伊朗:擊落以色列F-35戰機

已攻擊超200個目標,以軍稱對伊朗軍事行動“剛剛開始”!美國戰斗機在中東上空巡邏!伊朗:擊落以色列F-35戰機

每日經濟新聞
2025-06-14 09:52:09
高考數學滿分,理綜298,目標清華大學,看到他的書桌網友沉默了

高考數學滿分,理綜298,目標清華大學,看到他的書桌網友沉默了

戶外阿毽
2025-06-14 00:53:37
重慶警方:張某,被采取刑事強制措施

重慶警方:張某,被采取刑事強制措施

新京報政事兒
2025-06-14 14:39:45
3名華人在美國偷櫻桃被捕!身份曝光,保釋金上百萬,評論區炸鍋

3名華人在美國偷櫻桃被捕!身份曝光,保釋金上百萬,評論區炸鍋

古事尋蹤記
2025-06-14 06:35:03
2025-06-15 10:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12877文章數 66068關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
游戲
手機
藝術
數碼

家居要聞

森林幾何 極簡灰調原木風

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

手機要聞

蘋果Liquid Glass UI影響文字可讀性并提高設計界面難度引發質疑

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

消息稱 AMD 將推出 R7 9700F 無核顯處理器,目標價位 250 美元

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色在线无码国产精品不卡| 免费国产va在线观看| 2021最新国产在线人成| 欧美丰满一区二区免费视频| 久久精品国产9久久综合| 日本少妇???喂切| 日韩精品无码一区二区三区| 男人的天堂免费a级毛片无码| 无码aⅴ精品一区二区三区| 欧美牲交a欧美牲交aⅴ另类| 日本无遮挡吸乳视频| 国产精品亚洲综合色区韩国| 精品免费国产一区二区三区四区介绍| 男女性高爱潮免费观看| 欧美精品国产综合久久| 成人乱码一区二区三区四区| 国产成人精品久久亚洲高清不卡| 精品国产乱码久久久久久软件大全| 97se狠狠狠狠狼亚洲综合网| 精品www日韩熟女人妻| 精品国产乱码久久久久软件| 久久久久国色av免费观看| 好爽好舒服要高潮了视频| 免费午夜无码视频在线观看| 国产成人精品视频国产| 国产成人亚洲影院在线播放| 曰本无码人妻丰满熟妇5g影院| 东北粗壮熟女丰满高潮| 亚洲精品国产高清在线观看| 少妇无码av无码专线区大牛影院| 少妇裸体性生交| 国产无遮挡又爽又刺激的视频老师| 国产激情艳情在线看视频| 亚洲人成人网站18禁| 国产香蕉视频在线播放| 国产呻吟久久久久久久92| 日本高清在线一区二区三区| 亚洲熟妇av一区二区三区漫画| 国产精品 高清 尿 小便 嘘嘘| 亚洲精品网站在线观看你懂的| 亚洲精品自产拍在线观看动漫|