大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線

0
分享至

機器之心報道

編輯:+0

又有一個 AI Scientist 的論文通過了頂會同行評審。

今天,Intology 宣布他們的 AI 科學家 Zochi 的論文被頂會 ACL 主會錄用,成為首個獨立通過 A* 級別科學會議同行評審的人工智能系統 ,同時開放了 Zochi 的 Beta 測試。

Beta 注冊地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform



近幾個月來,多個團隊已證明了人工智能在研討會級別的會議上能做出貢獻,此前 Sakana 的 AI Scientist-v2 就以均分 6.25 通過了 ICLR 會議一個研討會的同行評審,詳見機器之心報道《AI 寫的論文能過審?雙盲評審 6.25 分,達到 ICLR 研討會水平》。

但論文被頂級科學會議的主會議錄用,則意味著跨越了一個高得多的門檻。

提交給 ICLR 2025 的研討會論文錄用率約為 60-70%,而像 ACL(以及 NeurIPS、ICML、ICLR、CVPR 等)這樣的頂級會議的主會議錄用率僅為 20% 左右。 ACL 是全球自然語言處理 (NLP) 領域排名第一的科學會議,在全球所有科學會議中排名前 40。



此類頂級會議主會議的同行評審過程旨在進行高度篩選,對新穎性、技術深度和實驗嚴謹性都有著極為嚴格的標準。大多數計算機科學領域的博士生需要花費數年時間才能在同等聲望的會議上發表論文。

這使得 Zochi 成為首個達到博士級別的智能體:人工智能系統首次獨立完成了科學發現,并將其發表在與該領域頂尖研究人員相當的水平上。

Tempest:基于樹搜索的大型語言模型自主多輪「越獄」

話不多說,我們先來看看這篇論文吧。



  • 論文標題:Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search
  • 論文地址:https://arxiv.org/pdf/2503.10619

該研究的前期版本(名稱為 Siege)曾被 ICLR 研討會接收。后續,Zochi 對其設計進行了修改,并為提交 ACL 進行了更廣泛的實驗。

這項研究的一個特點是其自主性程度:人類研究者僅設定了「開發新型『越獄』方法」的初始目標。Zochi 隨后獨立確定了多輪攻擊這一具體研究方向,設計了 Tempest 方法,編寫代碼并進行了測試,執行了所有實驗,并撰寫了論文草稿。人類的參與主要限于圖表創建和格式修訂。

該研究從分析「越獄」相關文獻開始,設計了一種基于樹搜索的方法。該方法利用并行探索同時擴展多個對抗性提示分支,并集成了跨分支學習和部分合規跟蹤功能。系統自主實現了 Tempest,并在多個大型語言模型上進行了評估。



評估結果顯示,Tempest 在 GPT-3.5-turbo 上的成功率為 100%,在 GPT-4 上的成功率為 97%。與所比較的單輪和多輪基線方法相比,Tempest 在使用較少查詢次數的情況下達到了更高的成功率。

這項工作的結果提示,語言模型的安全措施可能通過多輪對話被系統性地繞過,其中逐步的策略性互動可能導致模型產生原本被限制的輸出。這些發現反映了當前安全機制中可能存在的某些不足,并為研究更有效的多輪對抗攻擊防御策略提供了數據和視角。

批評風波

2025 年 3 月 18 日,Intology 宣布推出了 Zochi, 并稱其為世界上第一位 「做出最先進貢獻」的 AI Scientist,它的研究成果已被 ICLR 2025 研討會接收。

Intology 官網:https://www.intology.ai/

通過標準化的自動審稿人評估,Zochi 的論文平均得分為 7.67 分,而其他由人工智能系統生成的公開論文得分在 3 到 4 分之間。



但 Intology 很快就陷入了批評風波。Sakana、Intology 和 Autoscience 都聲稱其使用 AI 生成的研究被 ICLR 接受,但只有 Sakana 在提交其 AI 生成的論文之前向 ICLR 領導通報了此事,并獲得了同行評審者的同意。

幾位 AI 學術界人士在社交媒體上批評了 Intology 和 Autoscience 的行為,認為這是對科學同行評審過程的濫用。



關于 Zochi

Zochi 是一個 AI research agent,能夠自主完成從文獻分析 到同行評審出版 的整個科學研究過程。該系統通過一個旨在模擬科學方法的多階段流水線進行運作。



  • 技術報告:https://github.com/IntologyAI/Zochi/blob/main/Zochi_Technical_Report.pdf
  • 代碼:https://github.com/IntologyAI/Zochi

Zochi 的工作成果

  • 通過正交知識空間實現高效模型自適應

為解決模型微調(PEFT)中的「跨技能干擾」問題,Zochi 提出了 CS-ReFT。該方法創新地通過學習「正交子空間表征」來編輯模型行為,而非修改權重。這使得 Llama-2-7B 僅用 0.0098% 的參數就實現了 93.94% 的 AlpacaEval 勝率,超越了 GPT-3.5-Turbo,并獲得了同行的高度評價。

  • 通過自主多輪紅隊測試發現 AI 漏洞

在 AI 安全方面,Zochi 開發了 Siege 框架,利用樹搜索算法進行高效的「多輪越獄」攻擊。通過識別并利用 LLM 的「部分遵從」漏洞,Siege 對 GPT-3.5 和 GPT-4 實現了極高的攻擊成功率(100%/97%),提示需要重新評估現有防御策略。其擴展工作已被 ACL 2025 接收。

  • 計算生物學進展(EGNN-Fusion)

Zochi 將 AI 技術應用于計算生物學,推出了 EGNN-Fusion,用于預測蛋白質 - 核酸結合位點。該方法在保持頂尖性能的同時,將參數數量銳減了 95%,證明了 Zochi 在解決復雜跨學科科學問題方面的強大實力和多功能性。

評估結果

與所有基線系統相比,Zochi 持續產出更高質量的研究論文。在使用基于 NeurIPS 會議指南的自動審稿人進行評估時,Zochi 的論文獲得了 8、8 和 7 的高分,均遠高于頂級機器學習會議平均錄用論文 6 分的接收門檻。

相比之下,其他 AI 系統的論文得分要低得多,平均約為 4 分。考慮到每個系統處理的問題復雜性存在巨大差異,這種評估差距尤其顯著。基線系統專注于相對受限的問題 —— 例如二維擴散模型、玩具規模的語言模型或特定的認知偏差 —— 而 Zochi 則致力于解決開放式挑戰,提出新穎且可驗證的最先進方法。



作為一項探索性練習,Zochi 在 MLE-Bench 的部分基于 Kaggle 的挑戰上進行了評估,以考察其在傳統機器學習工程任務上的表現。在沒有任何任務特定優化的情況下,Zochi 達到了最先進水平,在 80% 的任務上超過了人類表現中位數,并在 50% 的任務中獲得獎牌。這些成果超過了之前的基準測試,如 Agent Laboratory、AIDE 和 OpenHands,進一步突顯了 Zochi 核心能力的穩健性和適應性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
韓國大選開始“事前投票” 民調顯示一人領跑兩人追

韓國大選開始“事前投票” 民調顯示一人領跑兩人追

新華社
2025-05-29 17:05:34
丟人丟到國外了?萬千惠袒胸露乳走紅毯,被多次驅趕還賴著不走

丟人丟到國外了?萬千惠袒胸露乳走紅毯,被多次驅趕還賴著不走

聚合大娛
2025-05-28 16:12:33
37歲梅西發威:無敵橫切后飆10分角世界波,現場視角,太絲滑了

37歲梅西發威:無敵橫切后飆10分角世界波,現場視角,太絲滑了

側身凌空斬
2025-05-29 09:17:07
3小時36分的5盤大戰,38歲老將孟菲爾斯完成驚天逆轉,晉級法網次輪將戰德雷珀

3小時36分的5盤大戰,38歲老將孟菲爾斯完成驚天逆轉,晉級法網次輪將戰德雷珀

極目新聞
2025-05-29 15:04:13
河南最新任免名單

河南最新任免名單

天命生商
2025-05-29 17:06:48
黃子韜賣的衛生巾,現在有部分粉絲購買后,建議大家避雷,說漏

黃子韜賣的衛生巾,現在有部分粉絲購買后,建議大家避雷,說漏

西樓知趣雜談
2025-05-29 06:18:43
殲-10C總師:簽不完,根本簽不完……

殲-10C總師:簽不完,根本簽不完……

占豪
2025-05-29 09:37:28
成都女子家門口遇害后續!業主群聊內容曝光,兇手父母身份不簡單

成都女子家門口遇害后續!業主群聊內容曝光,兇手父母身份不簡單

阿纂看事
2025-05-28 18:19:00
難堪大用!皇馬鐵了心:愿拋售2左后衛,5000萬再砸22歲鐵閘

難堪大用!皇馬鐵了心:愿拋售2左后衛,5000萬再砸22歲鐵閘

叁炮體育
2025-05-28 22:37:03
內馬爾:維爾茨?不認識;穆西亞拉?天才,未來最偉大之一

內馬爾:維爾茨?不認識;穆西亞拉?天才,未來最偉大之一

懂球帝
2025-05-29 18:17:17
福建多地任命縣長、副縣長

福建多地任命縣長、副縣長

閩商報
2025-05-29 14:33:47
一奧運冠軍被捕!

一奧運冠軍被捕!

掌上春城
2025-05-29 11:01:13
傳了整整一個賽季!廣廈外援布朗首次公開回應歸化問題

傳了整整一個賽季!廣廈外援布朗首次公開回應歸化問題

狼叔評論
2025-05-29 16:49:14
國防部:解放軍保持“時刻準備著”的戰斗姿態,加強練兵備戰,捍衛國家主權和領土完整

國防部:解放軍保持“時刻準備著”的戰斗姿態,加強練兵備戰,捍衛國家主權和領土完整

新京報
2025-05-29 17:03:28
商務部:中方敦促美方徹底取消單邊加征關稅

商務部:中方敦促美方徹底取消單邊加征關稅

新京報
2025-05-29 16:05:08
連抓造船廠3名高管后,朝鮮再抓一條“大魚”,中國裝備成為關鍵

連抓造船廠3名高管后,朝鮮再抓一條“大魚”,中國裝備成為關鍵

揚子的故事屋
2025-05-28 17:31:08
1-0到1-4!60分鐘崩盤 1.7億戰艦折戟歐戰決賽 118年隊史首冠夢碎

1-0到1-4!60分鐘崩盤 1.7億戰艦折戟歐戰決賽 118年隊史首冠夢碎

狍子歪解體壇
2025-05-29 05:10:04
28歲吳艷妮,創下中國選手歷史新高!

28歲吳艷妮,創下中國選手歷史新高!

上觀新聞
2025-05-08 06:38:32
咱們這回真捅了老美心窩子?美國底牌消滅在望,臺海之戰已穩了?

咱們這回真捅了老美心窩子?美國底牌消滅在望,臺海之戰已穩了?

書中自有顏如玉
2025-05-25 18:22:44
許家印被捕全過程揭秘,背后真相曝光!

許家印被捕全過程揭秘,背后真相曝光!

領悟看世界
2025-05-28 03:45:33
2025-05-29 20:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10555文章數 142327關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

哪吒汽車上海總部LOGO被連夜拆除:工人還用刮刀清理

頭條要聞

哪吒汽車上海總部LOGO被連夜拆除:工人還用刮刀清理

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

搭載Thor芯片 領克900城市NOA挑戰重慶

態度原創

藝術
健康
數碼
房產
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

追風者終推出 T30-140 高性能風扇,加厚一體化風扇新品一道發布

房產要聞

清盤倒計時!這個天河芯紅盤,贏的不止多一點!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰满日韩放荡少妇无码视频| 久久亚洲av无码精品色午夜| 麻豆果冻传媒在线观看| 99久热在线精品996热是什么| 精品国产精品三级精品av网址| 99久久精品免费看国产一区二区三区| 亚洲熟女www一区二区三区| 丰满少妇人妻久久久久久| 久久天天躁狠狠躁夜夜免费观看| 国产精品国产三级国产a| 亚洲欧美日韩v在线播放| 久久18禁高潮出水呻吟娇喘| 国内少妇高潮嗷嗷叫在线播放| 亚洲色无码中文字幕在线| 中文字幕人妻一区二区三区| 欧美精品国产综合久久| 久久99精品国产麻豆蜜芽| 中国少妇内射xxxx狠干| 亚洲国产日韩视频观看| 无码熟妇人妻av在线影片最多| 男女爱爱好爽视频免费看| 色窝窝无码一区二区三区| 五月天精品视频在线观看| 狠狠久久亚洲欧美专区| 亚洲美女又黄又爽在线观看| 四川老熟女下面又黑又肥| 中文无码av一区二区三区| 久久精品国产亚洲夜色av网站| 18禁美女裸体无遮挡网站| 国产成人麻豆精品午夜福利在线| 亚洲性人人天天夜夜摸18禁止| 亚洲va成无码人在线观看| 亚洲欧洲国产码专区在线观看| 麻豆视传媒精品av| 深夜a级毛片免费无码| 亚洲中文字幕无码av| 久久婷婷五月综合色中文字幕| 在线看无码的免费网站| 麻豆人妻少妇精品无码专区| 国产精品久久久久久亚洲影视内衣| 国产色婷婷精品综合在线|