隨著人工智能技術的飛速發展,特別是 AI 智能體(Agent)能力的顯著增強,現有基準測試在衡量其真實世界效能方面已顯不足。針對這一挑戰,紅杉中國(沒錯,那家知名投資機構)今日推出了一個 AI 基準測試工具 xbench,并同步發布了相關技術報告《xbench:通過與專業對齊的真實世界評估來跟蹤代理的生產力擴展》(xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations),旨在為業界提供一個更科學、持久且能真實反映 AI 客觀能力的評估框架。
圖丨相關論文(來源:xbench)
據紅杉中國方面介紹,xbench 的誕生源于他們在 AI 評測實踐中遇到的問題。在過去兩年多的時間里,這一工具一直在紅杉中國內部孵化使用,最初作為追蹤和評估基礎模型能力的工具。自 2022 年 ChatGPT 發布后,紅杉中國開始對主流模型進行追蹤,觀察到它們在特定測試集上的表現,在18個月內從較低水平提升至接近滿分的程度。
然而,隨著模型能力的快速提升,評估的有效時間在急劇縮短。紅杉中國合伙人公元分享道,團隊經歷了三次題庫迭代,每次模型都能很快“刷爆”現有題庫。這種現象引發了他們的思考:當前被廣泛使用的基準測試正面臨一個日益尖銳的問題——真實地反映 AI 的客觀能力變得越來越困難。
傳統評測方式往往側重于模型的理論能力上限,通過解決復雜智力題來衡量 AI 的“智能“水平,但這種方式的有效性正在受到挑戰。一個很明顯的例子是,程序員工作的效用價值很高,AI 在該領域進步飛快,而像“去工地搬磚”這樣的工作,AI 卻幾乎無法完成。這促使團隊思考:模型能力和 AI 實際效用之間究竟是什么關系?出越來越難的題目意義何在?
2025 年 3 月,在規劃新一輪題庫升級時,紅杉團隊對其既有 AI 評估方法進行了重新審視。基于此,xbench 項目正式啟動,其旨在構建一個全新的評估框架。據了解,該框架的核心目標是,不僅要考察 AI 的技術能力邊界,更要能結合真實世界的專業需求,衡量 AI 在實用任務、關鍵商業指標以及經濟產出方面的實際效能。
雙軌評估與動態長青機制
xbench 的核心創新在于其采用的雙軌評估體系和長青評估機制,旨在同時追蹤模型的理論能力上限與智能體在真實場景下的實際落地價值。
圖丨雙軌框架(來源:xbench)
第一條主線是“能力上限與技術邊界評估”,被稱之為“AGI Tracking”評測。這類評測旨在驗證模型在特定能力維度上是否具備了從 0 到 1 的智能表現,其關鍵在于題目的難度、巧妙性和區分度,用以挖掘“智能”而非簡單“系統”的邊界。
團隊認為,只有當某個 AI 關鍵能力在 AGI Tracking 中實現突破,才可能進一步解鎖更多專業工作流程,進入更高階的評估范疇。目前,xbench 將智能體能力拆分為基礎智能、專業實踐能力、創新能力與組織能力等多個層級,并針對 AI 尚未充分解決的核心能力,如長期記憶、可信度、問題發現、多智能體協作與博弈能力等,構建并持續維護對應的評估集。
圖丨AGI Tracking 的評估框架(來源:紅杉匯)
首期發布的 AGI Tracking 評估集包括兩個核心部分。
其一是“xbench-ScienceQA”,主要考察研究生水平的學科知識和推理能力。該評估集收集了可靠、多領域、高等教育難度、搜索引擎上信息稀缺且答案明確的高質量題目,并計劃每季度更新一次,以確保題目的公正性、區分度與正確性,同時有效檢查評估集泄露程度。
其二是“xbench-DeepSearch”,專注于評估 AI 智能體在自主規劃、信息收集、推理分析及總結歸納方面的深度搜索能力,特別針對中文互聯網環境進行了適配。此評估集要求智能體具備端到端的綜合能力,所有題目均由人工出題并交叉驗證,保證新穎性、答案正確性和唯一性,同樣計劃每季度更新評估集,每月持續匯報最新模型表現。
第二條主線是“量化 AI 系統在真實場景的效用價值”,即“Profession-Aligned”評測。這條主線將智能體視為一個“數字員工”,將其置于具體的業務流程中進行考察。其評估核心并非智能存在與否,而是關注在真實場景下的交付結果和商業價值,不限定解決方案,只考核結果。團隊稱,Profession-Aligned 評估是從生產力需求出發,旨在定義垂直領域的應用場景,甚至在這些場景的應用尚未成熟之前,便為其構建具有明確業務價值的測評標準。
據介紹,為了應對靜態評估集題目泄露導致過擬合而迅速失效的問題,xbench 引入了“長青評估(Evergreen Evaluation)”機制,團隊將持續維護并動態更新測試內容,以確保評估的時效性和相關性。
針對 AGI Tracking 評測,xbench 希望能延續學術界已有的出色方法論,并提供第三方、黑白盒、實時(Live)的評測,克服學術研究中因資源與時間限制難以維護動態擴充評估的難題。
而對于 Profession-Aligned 評測,xbench 致力于建立從真實業務中實時收集題目的機制,邀請各行業的職業專家共同構建和維護動態的行業評估集。團隊表示,通過這種動態更新和可橫向對比的能力指標,他們期望能觀察到模型排名之外的發展速度與關鍵突破信號,判斷其是否達到市場可落地閾值,以及在何時智能體可以接管現有業務流程并提供規模化服務。
對齊真實世界:Profession-Aligned 評估體系
紅杉中國方面表示,xbench 的 Profession-Aligned 評估體系是其區別于傳統 AI 測評的關鍵所在,它致力于搭建一座連接 AI 技術能力與現實世界生產力價值的橋梁。他們認為,AI 要成功邁入發展的“下半場”,就必須構建能夠精準衡量其在特定專業領域生產力貢獻和商業價值的評估體系。
(來源:xbench)
據介紹,構建 Profession-Aligned 評估遵循三條核心原則。首先是評估由需求定義,即針對招聘這一特定職業構建評估集時,優先梳理其完整的業務流程和任務分類,重點聚焦于那些可以被有效評估的任務項。
其次是評估任務隨時間逐漸產生的從專家業務中 Live 收集,這意味著任務并非憑空“出題”產生,而是在招聘專家日常工作中逐步積累和收集而來,特別是對于那些動態變化的任務,xbench 會持續從真實的業務流中獲取最貼近市場動態的評估內容。
最后是領域價值驅動評估目標,即為每一項招聘任務標注專家完成所需的時間,并結合行業薪資基準來估算該任務的經濟價值,同時為每個任務預設一個技術-市場契合點(TMF,Tech-Market Fit)目標,一旦 AI 智能體在該任務上的表現達標,則該任務的評估難度將不再刻意追求持續提升,而是力求與實際業務需求相匹配。
在 xbench 的首期發布中,紅杉中國重點構建了面向招聘和營銷這兩個具有高市場價值和中等技術成熟度的專業領域的評測框架。
在招聘領域,全球招聘市場規模巨大,外部招聘服務正快速增長。紅杉中國表示,他們與多家頭部獵頭企業合作,梳理專家工作中的任務與時間分配,篩選出核心工作圖譜。考慮到可行性和可測性,首期招聘評估集收錄了諸如基于職位描述(JD,Job Description)進行需求拆解與人才畫像定位(如公司映射)、候選人公開經歷補全(人到信息)、以及基于約束條件搜索公開人才(信息到人)等任務類型。
圖丨招聘任務的評估流程(來源:xbench)
例如,“公司映射”任務要求智能體根據 JD 識別合適的人才來源學校、公司或團隊;“人到信息”任務則要求智能體基于目標個體的部分信息,補全其職業歷史,并通過預設的驗證問題來評估信息收集的完整性和準確性;“信息到人”任務則要求智能體根據一系列約束條件找到特定的公眾人物。
評估過程采用開放式回答,并結合大語言模型作為“裁判”進行打分,評分標準嚴格且細致,關注覆蓋度、幻覺和信息質量等多個維度。目前收集的 50 個真實商業案例中,任務類型和所需人工時長均有不同分布,以確保評估的全面性。
在營銷領域,線上營銷市場同樣廣闊,其中網紅營銷(Influencer Marketing)因其勞動密集、匹配效率低和定價不透明等痛點,成為 AI 應用的潛力方向。xbench 營銷評估目前聚焦于“網紅搜索”這一復雜任務類別。基于客戶提供的產品信息和推廣需求(如活動簡介、預算、網紅類型和數量等),智能體需要在 YouTube、Instagram、TikTok 等平臺上尋找合適的網紅。
據介紹,紅杉中國與一線營銷公司合作,收集了 50 個真實的推廣需求案例和客戶最終選擇的網紅數據。評估時,首先會利用大模型根據客戶選擇的網紅特征生成一個理想網紅畫像的詳細評分標準,然后用此標準來評估智能體推薦的網紅列表,估算其結果的“再選擇率”,力求與實際業務中的客戶選擇行為對齊。任務也按客戶行業(如 App、游戲、電商)和人工耗時進行了分類,以反映真實業務的多樣性。
圖丨營銷基準測試中網紅搜索任務的評估流程(來源:xbench)
在初步評測中,xbench 對一系列主流 Agent 進行了測試,包括 OpenAI 的 o3、Claude-3.7-Sonnet、Gemini-2.5 系列等。結果顯示,o3 在招聘和營銷兩個基準測試中均排名第一。有趣的是,Perplexity-Search 在招聘任務上的表現甚至優于其 Research 版本,這可能意味著更長的研究過程有時會引入更高的幻覺率。
圖丨xbench 第一波排行榜(來源:xbench)
從能力追蹤到價值創造
面對 Agent 產品和外部環境都在動態變化的新挑戰,xbench 引入了項目反應理論(IRT,Item Response Theory)來構建 xbench-Index。IRT 是一種統計模型,可以從不完整的得分矩陣中估計每個 Agent 版本的能力主成分。報告稱,通過 IRT 估計的能力得分,可以更好地體現模型能力隨時間持續增長的趨勢,即便在評估題目不斷更新的情況下,也能觀察到發展速度與關鍵突破的信號。
xbench 團隊使用 OpenCompass 動態更新的評估結果驗證了 IRT 方法的有效性,觀察到了 Google Gemini 模型能力在 2024 年 10 月后的快速跟進,以及 Deepseek v2 與 R1 發布帶來的兩次明顯提升等趨勢。這種方法讓研究者能夠跨越時間維度追蹤 AI 能力的真實進展。
圖丨OpenCompass 原始評估和 IRT 能力估計(來源:xbench)
除了能力追蹤,xbench 還致力于評估 Agent 的技術-市場契合點。成本是 Agent 應用落地的決定性因素之一。雖然通過投入更多推理算力可以提升模型和 Agent 的效果,但在現實任務中必須考慮投入產出比,尋求在花費、延遲與效果間的平衡。
團隊認為每個專業領域會經歷三個 TMF 階段:未達成 TMF 階段,技術可行區與市場接受區沒有交集,Agent 應用僅是工具或概念,無法規模化產生價值;Agent 與人類共同工作階段,兩區域發生交集,交叉部分是 AI 帶來的價值增量;專業化 Agent 階段,領域專家主導構建評估體系并指導 Agent 迭代,其工作從交付結果轉向構建專業評估訓練。
圖丨每個專業領域經歷的三個 TMF 階段(來源:xbench)
從階段 1 到階段 2 的轉變,主要由 AI 技術的突破性進展以及計算能力和數據規模的持續擴展所驅動;從階段 2 向階段 3 的演進,則更加依賴于領域專家對于特定行業需求的深刻理解、對行業標準的熟練掌握以及長期積累的實踐經驗。而這正是 xbench 這樣的專業對齊評估體系所要解決的核心問題——如何將專業知識轉化為可量化的評估標準,指導 AI 技術在垂直領域的深度應用。
紅杉中國表示,xbench 是一個開放的平臺,歡迎基礎模型與 Agent 的開發者、相關領域的專家和企業,以及對 AI 評測具有濃厚興趣的研究者加入。他們計劃以實際生產力需求為出發點,聯合行業專家,將 Profession Aligned 的評估體系陸續拓展至金融、法律、銷售等高價值專業領域。所有的評測結果和方法論都將通過 xbench.org 網站實時更新并供公眾查看。
參考資料:
1.https://xbench.org/files/xbench_profession_v2.4.pdf
2.https://mp.weixin.qq.com/s/0elk_dIUNMNxvsaIP1WMAA
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.