大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

大模型智能體如何突破規模化應用瓶頸,核心在于Agentic ROI

0
分享至



本文第一作者為上海交通大學計算機學院副教授劉衛文,研究方向為大模型智能體,大語言模型,個性化算法等。

近年來,隨著大語言模型的快速發展,基于其構建的大模型智能體(LLM Agents)正逐步從技術演示走向實際應用部署。然而,真正實現規?;瘧萌悦媾R諸多瓶頸。使用范圍主要集中于專業領域,如代碼生成、科研輔助等。在大眾、高頻、日常的應用場景(如電商、個人助理)中,普及率依然較低。這一現象引發了一個關鍵問題:

當前制約大模型智能體實際可用性的真正原因是什么?

上海交通大學聯合中科大在本文中指出:現階段大模型智能體的主要障礙不在于模型能力不足,而在于其「Agentic ROI」尚未達到實用化門檻。



  • 論文題目:The Real Barrier to LLM Agent Usability is Agentic ROI
  • 論文鏈接:https://arxiv.org/pdf/2505.17767

Agentic ROI:大模型智能體實現規?;瘧玫年P鍵瓶頸

研究團隊提出 Agentic ROI(Agentic Return on Investment)這一核心指標,用于衡量一個大模型智能體在真實使用場景中所帶來的「信息收益」與其「使用成本」之間的比值:



  • Information Quality:指智能體所生成的信息質量,包括準確性、完整性等。
  • Quality Threshold:指最低可接受的信息質量閾值(注:根據上下文推斷)。
  • Human Time和 Agent Time:分別指人類與智能體完成對應任務所需的時間。
  • Interaction Time:指用戶與智能體交互所需要的時間,如用戶進行任務描述、驗證結果過程中所消耗的時間。
  • Expense:指用戶經濟成本,如模型調用、API 使用的開銷。

只有當信息質量超過一定閾值,且智能體所節省的時間和成本之比足夠高時,智能體才真正具備可用性。



如上圖所示,當前大部分 LLM 智能體集中應用于人類任務時間成本高的信息密集型場景(如科研、編程),此類任務本身就需要大量人力投入,因此即便智能體部分替代也能顯著提高效率。然而,在用戶量龐大的日常場景中(如電商、搜索、助理等),任務本身較為簡單,交互成本低(如點擊、下滑操作),智能體提升的邊際價值不明顯,反而可能引入額外的交互成本和延遲,從而導致 Agentic ROI 較低。

因此,當前高用戶需求與低 Agentic ROI 之間的矛盾,反映了智能體在日常應用中的實用性不足,需進一步優化信息價值、智能體任務完成時間、及交互時間以填補市場空白。

優化 Agentic ROI 智能體發展的「之字形」軌跡

研究團隊提出,LLM 智能體的發展路徑并非線性增長,而是呈現出一種「先規模化、后輕量化」的「之字形」發展模式:首先規模化(scaling up)參數規模、訓練數據、推理能力以提升信息質量;之后在保證信息質量的前提下,輕量化(scaling down)進行模型壓縮、蒸餾、推理優化以減少智能體所用時間與調用成本。我們正處于智能體規模化發展的高峰階段,優先提升信息質量。

基礎模型如 OpenAI 系列模型的發展也體現了這一「之字形」發展趨勢:同系列模型如 o1-mini 到 o1 模型表現顯著增強,而新一代小模型如 o3-mini 則在持平 o1 性能的同時顯著降低了推理費用和延遲。



規?;嵘畔①|量(Scaling Up)

預訓練規?;≒re-training Scaling)

預訓練階段通過擴大模型規模、數據量和計算資源,使智能體在語言理解、推理和世界知識等基礎能力方面獲得穩步提升。而規?;褂冒蝿战Y構和操作流程的文檔數據(如操作手冊、工作流程指南)能夠幫助模型學習實際任務的分解邏輯和執行順序。此外,隨著上下文窗口的擴展和記憶機制的引入,智能體可以處理更長的交互歷史和用戶偏好,從而提升多輪任務執行的能力。

后訓練規模化(Post-training Scaling)

后訓練階段(如監督微調和強化學習)使智能體更貼近人類的需求與價值觀。同時,智能體性能提升還依賴于大規模復雜環境(網頁、API 接口)交互軌跡數據,使用外部工具進行操作決策。此外,在真實部署中積累的用戶反饋、任務完成記錄和錯誤修復數據,構成了智能體持續學習與演化的基礎,形成智能體的數據飛輪,使其在真實使用中不斷優化行為。

推理時規?;═est-time Scaling)

推理時規?;ǎ?/p>

  • 規?;评聿襟E(Scaling reasoning process),以應對復雜任務并生成更可靠的輸出;
  • 規?;嘀悄荏w系統(Scaling multi-agent system),通過協作完成任務分解與執行;
  • 擴展工具調用(Scaling tool calling),通過多次工具調用使智能體能夠逐步驗證中間結果;
  • 擴展推理時訓練(Scaling test-time training),通過利用無標簽測試數據實時更新快速適應新任務或用戶需求
  • 有約束條件下直接優化 Agentic ROI(Scaling towards Agentic ROI under budget constraints),智能體可在給定預算約束(如時間、API 成本)下動態評估每一步操作信息收益,直接整體優化 Agentic ROI。

構建世界模型(Building World Model)

構建真實的「世界模型」對于實現真正規?;瘮祿铣伞⒅悄荏w評估至關重要。世界模型應支持多模態交互(語言、圖像、文檔、音頻),具備處理多步驟、長時程任務的能力,并能模擬用戶的多樣化偏好與反饋機制。此外,它還應反映現實世界中的不確定性,例如信息不完全、用戶意圖變化、環境干擾等。

確保魯棒性與安全性(Ensuring Robustness & Security)

確保智能體行為的穩健性與安全性也是提升信息質量的重要一環。魯棒性方面,智能體應防止獎勵機制被利用,避免出現「獎勵黑客」現象;安全性方面,需要防范訓練數據污染、防止反饋被篡改和后門攻擊等。在運行過程中,智能體應配備異常檢測和事實核查能力,確保輸出內容的準確性與一致性。同時,構建行為審計機制和可解釋性工具,可以提升智能體的可控性和可靠性。

輕量化降低智能體時間與成本(Scaling Down)

減少智能體任務完成時間

引入記憶機制:引入記憶機制是提高效率的重要手段。具備記憶能力的智能體可以跳過重復計算,直接調用以往任務中積累的知識,從而加快處理速度。這種方式模擬人類專家的行為,依靠經驗而非實時推理來完成任務。

模型壓縮:通過模型壓縮或蒸餾來減少計算資源和推理延遲,是另一個核心方向。借助模型蒸餾等技術,可以將大模型的能力遷移到更小的模型中,從而在不顯著降低性能的前提下,顯著縮短響應時間、減少部署成本。

優化推理策略:智能體的時間消耗不僅來源于計算,還受到推理鏈條長度的影響。如果推理過程過于復雜或冗余,例如頻繁的自我反思、遞歸規劃等,可能會延長任務完成時間而未帶來質的提升。因此,更高效的智能體應具備「少而精」的思維能力,能夠通過最短路徑達成最優解。

基礎設施優化:硬件層面的升級,如 Groq 和 Cerebras 等新型 AI 芯片,以及軟件層面的優化,如 vLLM 和 FlashAttention 等推理引擎,都能顯著提升模型運行速度。只有軟硬件協同進化,才能真正滿足低延遲、實時響應的實際需求,從而提升智能體的整體可用性。

降低成本

降低交互時間:當前的智能體往往要求用戶提供冗長、明確的指令,這帶來了較高的使用門檻與認知負擔。為此,智能體的交互方式應從被動解析輸入,轉向主動理解用戶意圖,具備一定程度的目標推理與任務自完成能力。這種轉變不僅可以減少用戶的操作負擔,也有助于提升整體使用體驗。此外,產品設計上的新范式也有助于進一步降低用戶交互時間。

降低開銷:智能體的運行費用可能因模型規模、推理深度、調用外部工具等因素而迅速上升。尤其在大規模部署或持續運行場景下,成本問題尤為突出。因此,未來的智能體需要更智能地管理上下文,合理控制推理復雜度與工具調用頻率,確保在保證性能的前提下,盡可能降低資源消耗與使用開銷。

Agentic ROI 提供了一個衡量智能體真實可用性的系統框架,幫助我們超越模型性能的單一維度,轉向「實際效益」導向的設計與評價邏輯。智能體的「可用性」不應僅以模型性能定義,而應以綜合效益衡量。在實際部署中,Agentic ROI 為我們提供了一個更貼近真實世界的評價維度,幫助我們識別系統中被忽視的「隱藏成本」,并指導我們構建真正高效、可用、可負擔的智能體系統。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
西雅圖風暴致謝李月汝:謝謝你做的一切,祝你在達拉斯好運

西雅圖風暴致謝李月汝:謝謝你做的一切,祝你在達拉斯好運

懂球帝
2025-06-14 23:28:12
以色列一科學研究院遭伊朗襲擊,以媒稱可能有人員被困

以色列一科學研究院遭伊朗襲擊,以媒稱可能有人員被困

澎湃新聞
2025-06-15 12:02:36
伊朗多渠道發出求和聲音!以色列:打起來就不要停,我的援軍已到

伊朗多渠道發出求和聲音!以色列:打起來就不要停,我的援軍已到

昨夜軍帖
2025-06-15 14:04:28
7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

阿傖說事
2025-06-14 23:10:38
華為Pura80系列首銷:搭載12核處理器,不再嚴重缺貨

華為Pura80系列首銷:搭載12核處理器,不再嚴重缺貨

觀察者網
2025-06-14 22:19:14
不信謠不傳謠,關于羅某宇之死,人民日報發布超詳細通報

不信謠不傳謠,關于羅某宇之死,人民日報發布超詳細通報

讀鬼筆記
2025-06-14 11:41:48
特朗普在華盛頓舉行大規模閱兵上贊揚美國武裝部隊的“戰斗精神”

特朗普在華盛頓舉行大規模閱兵上贊揚美國武裝部隊的“戰斗精神”

生活魔術專家
2025-06-15 15:39:46
《哪吒2》片方或分賬52億元,王長田建議調整電影利益分配關系

《哪吒2》片方或分賬52億元,王長田建議調整電影利益分配關系

證券時報e公司
2025-06-15 16:25:08
以色列箭3太空打爆伊朗導彈,卻被這一幕破防:以軍不敗神話破滅

以色列箭3太空打爆伊朗導彈,卻被這一幕破防:以軍不敗神話破滅

科羅廖夫
2025-06-14 19:00:19
伊朗最高領袖高級顧問因傷勢過重離世!美伊核談判取消,以總理專機飛去了希臘!沖突引爆油價,油運、集運會受到什么影響?

伊朗最高領袖高級顧問因傷勢過重離世!美伊核談判取消,以總理專機飛去了希臘!沖突引爆油價,油運、集運會受到什么影響?

每日經濟新聞
2025-06-15 01:26:06
中南大學去“湘雅化”勢在必行,否則百年湘雅聲譽或毀于一旦!

中南大學去“湘雅化”勢在必行,否則百年湘雅聲譽或毀于一旦!

愛下廚的阿椅
2025-06-15 08:19:53
印度北部發生直升機墜毀事故 致7人遇難

印度北部發生直升機墜毀事故 致7人遇難

財聯社
2025-06-15 13:47:12
跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
父親臨終說出大陸有妻兒,女兒跨海尋找哥哥,看到哥哥后愣住了

父親臨終說出大陸有妻兒,女兒跨海尋找哥哥,看到哥哥后愣住了

秋風專欄
2025-06-11 16:13:50
硬撐了3個月,80歲杜特爾特健康惡化申請釋放,海牙卻仍堅持軟禁?

硬撐了3個月,80歲杜特爾特健康惡化申請釋放,海牙卻仍堅持軟禁?

小陸搞笑日常
2025-06-15 15:44:32
99.75%的超高贊成率同意修改越南憲法

99.75%的超高贊成率同意修改越南憲法

李東海評論
2025-06-15 00:06:32
一種可能讓你老得快的飲料,很多人天天都在喝!還可能脫發

一種可能讓你老得快的飲料,很多人天天都在喝!還可能脫發

大象新聞
2025-06-15 14:38:13
人大附中被采訪女孩與扁擔女孩各自的理想,赤裸裸顯出了階層差距

人大附中被采訪女孩與扁擔女孩各自的理想,赤裸裸顯出了階層差距

史書無明
2025-06-13 18:24:47
92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

紅豆講堂
2025-06-08 12:00:10
朝鮮沒找中國幫忙,軍艦修復成功,未見一絲損傷,金正恩終于笑了

朝鮮沒找中國幫忙,軍艦修復成功,未見一絲損傷,金正恩終于笑了

大白話瞰世界
2025-06-15 11:26:12
2025-06-15 17:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142339關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

清華高顏值女孩父親:不同意女兒直播 創業不能盲目瞎搞

頭條要聞

清華高顏值女孩父親:不同意女兒直播 創業不能盲目瞎搞

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

手機
旅游
親子
藝術
軍事航空

手機要聞

華為鴻蒙 HarmonyOS 5.1 系統新增特性曝光

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

爸,我愛您,笨拙的愛也是我最安心的密碼

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

伊朗最高領袖高級顧問沙姆哈尼 因傷勢過重離世

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 两性色午夜视频免费无码| 男女做爰猛烈吃奶啪啪喷水网站| 麻豆一区二区三区蜜桃免费| 天堂а√中文最新版地址在线| 欧美日韩无线码在线观看| 天天夜碰日日摸日日澡性色av| 亚洲日韩成人无码不卡网站| 精品无码久久久久成人漫画| 无码任你躁久久久久久| 国产69精品久久久久999小说| 青娱乐极品视觉盛宴国产视频| 好吊妞无缓冲视频观看| av人摸人人人澡人人超碰小说| 好吊视频一区二区三区| 国产激情内射在线影院| 国产精品白丝av网站| 亚洲精品一区二区三区四区乱码| 久久伊人av综合影院| 国产精品久久成人网站| 四虎影视久久久免费观看| 国产精品igao视频网网址| 日日日日做夜夜夜夜做无码| 狠狠色丁香久久婷婷综合蜜芽五月| 扒开女人内裤猛进猛出免费视频| 中年熟妇的大黑p| 久久青青草原亚洲av无码| 亚洲成av人片在线观高清| 亚洲精品夜夜夜妓女网| 婷婷国产天堂久久综合亚洲| 亚洲人成中文字幕在线观看| 日本伊人精品一区二区三区| 亚洲精品无码少妇30p| 色妞av永久一区二区国产av开| 天天碰免费上传视频| 色妺妺在线视频| 亚洲成av人网站在线播放| 色婷婷亚洲精品综合影院| 欧亚乱熟女一区二区在线| 久久国产成人午夜av影院| 亚洲国内自拍愉拍| 性无码专区一色吊丝中文字幕|