機器之心報道
編輯:杜偉
2025 年被很多人稱為 Agent 爆發元年,它們可以極大地具像化大模型的能力,并改變 PC、移動等端側人機交互的范式,尤其是跨場景的多任務自動執行顯著提升了操作的便捷性和智能化程度。
自年初首個通用 Agent 產品 Manus 出現以來,Agent 受到了前所未有的關注,互聯網大廠和大模型初創企業將它作為競逐的 AI 重心之一,并利用MCP、A2A 等協議擴展 Agent 的能力邊界以及賦能的應用場景。
昨日,在火山引擎 Force 2025 大會上,除了最新版本的豆包大模型 1.6 系列之外,Agent 成為另一個焦點。
大會開發者主論壇以「基于 AI 云原生的 Agent 開發新范式」為主題,展示了全面升級的「扣子」如何利用 Agent 來重塑生產力。
扣子羅盤技術負責人王新盟
全新升級后的扣子已經由原來的 Agent 開發平臺進化為了一個「全生命周期平臺」,覆蓋了以下四大組成部分:
- 扣子開發平臺,低代碼 Agent 開發;
- Eino框架,開源的大模型應用開發框架,全代碼開發;
- 扣子羅盤,Agent 效果調優;
- 扣子空間,Agent 協作。
可以說,更完備的扣子產品矩陣進一步適應大模型時代多樣化的 Agent 開發、調優需求,最大可能地提供智能化的體驗。
我們接下來一一來看。
Agent 終于有了「全生命周期」平臺
首先是扣子開發平臺,作為新一代 AI 應用開發平臺,旨在讓沒有任何代碼開發經驗的人也能快速、低門檻地構建基于大模型的 Agent 或應用,并支持一鍵發布到飛書、微信公眾號、豆包等渠道。
總結一波,扣子開發平臺從智能體 IDE、應用 IDE、豐富的插件和工作流模板以及企業級安全能力四大方面來賦能 Agent 開發體驗。
其中智能體 IDE 方便開發者高效地開發、調試 Chatbot 類的 Agent,還提供上千個插件供開發者使用,支持搭建工作流并利用基于火山引擎搭建的知識庫;同時基于火山方舟平臺,支持了業界大多數模型;打通主流發布渠道,尤其是 C 端,比如豆包、飛書、微信、抖音、小程序等渠道,讓用戶更方便地使用基于扣子搭建出的 Agent。
此外,一些開發者仍然希望通過拖拉拽的方式搭建 GUI 形態的應用,針對這種特定的開發需求,2024 年上線的應用 IDE 賦予了大模型的能力。企業級安全與數據保護能力支持私網連接客戶的 VPC(虛擬私有云),避免了公網訪問帶來的一些潛在風險。
不僅如此,為了達到低門檻、零門檻構建 Agent 的目的,預置的大量 Agent 模板讓開發者可以一鍵復制,快速構建一個成熟可用的 Agent,比如智能客服助手模板、文章轉博客模板、智能助教模板,實現了開箱即用。
扣子開發平臺讓零基礎開發 Agent 成為了可能,而面對更習慣寫代碼的開發者,同樣推出了一個Agent 構建框架 ——Eino,并進行開源。
作為一個用 Go 語言編寫的 LLM 應用開發框架,Eino 既從 LangChain 和 LlamaIndex 等開源社區的優秀框架中汲取靈感,又借鑒了實際應用,兼顧簡潔性、可擴展性、可靠性與有效性。
Eino 的亮點之一在于將 Agent 開發的一些核心模塊,比如 Chat Template、Document 解析、Embedding 模型、Retriever 檢索等提煉成了一些標準化組件。這樣一來,無論是對于開源或閉源模型,還是在代碼中處理文檔或者向量數據,都可以通過抽象好的統一接口進行調用。
同時面對復雜任務拆解和多工具協同,Eino 提供了靈活的編排能力,通過可視化拖拽或者代碼開發的方式來輕松編排一個 Agent 流程。此外還支持完善的流處理功能,并提供了極強的工具鏈。
目前,字節內部基于 Eino 開發的系統數量已經超過了 300,在 GitHub 上的星標數量達到了 4.3k,這表明越來越多的內外部開發者都開始對使用該框架開發 Agent 產生了興趣。以抖音電商為例,基于 Eino 搭建的智能客服工作流程可以讓 Agent 代替人工客服,整體效率提升了 50% 以上。
GitHub 地址:https://github.com/cloudwego/eino
上面這些內容都是關于 Agent 的搭建,但搭建成功只是完成了第一步,還需要持續的優化迭代以及全生命周期的運用。火山引擎通過扣子羅盤構建了 Agent 全生命周期體系,貫穿 Agent 開發、效果評測、線上觀測和效果優化等四個階段。
其中開發階段主要涉及撰寫和調試 Prompt、搭建工作流(知識庫、MCP), 可以選擇以低代碼或全代碼方式完成;接著進入評測階段,通過 Agent 的效果量化來判斷是否達到了準出標準;在發布上線之后進入第三個階段 —— 觀測,通過實時收集和分析線上運行的數據,讓 Agent 從黑盒運行變成透明決策;最后到了線上調優階段,針對暴露出的每一個問題進行精準的分析與解決。
當然,并不是到調優階段就停止了,相反優化后的 Agent 會重新進入到新一輪的開發、效果評測、線上觀測以及效果優化,如此循環往復,達到用戶滿意為止。
再具體到效果評測階段,扣子羅盤在評測流程方面做到了以下四點:
- 靈活的評測集版本管理,讓開發者方便地管理和生成評測集。未來也會預置更多評測集,并開箱即用;
- 評測對象支持 Prompt、扣子 Agent,未來還將基于A2A協議支持自定義 Agent;
- 預置大量開箱即用的評估器,覆蓋通用 Agent 評測的各個方面,包括任務完成度評估、正確性評估、工具選擇評估以及軌跡評估等,并成為國內首家支持 Agent 軌跡評估的線上商業化平臺;
- 豐富的評測報告以供直觀的查看與分析。
到了線上觀測階段,則需要一整套的觀測體系來洞察 Agent 的運行情況,包括運行性能(token 消耗、請求量和能力)、運行效果以及用戶的問題以及分類。綜合下來,開發者可以更有針對性地根據用戶興趣來調整 Agent。對于一些細節問題,比如針對線上運行的一些 Bad case,進行問題點定位并展開定向優化。
為此,扣子羅盤提供了一整套的 AI Agent 觀測功能。在數據上報方面,針對扣子的 Agent 進行提前預置,系統可以自動上報數據,因而可以在羅盤上查看這些 Agent 的所有數據。另外針對全代碼開發者自定義的 Agent,同樣提供了 SDK,供他們按照協議上報數據。同時針對開發者用得比較多的其他框架(比如 LongChain)也進行適配,支持一鍵將數據上報至扣子羅盤。
不僅如此,火山引擎認為線上運行數據的價值遠不止用來觀測。在扣子羅盤上,開發者可以根據線上用戶的 query 分析與分組,獲得用戶行為的分析報告;也可以將線上的 query 進行自動評測以獲得線上效果的報告。這樣一來,開發者可以實時掌握 Agent 線上運行效果的優劣變化,并通過多種方式(比如用戶的點踩)來識別 Bad case。
當然這些 Bad case 也可以基于預置的評估器來識別,過程中構建 Agent 的 Bad case 集,這些集在經過系統預置的人工標注之后可以沉淀為評測集,為后續的例行迭代和評測提供支持。
此外,扣子羅盤還將與火山方舟的 Prompt 優化能力和模型微調能力貫通。王新盟表示,以上這些功能已在本周正式發布上線,并開啟了企業灰度測試。總之,有了扣子羅盤,Agent 的迭代與調優進入到了透明可視化時代,告別了「盲人摸象」。
最后是扣子空間,它是一個通用 AI Agent 平臺,今年 4 月首次上線,并拿下了當月國內 AI 產品增速榜的第一。扣子空間并不是一個 Agent,而是一群高質量 Agent 的協同辦公場所,集中了精通各項技能的通用實習生以及各行各業的領域專家。在各種 Agent 的協作下,用戶可以更高效地解決實際工作任務。
利用扣子空間,用戶可以分析市場調研報告、選擇高考院校和專業,還能夠獲得專家能力的深度支持。此外通過 MCP 協議來不斷地擴展能力邊界,比如聯動高德生成旅游攻略、聯動飛書進行文檔撰寫等。接下來,火山引擎還將上線更多高質量、覆蓋各行各業的專家 Agent。
可以預見,未來更加完善的扣子平臺將成為大模型時代 Agent 發展的「基礎設施」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.