網易首頁 > 網易號 > 正文申請入駐

聊透 Agent，它是「同事」還是「工具」，創(chuàng)業(yè)機會和價值究竟是什么？

2025-06-13 16:14:44　來源: 極客公園

北京舉報

分享至

AI 產品正在從「工具」走向「關系」，人需要決定建立怎樣的關系。

整理｜Moonshot

2025 年，是 Agent 按下加速鍵的一年。

從年初 DeepSeek 引發(fā)的驚嘆，到 GPT-4o 和 Claude 3.5 接連登場，大模型的邊界一次次被重寫。但真正讓 AI 產業(yè)鏈神經繃緊的，不是模型的性能迭代，而是 Agent 的橫空出世。

Manus、Devin 等產品的爆火，都在重申一個共識：大模型將不再只是工具，而是要成為可以自我調度的智能體。

Agent 由此成為繼大模型之后，全球科技圈最快形成共識的第二個風口。

從巨頭的戰(zhàn)略重構到創(chuàng)業(yè)賽道的快速跟進，Agent 正成為下一個全民下注的方向。但在 C 端產品密集涌現、開發(fā)者為其狂熱的同時，真正跑通用戶價值閉環(huán)的項目卻鳳毛麟角，越來越多的產品陷入了「用老需求套新技術」的焦慮。

熱浪過后，市場也回歸冷靜：Agent 究竟是一場范式的重構，還是一次新的包裝？所謂「通用」與「垂直」的路徑分野，是否真的帶來可持續(xù)的市場空間？而「新入口」背后，是交互方式的進化，還是舊世界的投影？

順著這些疑問繼續(xù)下探，我們會發(fā)現，Agent 的真正門檻，或許并不在模型能力，而在其賴以生存的底層設施。從可控運行環(huán)境，到記憶系統(tǒng)、上下文感知、工具調用，每一個基礎模塊的缺位，都是 Agent 從演示走向實用的最大阻力。

這些底層工程問題，構成了 Agent 從「潮流玩具」走向「生產力工具」的最大阻礙，也恰恰是當下最確定、最高價值的創(chuàng)業(yè)藍海。

在這樣一個供給溢出、需求未明的階段，我們想借由這場對談，回答一個越來越緊迫的問題：Agent 的真問題與真機會，究竟藏在哪些地方？

在本次深度對談里，我們邀請到了身處一線的拾象科技創(chuàng)始人李廣密與拾象科技AI Research Lead 鐘凱祺，兩位從業(yè)者將從產品形態(tài)、技術路徑、商業(yè)模式、用戶體驗乃至 Infra 構建等多個維度，為我們拆解當下 Agent 的真問題與真機會。

我們將跟隨他們的思考，探尋在巨頭環(huán)伺的牌桌上，創(chuàng)業(yè)公司的真實機會藏于何處；一條從「Copilot」平滑過渡到「Agent」的務實成長路徑是如何被一步步驗證的；以及為何 Coding（編碼）這一看似垂直的領域，卻被視作通往 AGI 的「價值高地」與「關鍵指標」。

最終，這場對話將推向更遠的未來，一窺人與 Agent 之間全新的協(xié)作關系，以及構建下一代智能基礎設施所面臨的核心挑戰(zhàn)與無限機遇。

要點精選

通用 Agent 領域做得最好的是「模型即 Agent」（Model as Agent）。
做 Agent 這件事，并不一定要「以終為始」，一開始就瞄著完全自動化的 Agent 去做，它可以先從 Copilot 做起。在這個過程中收集用戶數據、做好用戶體驗、占領用戶心智，然后慢慢地轉型。
AGI 有可能最先在 Coding（編碼）環(huán)境下實現，因為這個環(huán)境最簡單，它能鍛煉 AI 的核心能力。Coding 是這個世界里的「萬用之機」，有了它，AI 就可以去構建和創(chuàng)造。Coding 有可能拿走整個大模型產業(yè)階段性 90% 的價值。
AI Native 的產品不只是給人用的，它必須同時服務于 AI。一個真正的 AI Native 產品，應該是內建了服務 AI 和人類的雙向機制。
今天的 AI 產品正在從「工具」走向「關系」。人不會和工具建立關系，但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關系。

以下為當天《今夜科技談》直播沉淀，由極客公園整理。

熱潮之下，哪些 Agent 產品已嶄露頭角？

張鵬：在過去一段時間，所有人都在討論 Agent，認為這可能是現階段的一個重要議題，也是創(chuàng)業(yè)公司的難得發(fā)展機會。

我看到拾象科技對 Agent 體系做了比較深入的研究，也體驗和分析了很多相關產品。我想先聽聽兩位，最近哪些 Agent 相關的產品給你們留下了比較深刻的印象？為什么？

李廣密：我自己印象最深的是兩個：一個是 Anthropic 的 Claude 在編程能力上的表現，另一個是 OpenAI ChatGPT 的 Deep Research 功能。

關于 Claude，主要是它的編程能力。我有一個觀點：編程（Coding）是衡量 AGI 最關鍵的先驗指標。如果 AI 不能規(guī)模化、端到端地進行軟件應用開發(fā)，那么在其他領域的進展也會比較慢。我們必須先在 Coding 這個環(huán)境下實現很強的 ASI（Artificial Superintelligence），其他領域才可能加速。或者說，我們先在數字環(huán)境下實現 AGI，再拓展到其他領域。

全球首位 AI 程序員 Devin｜圖源：Cognition Labs

關于 Deep Research，它對我自己的幫助非常大，我?guī)缀趺刻於荚谟谩Ｋ鋵嵕褪且粋€搜索 Agent，幫我檢索了大量的網頁和資料，體驗很好，極大地拓展了我的研究空間。

張鵬：凱祺，從你的視角看，哪些產品給你留下了深刻印象？

鐘凱祺(Cage)：我可以介紹一下我平時觀察和使用 Agents 的思維模型，然后在每個分類下介紹一兩個代表性產品。

首先，大家經常會問：通用 Agent 還是垂直 Agent？我們認為通用 Agent 領域做得最好的是「模型即 Agent」（Model as Agent）。比如廣密剛才提到的 OpenAI 的 Deep Research，以及 OpenAI 新發(fā)布的 o3 模型，它其實就是一個標準的「模型即 Agent」的范例。它把 Agent 的所有組件——大語言模型（LLM）、上下文（Context）、工具使用（Tool Use）和環(huán)境（Environment）——全都縫合到了一起，并進行了端到端的強化學習訓練。訓練之后的結果就是，各類 Agent 執(zhí)行信息檢索的任務它都能完成。

所以我的一個「暴論」是：通用 Agent 的需求基本上就是信息檢索和輕度代碼編寫這兩類，而 GPT-4o 已經完成得非常好了。因此，通用 Agent 市場基本上是大模型公司的主戰(zhàn)場，創(chuàng)業(yè)公司很難僅僅服務于通用需求來做大。

讓我印象比較深刻的創(chuàng)業(yè)公司基本都聚焦在垂直（Vertical）領域。

如果我們先說 ToB 的垂直領域，可以類比人的工作分為前臺工作和后臺工作。

后臺工作的特點是重復性強、對高并發(fā)要求高，通常有一條很長的 SOP（Standard Operating Procedure），其中很多任務非常適合 AI Agent 去一對一地執(zhí)行，并且適合在比較大的探索空間里進行強化學習。這里比較有代表性的，我想分享的是一些面向 AI for Science 的創(chuàng)業(yè)公司，他們做的是 Multi-agent system（多智能體系統(tǒng)）。

在這個系統(tǒng)里，各種科研任務都包含在內，比如文獻檢索、實驗規(guī)劃、預測前沿進展以及數據分析等。它的特點是，不再是像 Deep Research 那樣的單個 Agent，而是一個非常復雜的、能針對科研系統(tǒng)做到更高分辨率的系統(tǒng)。它有一個很有意思的功能叫「Contradiction Finding」，可以處理對抗性的任務，例如發(fā)現兩篇頂級期刊論文之間的矛盾之處。這代表了研究型 Agent 里一種非常有意思的范式。

前臺工作很多時候是和人打交道，需要做外聯，目前比較適合的是語音 Agent，例如醫(yī)療領域的護士電話回訪、招聘、物流溝通等。

這里我想分享一家叫 HappyRobot 的公司，他們找到了一個聽起來很小的場景，專門在物流和供應鏈領域做電話溝通。比如，一個卡車司機遇到問題，或者貨到了之后，Agent 能快速給他打電話。這里發(fā)揮了 AI Agent 一個很特別的能力：7 天 24 小時無間斷地響應并快速做出反應。這對于物流的大部分需求來說已經足夠了。

除了以上兩大類，還有一些比較特別的，比如 Coding Agent。

從 Copilot 到 Agent，

是否存在一條更務實的成長路徑？

鐘凱祺：在代碼開發(fā)這個領域，最近創(chuàng)業(yè)熱情很火熱，一個很好的例子是 Cursor。Cursor 1.0 的發(fā)布，基本上把一個原來看起來是 Copilot（輔助駕駛）的產品，變成了一個完全的 Agent 產品。它能后臺異步操作，有記憶功能，這正是我們對 Agent 的想象。

它和 Devin 的對比很有意思，給我們的啟發(fā)是：做 Agent 這件事，并不一定要「以終為始」，一開始就瞄著完全自動化的 Agent 去做，它可以先從 Copilot 做起。在這個過程中收集用戶數據、做好用戶體驗、占領用戶心智，然后慢慢地轉型。國內做得不錯的，像 Minus AI，他們最早的產品也是從 Copilot 形態(tài)做起的。

最后，我還會用「環(huán)境」這個思維模型來區(qū)分不同 Agent。比如，Manus 的環(huán)境是虛擬機（Virtual Machine），Devin 的環(huán)境是瀏覽器，flowith 的環(huán)境是筆記本，SheetZero 的環(huán)境是表格，Lovart 的環(huán)境是畫布等等。這個「環(huán)境」就對應了強化學習里的環(huán)境定義，這也是一種值得參考的分類方式。

國內初創(chuàng)團隊打造的 flowith ｜圖源：flowith

張鵬：我們深入聊聊 Cursor 這個例子，它背后的技術棧和成長路徑是怎樣的？

鐘凱祺(Cage)：自動駕駛的例子就很有意思，直到今天，特斯拉也不敢真的把方向盤、剎車和油門去掉。這說明在很多關鍵決策上，AI 還沒辦法完全超越人類。只要 AI 的能力和人類差不多，一些關鍵決策就一定需要人類介入。這正是 Cursor 一開始就想得比較明白的地方。

所以他們最早貼合的特性，就是一個人類最需要的功能：自動補全（Autocompletion），它把這個功能做成了 Tab 鍵觸發(fā)，隨著 Claude 3.5 這樣的模型出來，Cursor 把 Tab 的準確率提高到 90% 以上。在這種準確率下，我可以在一個任務流中連續(xù)使用 5 到 10 次，心流體驗就出現了。這是 Cursor 作為 Copilot 的第一個階段。

第二個階段，他們做的功能是代碼重構（Code Refactoring）。Devin 和 Cursor 都想做這個需求，但 Cursor 做得更巧妙。它會跳出一個對話框，當我輸入需求時，它可以在文件外開啟一個平行的修改模式來重構代碼。

這個功能剛出來時準確率也不高，但因為用戶對它的預期是 Copilot，所以大家都能接受。而且他們很準確地預判到，模型的 coding 能力一定會快速提升。所以他們一邊打磨產品功能，一邊等待模型能力提升，Agent 能力就很順利地浮現了。

第三步就是我們今天看到的 Cursor 狀態(tài)了，一個相對端到端的、在后臺（background）運行的 Agent。它背后有一個像沙盒一樣的環(huán)境，我甚至可以在上班時把不想做的任務布置給它，它可以在后臺用我的計算資源去完成，與此同時，我能專注于自己最想做的核心任務。

最后，它以異步交互的形式，像發(fā)郵件或飛書消息一樣，把結果告訴我。這個過程很順利地實現了從 Copilot 到 Autopilot（或者說 Agent）的轉型。

關鍵還是要抓住人的交互心智，從一開始讓用戶更樂于接受同步交互，這樣就能收集到大量的用戶數據和反饋。

為何 Coding 是通往 AGI 的「關鍵試煉場」？

張鵬：廣密剛才說「Coding 是通向 AGI 的關鍵，如果不能在這個領域實現 ASI（超級智能），其他領域也很難。」為什么？

李廣密：有幾個邏輯。第一，Code 這個數據是最干凈、最容易閉環(huán)，并且結果是可以驗證的。我有一個猜想，Chatbot 可能沒有數據飛輪（一種反饋循環(huán)機制，通過從交互或流程中收集數據，持續(xù)優(yōu)化 AI 模型，進而產生更優(yōu)的結果和更有價值的數據）。但 Code 領域有機會跑出數據飛輪，因為它可以進行多輪的強化學習，而 Code 是跑多輪強化學習的關鍵環(huán)境。

我一方面把 Code 理解成編程工具，但更愿意把它理解成一個實現 AGI 的環(huán)境。AGI 有可能最先在這個環(huán)境下實現，因為這個環(huán)境最簡單，它能鍛煉 AI 的核心能力。如果 AI 連一個端到端的應用軟件開發(fā)都做不了，那在其他領域就更難了。如果它在未來一段時間無法大規(guī)模替代基礎的軟件開發(fā)工作，那在其他領域也很難。

而且，coding 能力上來了，模型的指令遵循能力也會上來。比如處理很長的 prompt，Claude 就明顯要強一些，我們猜測這跟它的 coding 能力有邏輯關系。

另外一個點，我想未來的 AGI 會先在數字世界實現。未來兩年，Agent 能做人在手機和電腦上操作的幾乎所有事情。一方面通過簡單的 coding 完成，如果不行，它還可以調用其他虛擬工具。所以，先在數字世界里實現 AGI，讓它跑得比較快，這是一個大的邏輯。

如何判定一個好 Agent？

張鵬：Coding 是這個世界里的「萬用之機」，有了它，AI 就可以去構建和創(chuàng)造。而且編程這個領域相對結構化，適合 AI 發(fā)揮。當評價一個 Agent 的好壞時，除了用戶體驗，你們會從什么視角去評價一個 Agent 的潛力？

鐘凱祺(Cage)：一個好的 Agent 首先得有一個環(huán)境來幫助構建數據飛輪，而且這個數據本身要是可驗證的。

最近 Anthropic 的研究員提得比較多一個詞叫 RLVR（Reinforcement Learning from Verifiable Reward），其中的「V」就是指可驗證的回報。代碼和數學就是非常標準的可驗證領域，任務做完后，立馬能驗證對錯，數據飛輪就自然地建立起來了。

數據飛輪的工作機制｜圖源：英偉達

所以，構建一個 Agent 產品，就是要構建這樣一個環(huán)境。在這個環(huán)境里，用戶執(zhí)行任務的成功或失敗都不重要，因為現在的 Agent 一定會失敗。關鍵是在失敗時，它能收集到有信號的數據，而不是噪音數據，來指導產品本身的優(yōu)化。這些數據甚至可以作為強化學習環(huán)境的冷啟動數據。

第二，產品是否做得足夠「Agent Native」。就是說，在設計產品時，要同時思考人和 Agent 的需求。一個典型的例子是 The Browser Company，它為什么要做一款新的瀏覽器？因為之前的 Arc 純粹是為了提升人類用戶的效率而設計的。而他們新的瀏覽器在設計時，很多新功能未來是能給 AI Agent 自己使用的。當產品的底層設計邏輯發(fā)生改變，這就非常重要了。

從結果上來說，客觀評估也很關鍵。

任務完成率+成功率
：首先任務得能跑完，這樣用戶至少能收到一個反饋。其次是成功率。一個 10 步的任務，如果每一步準確率都是 90%，那最終成功率只有 35%。所以必須優(yōu)化好每一步之間的銜接。目前行業(yè)里一個及格線可能是五成以上的成功率。
成本和效率
：包括計算成本（token cost）和用戶的時間成本。如果 GPT-4o 跑一個任務 3 分鐘，而另一個 Agent 要跑 30 分鐘，這對用戶是很大的消耗。而且這 30 分鐘里，算力消耗是巨大的，這會影響規(guī)模效應。
用戶指標
：最典型的是用戶粘性。用戶在嘗鮮后是否愿意反復使用？比如日活/月活（DAU/MAU）比例、次月留存率、付費率等，這些是避免公司只有「虛假繁榮」（five minutes of fame）的根本指標。

李廣密：我再補充一個視角：Agent 與當前模型能力的匹配程度。今天 Agent 80% 的能力依賴于模型這個引擎。比如，GPT 到了 3.5，多輪對話的通用范式出現了，Chatbot 這種產品形態(tài)就行得通了。Cursor 的崛起也是因為模型發(fā)展到了 Claude 3.5 的水平，它的代碼補全能力才得以成立。

像 Devin 其實出來就得偏早了，所以創(chuàng)始團隊對模型能力的邊界理解非常重要，要清楚今天以及未來六個月模型能到哪一步，這與 Agent 能實現的目標息息相關。

張鵬：什么叫「AI Native」的產品？我覺得 AI Native 的產品不只是給人用的，它必須同時服務于 AI。

換句話說，如果一個產品里沒有合理的數據去調試，沒有為未來 AI 的工作環(huán)境做搭建，那它只是把 AI 當成一種降本增效的工具，這樣的產品生命力是有限的，很容易被技術浪潮淹沒。一個真正的 AI Native 產品，應該是內建了服務 AI 和人類的雙向機制。簡單來說，AI 在服務用戶的時候，用戶有沒有也在服務 AI？

鐘凱祺(Cage)：我非常喜歡這個概念。Agent 的數據在現實世界里是不存在的，沒有人會在完成任務時把思考過程一步步拆解清楚。那怎么辦？一個方法是找專業(yè)的標注公司，另一個方法就是要撬動（leverage）用戶，把用戶的真實使用方式和 Agent 自身的運行過程捕捉下來。

張鵬：那如果要通過 Agent 的方式讓人類給 AI「投喂」數據，什么樣的任務是最有價值的？

鐘凱祺(Cage)：與其想著用數據服務 AI，不如想 AI 有什么長板應該被放大。比如科學研究，在 AlphaGo 之前，人類覺得圍棋和數學是最難的。但用了強化學習之后發(fā)現，這些對 AI 反而是最簡單的。在科學領域也一樣，人類歷史上已經很久沒有一個學者能通曉每個學科的犄角旮旯了，但 AI 可以。所以我認為，科學研究這類任務對人類來說很難，但對 AI 不一定難。正因如此，我們才要多找一些數據和服務來支持它。這類任務的回報比大部分任務更 verifiable，未來甚至可能是人類幫 AI「搖試管」，然后告訴 AI 結果是對是錯，幫助 AI 一起去點亮科技樹。

李廣密：一開始的數據冷啟動是必要的。做一個 Agent 就像做一個創(chuàng)業(yè)公司，創(chuàng)始人肯定要做冷啟動，要親力親為。接下來，搭建環(huán)境就很重要，決定了 Agent 往哪個方向走。再往后，更重要的是搭建獎勵（Reward）系統(tǒng)。我覺得環(huán)境和獎勵這兩個因素非常關鍵。在這個基礎上，Agent 的創(chuàng)業(yè)者做好這個 Agent 的「CEO」就好了。今天 AI 已經能寫出人類看不懂但能運行的代碼，我們不一定非要理解強化學習端到端的邏輯，只要搭好環(huán)境、設好獎勵就行。

Agent 的商業(yè)模式將走向何方？

張鵬：最近我們看到很多 ToB 領域的 Agent，尤其是在美國，它們的商業(yè)模式和增長模式有什么變化嗎？還是有新的模式出現？

鐘凱祺(Cage)：現在最大的一個特點就是，有越來越多的產品從偏 C 端切入，在公司組織里自下而上（bottom-up）地被使用。最典型的就是 Cursor。除了它，還有很多 AI Agent 或 Copilot 產品，大家愿意自己先用起來。這就不再是傳統(tǒng) SaaS 那種需要先搞定 CIO、一對一簽單的模式了，至少第一步不是這樣。

另一個有意思的產品是 OpenEvidence，他們做的是醫(yī)生這個群體。他們先把醫(yī)生群體打下來，然后漸漸植入醫(yī)療器械和藥品的廣告。這些業(yè)務不需要一開始就和醫(yī)院談，因為和醫(yī)院談非常慢。AI 創(chuàng)業(yè)最關鍵的就是速度，光靠技術護城河是沒用的，需要通過這種自下而上的方式增長。

AI 醫(yī)療獨角獸 OpenEvidence｜圖源：OpenEvidence

關于商業(yè)模式，現在有一個趨勢，就是慢慢地從基于成本（Cost-based）定價走向基于價值（Value-based）定價。

基于成本
：這像傳統(tǒng)云服務，在 CPU/GPU 成本之上加一層軟件價值。
按次收費
：在 Agent 這邊，一種是按「動作」（Action）收費。比如我前面提到的物流 Agent，給卡車司機打一個電話收幾毛錢。
按工作流收費
：更高一層的抽象是按「工作流」（Workflow）收費，比如完成一整個物流訂單。這離成本端更遠，離價值端更近了，因為它真的參與到了工作中。但這需要一個相對收斂的場景。
按結果付費
：再往上，就是按「結果」（Result）付費。因為 Agent 成功率不高，用戶希望為成功的結果付費。這要求 Agent 公司對產品有極高的打磨能力。
按 Agent 本身付費
：未來可能會真正地按「Agent」付費。比如，有一家叫 Hippocratic AI 的公司做 AI 護士，在美國招一個人類護士大概是每小時 40 美金，而他們的 AI 護士每小時只要 9 到 10 美金，降了四分之三的成本。在美國這種人力昂貴的市場，這非常合理。如果 Agent 未來能做得更好，我甚至可以給它發(fā)獎金、發(fā)年終獎。這些都是商業(yè)模式上的創(chuàng)新。

李廣密：我們最期待的是按價值（Value-based）的計價方式。比如 Manus AI 做一個網站，這個價值是不是值 300 美金？它做一個應用，是不是值 5 萬美金？但今天的任務價值還不好定價。如何建立一個好的衡量計價方式，是值得創(chuàng)業(yè)者去探索的。

另外，剛才凱祺提到按 Agent 付費，這就像企業(yè)要和員工簽合同一樣。未來我們雇傭了 Agent，是不是要給它發(fā)「身份證」？是不是要簽「勞動合同」？這其實就是智能合約。我比較期待未來 Crypto 領域的智能合約如何應用到數字世界的 Agent 上，當任務完成后，通過一個好的衡量計價手段，去分配經濟利益。這可能是 Agent 與 Crypto 智能合約結合的機會。

人類與 Agent 的協(xié)作關系會變成什么形態(tài)？

張鵬：最近在 Coding Agent 這個方向，有兩個詞討論得比較多：「Human in the loop」和「Human on the loop」，這是在探討什么？

鐘凱祺(Cage)：「Human on the loop」是指人盡可能減少在循環(huán)中的決策，只在關鍵時刻參與一下。有點像特斯拉的 FSD，當系統(tǒng)遇到危險決策時，會警告人類接管油門剎車。在虛擬世界中，這通常指非即時的、異步的人機協(xié)作。人可以對 AI 拿不準的關鍵決策進行干預。

「Human in the loop」則更偏向于 AI 會時不時地「ping」你一下，來確認某件事。比如 Minus AI，它的右半邊有一個虛擬機，我可以實時看到它在瀏覽器里做什么，這就像一個打開的白盒，我能大概知道 Agent 想做什么。

這兩個概念不是非黑即白的關系，而是一個光譜。現在更多的是「in the loop」，人還是要在很多關鍵點上做審批。原因很簡單，軟件還沒到那個階段，出了問題總得有人負責。油門和剎車一定是去不掉的。

可以預見的是，未來高重復性的任務，最終結果一定是人只看摘要，自動化程度會非常高。對于一些難題，比如讓 AI 看病理報告，我們可以把 Agent 的「假陽率」調高一點，讓它更容易覺得「有問題」，然后「on the loop」地把這些案例作為郵件發(fā)給人類醫(yī)生。這樣，雖然人類醫(yī)生需要復核的案例多了，但 Agent 所有判斷為「陰性」的案例都可以被順利審批掉。如果病理報告中只有 20% 真的有難度，那人類醫(yī)生的工作帶寬就已經放大了 5 倍。所以不用太糾結于「in」還是「on」，只要找到好的結合點，就能把人機協(xié)作做得很好。

李廣密：鵬哥問的這個問題背后，其實有一個巨大的機會，就是「新的交互」以及「人與 Agent 如何協(xié)同」。這可以簡單理解成在線（同步）和離線（異步）。比如我們開會直播，必須實時在線。但如果我作為一個 CEO 給同事布置任務，項目推進是異步的。

這里面更大的意義在于，當 Agent 大規(guī)模落地后，人與 Agent 如何協(xié)同交互，以及 Agent 與 Agent 之間如何協(xié)同交互，這是非常值得探索的。今天我們還是通過文本與 AI 交互，但未來與 Agent 的交互方式會有很多種。有些可能在后臺自動化運行，有些則需要人在前面看著。探索新的交互是一個巨大的機會。

能力過剩、需求不足，

Agent 的「殺手級應用」何時出現？

張鵬：Coding Agent 總體還是圍繞 IDE 的延長線在做。未來會不會有變化？如果大家都擠在這條路上，后來者要如何追趕 Cursor？

鐘凱祺(Cage)：IDE 只是一個環(huán)境，再去復刻一個 IDE 本身的價值不大。但在 IDE 或另一個好的環(huán)境里做 Agent，本身是有價值的。我會思考它的用戶到底只是專業(yè)開發(fā)者，還是能拓展到專業(yè)開發(fā)者之外「平民開發(fā)者」——那些有很多自動化需求的白領工作者。

現在缺的是什么？不是供給能力，因為 Cursor 這類產品已經把 AI 的 coding 供給能力放大了 10 倍甚至 100 倍。以前我要做一個產品，需要外包一個 IT 團隊，試錯成本很高。現在理論上我只要說一句話，花 20 美元的月費就能試錯。

現在缺的是需求。大家都在用老的需求去套新技術，有點「拿著錘子找釘子」的狀態(tài)。目前的需求大多是做落地頁（Landing page）或者基礎的玩具網站。未來需要找到一個收斂的產品形態(tài)。這有點像當年推薦引擎出來的時候，它是一個很好的技術，后來出現了一種叫「信息流」的產品形態(tài)，把推薦引擎真正帶給了大眾。但 AI Coding 領域還沒有找到像「信息流」這樣的殺手級產品。

李廣密：我覺得 Coding 有可能拿走整個大模型產業(yè)階段性 90% 的價值。這個價值怎么長出來？今天的第一幕還是服務全球 3000 萬程序員。我舉個例子，Photoshop 服務的是全球兩三千萬專業(yè)設計師，門檻很高。但是當剪映、Canva、美圖秀秀出來后，可能有 5 億甚至更多的用戶都可以使用這些工具，并做出更火爆的內容。

Code 有一個好處，它是一個創(chuàng)意的表達平臺。這個社會上 90% 以上的任務都可以通過 Code 來表達，所以它有可能變成一個創(chuàng)意平臺。以前應用開發(fā)門檻非常高，大量的長尾需求沒有被滿足。當門檻大幅降低后，這些需求就會被激發(fā)出來。我期待的是「應用的大爆發(fā)」。移動互聯網生成的最大數據是內容，而 AI 這一波生成的最大內容可能就是新的應用軟件。這就像優(yōu)酷、愛奇藝這種長視頻平臺和抖音的區(qū)別。你可以把大模型比作攝像頭，在它之上還能做出抖音和剪映這樣的殺手級應用。這可能就是所謂的「Vibe Coding」（氛圍編程）的本質，它是一個新的創(chuàng)意平臺。

張鵬：要提升 Agent 的輸出價值，輸入（input）也變得非常重要。但在產品和技術上，有什么方法可以提升輸入質量，從而確保更好的輸出呢？

鐘凱祺(Cage)：在產品上，我們不能覺得用戶用不好產品是用戶的問題。要下功夫最關鍵的一個詞就是「上下文」（Context）。一個 Agent 能否建立「上下文感知」（Context Awareness）？

舉個例子，如果我在互聯網大廠里寫代碼，Agent 不光要看我手頭的代碼，還要看整個公司相關的代碼庫（Codebase），甚至要看我在飛書里和產品經理、同事的對話，以及我之前的編碼和溝通習慣。把這些上下文都給 Agent，我的輸入才能更高效。

所以對于 Agent 開發(fā)者來說，最關鍵的就是要把記憶（Memory）機制和上下文的連接能力做得足夠好，這也是 Agent 基礎設施（Infra）的一大挑戰(zhàn)。

Agent 的挑戰(zhàn)：好記憶機制和上下文連接｜圖源：零售科學

此外，對于開發(fā)者來說，怎么做好強化學習的冷啟動數據、怎么定義清晰的獎勵（Reward）也很重要。這個獎勵背后意味著，當用戶表達不清晰時，你怎么把他的需求拆解出來。比如，OpenAI 的 Deep Research 在我問得不清晰時，會先給出四個引導性問題。在和它交互的過程中，我其實也在想清楚自己的需求。

對于今天的用戶來說，最主要還是要想怎么清晰地表達需求，以及怎么驗收需求。雖然不用做到「以終為始」，但要對好壞有一個大概的預期。我們寫 Prompt 也要像寫代碼一樣，有清晰的指令和邏輯，這樣能避免很多無效的輸出。

李廣密：我補充兩點。第一，上下文的重要性。我們內部經常討論，上下文做好了，會有新的支付寶、PayPal 級別的機會。

以前電商看的是成交總額（GMV），以后看的是任務完成率。而任務完成，一邊是智能，另一邊就是上下文。比如我要做一個個人網站，如果把我的 Notion 筆記、微信數據、郵件數據都提供給 AI，那我的個人網站內容肯定會非常豐富。

第二，自主學習。搭好環(huán)境后，Agent 要能迭代，這非常關鍵。如果不能持續(xù)學習迭代，結果就是被模型本身吃掉，因為模型就是一個學習系統(tǒng)。上一波移動互聯網，沒有做機器學習和推薦的公司都沒做大。這一波如果 Agent 做不好端到端的自主學習和迭代，我覺得也做不起來。

巨頭博弈下，還有哪些變化和機會？

張鵬：我們怎么判斷未來 Agent 的能力會以一個超級接口的形式出現，還是離散地分布在各個場景里？

鐘凱祺(Cage)：我看到一個比較大的趨勢是，第一，肯定是多智能體（Multi-agent）的。即便是完成一個任務，在 Cursor 這類產品里，做代碼補全和做單元測試的可能是不同的 Agent，因為它們需要的「性格」和擅長的點不一樣。

第二，入口會不會有變化？我覺得入口是一個二階的問題。首先要發(fā)生的是，大家有很多 Agent，并和它們協(xié)作。這些 Agent 背后會支撐起一張網絡，我稱之為「Botnet」。比如未來購物，60% 以上的固定消費可能都由 Agent 幫我完成。

在生產力場景也一樣，未來程序員的每日例會可能會被 Agent 之間的協(xié)作所取代，由它們推送指標異常和產品開發(fā)進展。當這些發(fā)生后，入口的變化才可能出現。那個時候，API 的調用也不再主要是人類調用，而是 Agent 之間互相調用。

張鵬：那些有能力的大廠，比如 OpenAI, Anthropic, Google, Microsoft，在 Agent 上都是什么樣的決策和行動狀態(tài)？

李廣密：我腦子里一個關鍵詞是「分化」。去年大家都在追趕 GPT-4，但現在能做的事更多了，各家都開始分化。

第一個發(fā)生分化的就是 Anthropic。因為它比 OpenAI 晚，綜合能力沒那么強，所以它就專注在 Coding 上。我感覺它摸到了通往 AGI 大方向的第一張大牌，就是 Coding Agent。他們可能認為，通過 Coding 可以實現 AGI，可以帶來指令遵循能力和 Agent 能力，這是一個邏輯自洽的閉環(huán)。

但 OpenAI 手上的大牌就更多了。第一張是 ChatGPT，Sam Altman 可能想把它做成 10 億日活的產品。第二張是它的「o」系列模型（GPT-4o 等），預期很高，能帶來更多泛化能力。第三張是多模態(tài)，它的多模態(tài)推理能力上來了，未來在生成上也能體現。所以，Anthropic 摸到了一張大牌，OpenAI 摸到了三張。

另一個大廠是 Google。我覺得到今年年底，Google 可能會在全方位趕上。因為它既有 TPU，又有 Google Cloud，有頂尖的 Gemini 模型，還有 Android 和 Chrome。你在全球找不到第二家擁有所有這些要素，還幾乎不依賴外部的公司。Google 端到端能力是非常強的，很多人擔心它的廣告業(yè)務會被顛覆，但我感覺它未來可能會找到新的產品結合方式，從一個信息引擎變成一個任務引擎。

你看蘋果，因為沒有自己的 AI 能力，現在迭代就很被動。而微軟是以開發(fā)者見長的，但 Cursor 和 Claude 其實搶了不少開發(fā)者的注意力。當然微軟的盤子非常穩(wěn)，有 GitHub 和 VS Code，但它也必須擁有非常強的 AGI 和模型能力。所以你看它也宣布 GitHub 的首選模型之一變成了 Claude，并迭代自己的開發(fā)者產品。微軟在開發(fā)者這塊必須守住，否則根基就沒了。

所以大家開始分化了。可能 OpenAI 想成為下一個 Google，Anthropic 想成為下一個 Windows（靠 API 活著）。

張鵬：那與 Agent 相關的基礎設施（Infra）有哪些變化和機會？

鐘凱祺(Cage)：Agent 有幾個關鍵組件。除了模型，第一個就是環(huán)境（Environment）。Agent 開發(fā)最早期，80% 的問題都出在環(huán)境上。像早期的 AutoGPT，要么用 Docker 啟動，非常慢，要么直接在本地電腦部署，非常不安全。如果一個 Agent 要和我一起「上班」，我就得給它配一臺「電腦」，所以環(huán)境的機會就出來了。

配「電腦」有兩大需求：

虛擬機/沙盒
：提供一個安全的執(zhí)行環(huán)境。任務做錯了能回退，執(zhí)行過程不能傷害實際環(huán)境，并且要能快速啟動、穩(wěn)定運行。像 E2B、Modal Labs 這樣的公司都在提供這類產品。
瀏覽器
：信息檢索是最大需求，Agent 需要到各種網站上爬取信息。傳統(tǒng)的爬蟲容易被封，所以需要給 Agent 搭一個專用的、能理解信息的瀏覽器。這就應運而生了像 Browserbase、Browser Use 這樣的公司。

第二個組件是上下文（Context）。這包括：

信息檢索（Retrieval）：傳統(tǒng)的 RAG 公司還在，但也有新的公司，比如 MemGPT，它為 AI Agent 開發(fā)輕量化的記憶和上下文管理工具。
工具發(fā)現：未來工具會非常多，需要一個像「大眾點評」一樣的平臺來幫助 Agent 發(fā)現和挑選好用的工具。
記憶（Memory）：Agent 需要一套能模擬人類復雜的長短期記憶結合能力的 Infra。

第三個組件是工具（Tools）。包括簡單的搜索，也包括復雜的支付、自動化后端開發(fā)等。

最后，當 Agent 能力再強一些，一個重要的機會就是 Agent 安全（Agent Security）。

李廣密：Agent Infra 非常重要。我們可以「以終為始」地想，三年后，當幾萬億的 Agent 在數字世界里執(zhí)行任務，那 Infra 的需求就太大了，這將重構整個云計算和數字化世界。

但今天我們還不知道什么樣的 Agent 能做大，它到底需要什么樣的 Infra。所以現在對創(chuàng)業(yè)者是一個非常好的窗口期，可以和那些做得好的 Agent 公司共同設計（co-design）和共創(chuàng) Infra 工具。

我覺得今天最重要的，第一是虛擬機，第二是工具。比如未來的 Agent 搜索肯定和人的搜索不一樣，會產生天量的機器搜索需求。現在全網人類的搜索每天可能 200 億次，未來機器搜索可能是幾千億甚至上萬億次。這種搜索不需要給人類做排序優(yōu)化，可能一個大的數據庫就夠了，這里有很大的成本優(yōu)化和創(chuàng)業(yè)機會。

當 AI 不再只是大模型，它會往哪個方向進化？

張鵬：Agent 始終繞不開模型，站在今天，你覺得模型技術在過去兩年里走過了哪些關鍵的臺階？

李廣密：我覺得關鍵的里程碑（milestone）可能就兩個。一個是 GPT-4 代表的規(guī)模化定律（Scaling Law）范式，即在預訓練階段，擴大規(guī)模仍然是有效的，它能帶來通用的泛化能力。

第二個大的里程碑是「o」系列模型所代表的「模型會思考」的范式。它通過更長的思考時間（思維鏈），顯著提升了推理能力。

我覺得這兩個范式是今天 AGI 的左膀右臂。在這個基礎上，Scaling Law 遠遠沒有停止，思考模式也會繼續(xù)。比如，在多模態(tài)下可以繼續(xù) Scaling，也可以把「o」系列的思考能力加到多模態(tài)上，這樣多模態(tài)就能有更長的推理能力，生成的可控性和一致性就會變得非常好。

我自己的感覺是，未來兩年可能比過去兩年進步要更快。今天可能正處在一個全球幾千名頂尖 AI 科學家，共同推動人類科技文藝復興的狀態(tài)，資源充足，平臺也具備了，很多地方都可能出現突破。

張鵬：你會比較期待接下來一兩年，在 AI 領域看到哪些技術臺階的實現和跳躍？

鐘凱祺(Cage)：第一個是多模態(tài)。現在多模態(tài)的理解和生成還是比較零散的，未來一定會走向「大一統(tǒng)」，即理解和生成一體化。這會極大地打開產品的想象力。

第二個是自主學習。我很喜歡 Richard Sutton（強化學習之父）提出的「經驗的時代」（the era of experience）這個概念，即 AI 通過在線執(zhí)行任務的體驗來提升自己的能力。這在以前是看不到影子的，因為沒有基座的世界知識。但從今年開始往后，這會是一個持續(xù)發(fā)生的事情。

2024 年圖靈獎獲獎者 Richard Sutton ｜圖源：Amii

第三個是記憶。如果模型真的能在產品和技術層面把 Agent 的記憶做好，帶來的突破會非常大。產品的粘性才真正出現。我感覺 GPT-4o 開始有記憶的那一刻，我才真正對 ChatGPT 這款應用產生了粘性。

最后是新交互。會不會有不再是文字輸入框的新交互？因為打字這個門檻其實挺高的。未來會不會有更符合人類直覺和本能的交互方式？比如，我有一個「永遠在線」（Always-on）的 AI 產品，它在后臺不斷地聽我說話、異步思考，在我靈感迸發(fā)的那一刻，能捕捉到關鍵的上下文。我覺得這些都是我比較期待的。

張鵬：確實，今天我們面臨的挑戰(zhàn)和機遇并存。一方面，我們不能被技術發(fā)展的速度「拉爆」，要保持持續(xù)的關注。另一方面，今天的 AI 產品正在從「工具」走向「關系」。人不會和工具建立關系，但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關系。這種關系本質上就是習慣和慣性，這也是未來重要的壁壘。

今天的探討非常深入，感謝廣密和凱祺的精彩分享。也感謝直播間觀眾的陪伴。我們下期《今夜科技談》再見。

李廣密：謝謝。

鐘凱祺(Cage)：謝謝。

*頭圖來源：McKinsey

本文為極客公園原創(chuàng)文章，轉載請聯系極客君微信 geekparkGO

極客一問

你認為 Agent 未來發(fā)展會怎樣？

黃仁勛最新發(fā)言：如果中國積極擴散 AI 技術，那么他們將會主導整個市場。

點贊關注極客公園視頻號，

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.