AI 產品正在從「工具」走向「關系」,人需要決定建立怎樣的關系。
整理|Moonshot
2025 年,是 Agent 按下加速鍵的一年。
從年初 DeepSeek 引發(fā)的驚嘆,到 GPT-4o 和 Claude 3.5 接連登場,大模型的邊界一次次被重寫。但真正讓 AI 產業(yè)鏈神經繃緊的,不是模型的性能迭代,而是 Agent 的橫空出世。
Manus、Devin 等產品的爆火,都在重申一個共識:大模型將不再只是工具,而是要成為可以自我調度的智能體。
Agent 由此成為繼大模型之后,全球科技圈最快形成共識的第二個風口。
從巨頭的戰(zhàn)略重構到創(chuàng)業(yè)賽道的快速跟進,Agent 正成為下一個全民下注的方向。但在 C 端產品密集涌現、開發(fā)者為其狂熱的同時,真正跑通用戶價值閉環(huán)的項目卻鳳毛麟角,越來越多的產品陷入了「用老需求套新技術」的焦慮。
熱浪過后,市場也回歸冷靜:Agent 究竟是一場范式的重構,還是一次新的包裝?所謂「通用」與「垂直」的路徑分野,是否真的帶來可持續(xù)的市場空間?而「新入口」背后,是交互方式的進化,還是舊世界的投影?
順著這些疑問繼續(xù)下探,我們會發(fā)現,Agent 的真正門檻,或許并不在模型能力,而在其賴以生存的底層設施。從可控運行環(huán)境,到記憶系統(tǒng)、上下文感知、工具調用,每一個基礎模塊的缺位,都是 Agent 從演示走向實用的最大阻力。
這些底層工程問題,構成了 Agent 從「潮流玩具」走向「生產力工具」的最大阻礙,也恰恰是當下最確定、最高價值的創(chuàng)業(yè)藍海。
在這樣一個供給溢出、需求未明的階段,我們想借由這場對談,回答一個越來越緊迫的問題:Agent 的真問題與真機會,究竟藏在哪些地方?
在本次深度對談里,我們邀請到了身處一線的拾象科技創(chuàng)始人李廣密與拾象科技AI Research Lead 鐘凱祺,兩位從業(yè)者將從產品形態(tài)、技術路徑、商業(yè)模式、用戶體驗乃至 Infra 構建等多個維度,為我們拆解當下 Agent 的真問題與真機會。
我們將跟隨他們的思考,探尋在巨頭環(huán)伺的牌桌上,創(chuàng)業(yè)公司的真實機會藏于何處;一條從「Copilot」平滑過渡到「Agent」的務實成長路徑是如何被一步步驗證的 ;以及為何 Coding(編碼)這一看似垂直的領域,卻被視作通往 AGI 的「價值高地」與「關鍵指標」。
最終,這場對話將推向更遠的未來,一窺人與 Agent 之間全新的協(xié)作關系,以及構建下一代智能基礎設施所面臨的核心挑戰(zhàn)與無限機遇。
要點精選
通用 Agent 領域做得最好的是「模型即 Agent」(Model as Agent)。
做 Agent 這件事,并不一定要「以終為始」,一開始就瞄著完全自動化的 Agent 去做,它可以先從 Copilot 做起。在這個過程中收集用戶數據、做好用戶體驗、占領用戶心智,然后慢慢地轉型。
AGI 有可能最先在 Coding(編碼)環(huán)境下實現,因為這個環(huán)境最簡單,它能鍛煉 AI 的核心能力。Coding 是這個世界里的「萬用之機」,有了它,AI 就可以去構建和創(chuàng)造。Coding 有可能拿走整個大模型產業(yè)階段性 90% 的價值。
AI Native 的產品不只是給人用的,它必須同時服務于 AI。一個真正的 AI Native 產品,應該是內建了服務 AI 和人類的雙向機制。
今天的 AI 產品正在從「工具」走向「關系」。人不會和工具建立關系,但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關系。
以下為當天《今夜科技談》直播沉淀,由極客公園整理。
01
熱潮之下,哪些 Agent 產品已嶄露頭角?
張鵬:在過去一段時間,所有人都在討論 Agent,認為這可能是現階段的一個重要議題,也是創(chuàng)業(yè)公司的難得發(fā)展機會。
我看到拾象科技對 Agent 體系做了比較深入的研究,也體驗和分析了很多相關產品。我想先聽聽兩位,最近哪些 Agent 相關的產品給你們留下了比較深刻的印象?為什么?
李廣密:我自己印象最深的是兩個:一個是 Anthropic 的 Claude 在編程能力上的表現,另一個是 OpenAI ChatGPT 的 Deep Research 功能。
關于 Claude,主要是它的編程能力。我有一個觀點:編程(Coding)是衡量 AGI 最關鍵的先驗指標。如果 AI 不能規(guī)模化、端到端地進行軟件應用開發(fā),那么在其他領域的進展也會比較慢。我們必須先在 Coding 這個環(huán)境下實現很強的 ASI(Artificial Superintelligence),其他領域才可能加速。或者說,我們先在數字環(huán)境下實現 AGI,再拓展到其他領域。
全球首位 AI 程序員 Devin|圖源:Cognition Labs
關于 Deep Research,它對我自己的幫助非常大,我?guī)缀趺刻於荚谟谩K鋵嵕褪且粋€搜索 Agent,幫我檢索了大量的網頁和資料,體驗很好,極大地拓展了我的研究空間。
張鵬:凱祺,從你的視角看,哪些產品給你留下了深刻印象?
鐘凱祺(Cage):我可以介紹一下我平時觀察和使用 Agents 的思維模型,然后在每個分類下介紹一兩個代表性產品。
首先,大家經常會問:通用 Agent 還是垂直 Agent?我們認為通用 Agent 領域做得最好的是「模型即 Agent」(Model as Agent)。比如廣密剛才提到的 OpenAI 的 Deep Research,以及 OpenAI 新發(fā)布的 o3 模型,它其實就是一個標準的「模型即 Agent」的范例。它把 Agent 的所有組件——大語言模型(LLM)、上下文(Context)、工具使用(Tool Use)和環(huán)境(Environment)——全都縫合到了一起,并進行了端到端的強化學習訓練。訓練之后的結果就是,各類 Agent 執(zhí)行信息檢索的任務它都能完成。
所以我的一個「暴論」是:通用 Agent 的需求基本上就是信息檢索和輕度代碼編寫這兩類,而 GPT-4o 已經完成得非常好了。因此,通用 Agent 市場基本上是大模型公司的主戰(zhàn)場,創(chuàng)業(yè)公司很難僅僅服務于通用需求來做大。
讓我印象比較深刻的創(chuàng)業(yè)公司基本都聚焦在垂直(Vertical)領域。
如果我們先說 ToB 的垂直領域,可以類比人的工作分為前臺工作和后臺工作。
后臺工作的特點是重復性強、對高并發(fā)要求高,通常有一條很長的 SOP(Standard Operating Procedure),其中很多任務非常適合 AI Agent 去一對一地執(zhí)行,并且適合在比較大的探索空間里進行強化學習。這里比較有代表性的,我想分享的是一些面向 AI for Science 的創(chuàng)業(yè)公司,他們做的是 Multi-agent system(多智能體系統(tǒng))。
在這個系統(tǒng)里,各種科研任務都包含在內,比如文獻檢索、實驗規(guī)劃、預測前沿進展以及數據分析等。它的特點是,不再是像 Deep Research 那樣的單個 Agent,而是一個非常復雜的、能針對科研系統(tǒng)做到更高分辨率的系統(tǒng)。它有一個很有意思的功能叫「Contradiction Finding」,可以處理對抗性的任務,例如發(fā)現兩篇頂級期刊論文之間的矛盾之處。這代表了研究型 Agent 里一種非常有意思的范式。
前臺工作很多時候是和人打交道,需要做外聯,目前比較適合的是語音 Agent,例如醫(yī)療領域的護士電話回訪、招聘、物流溝通等。
這里我想分享一家叫 HappyRobot 的公司,他們找到了一個聽起來很小的場景,專門在物流和供應鏈領域做電話溝通。比如,一個卡車司機遇到問題,或者貨到了之后,Agent 能快速給他打電話。這里發(fā)揮了 AI Agent 一個很特別的能力:7 天 24 小時無間斷地響應并快速做出反應。這對于物流的大部分需求來說已經足夠了。
除了以上兩大類,還有一些比較特別的,比如 Coding Agent。
02
從 Copilot 到 Agent,
是否存在一條更務實的成長路徑?
鐘凱祺:在代碼開發(fā)這個領域,最近創(chuàng)業(yè)熱情很火熱,一個很好的例子是 Cursor。Cursor 1.0 的發(fā)布,基本上把一個原來看起來是 Copilot(輔助駕駛)的產品,變成了一個完全的 Agent 產品。它能后臺異步操作,有記憶功能,這正是我們對 Agent 的想象。
它和 Devin 的對比很有意思,給我們的啟發(fā)是:做 Agent 這件事,并不一定要「以終為始」,一開始就瞄著完全自動化的 Agent 去做,它可以先從 Copilot 做起。在這個過程中收集用戶數據、做好用戶體驗、占領用戶心智,然后慢慢地轉型。國內做得不錯的,像 Minus AI,他們最早的產品也是從 Copilot 形態(tài)做起的。
最后,我還會用「環(huán)境」這個思維模型來區(qū)分不同 Agent。比如,Manus 的環(huán)境是虛擬機(Virtual Machine),Devin 的環(huán)境是瀏覽器,flowith 的環(huán)境是筆記本,SheetZero 的環(huán)境是表格,Lovart 的環(huán)境是畫布等等。這個「環(huán)境」就對應了強化學習里的環(huán)境定義,這也是一種值得參考的分類方式。
國內初創(chuàng)團隊打造的 flowith |圖源:flowith
張鵬:我們深入聊聊 Cursor 這個例子,它背后的技術棧和成長路徑是怎樣的?
鐘凱祺(Cage):自動駕駛的例子就很有意思,直到今天,特斯拉也不敢真的把方向盤、剎車和油門去掉。這說明在很多關鍵決策上,AI 還沒辦法完全超越人類。只要 AI 的能力和人類差不多,一些關鍵決策就一定需要人類介入。這正是 Cursor 一開始就想得比較明白的地方。
所以他們最早貼合的特性,就是一個人類最需要的功能:自動補全(Autocompletion),它把這個功能做成了 Tab 鍵觸發(fā),隨著 Claude 3.5 這樣的模型出來,Cursor 把 Tab 的準確率提高到 90% 以上。在這種準確率下,我可以在一個任務流中連續(xù)使用 5 到 10 次,心流體驗就出現了。這是 Cursor 作為 Copilot 的第一個階段。
第二個階段,他們做的功能是代碼重構(Code Refactoring)。Devin 和 Cursor 都想做這個需求,但 Cursor 做得更巧妙。它會跳出一個對話框,當我輸入需求時,它可以在文件外開啟一個平行的修改模式來重構代碼。
這個功能剛出來時準確率也不高,但因為用戶對它的預期是 Copilot,所以大家都能接受。而且他們很準確地預判到,模型的 coding 能力一定會快速提升。所以他們一邊打磨產品功能,一邊等待模型能力提升,Agent 能力就很順利地浮現了。
第三步就是我們今天看到的 Cursor 狀態(tài)了,一個相對端到端的、在后臺(background)運行的 Agent。它背后有一個像沙盒一樣的環(huán)境,我甚至可以在上班時把不想做的任務布置給它,它可以在后臺用我的計算資源去完成,與此同時,我能專注于自己最想做的核心任務。
最后,它以異步交互的形式,像發(fā)郵件或飛書消息一樣,把結果告訴我。這個過程很順利地實現了從 Copilot 到 Autopilot(或者說 Agent)的轉型。
關鍵還是要抓住人的交互心智,從一開始讓用戶更樂于接受同步交互,這樣就能收集到大量的用戶數據和反饋。
03
為何 Coding 是通往 AGI 的「關鍵試煉場」?
張鵬:廣密剛才說「Coding 是通向 AGI 的關鍵,如果不能在這個領域實現 ASI(超級智能),其他領域也很難。」為什么?
李廣密:有幾個邏輯。第一,Code 這個數據是最干凈、最容易閉環(huán),并且結果是可以驗證的。我有一個猜想,Chatbot 可能沒有數據飛輪(一種反饋循環(huán)機制,通過從交互或流程中收集數據,持續(xù)優(yōu)化 AI 模型,進而產生更優(yōu)的結果和更有價值的數據)。但 Code 領域有機會跑出數據飛輪,因為它可以進行多輪的強化學習,而 Code 是跑多輪強化學習的關鍵環(huán)境。
我一方面把 Code 理解成編程工具,但更愿意把它理解成一個實現 AGI 的環(huán)境。AGI 有可能最先在這個環(huán)境下實現,因為這個環(huán)境最簡單,它能鍛煉 AI 的核心能力。如果 AI 連一個端到端的應用軟件開發(fā)都做不了,那在其他領域就更難了。如果它在未來一段時間無法大規(guī)模替代基礎的軟件開發(fā)工作,那在其他領域也很難。
而且,coding 能力上來了,模型的指令遵循能力也會上來。比如處理很長的 prompt,Claude 就明顯要強一些,我們猜測這跟它的 coding 能力有邏輯關系。
另外一個點,我想未來的 AGI 會先在數字世界實現。未來兩年,Agent 能做人在手機和電腦上操作的幾乎所有事情。一方面通過簡單的 coding 完成,如果不行,它還可以調用其他虛擬工具。所以,先在數字世界里實現 AGI,讓它跑得比較快,這是一個大的邏輯。
04
如何判定一個好 Agent?
張鵬:Coding 是這個世界里的「萬用之機」,有了它,AI 就可以去構建和創(chuàng)造。而且編程這個領域相對結構化,適合 AI 發(fā)揮。當評價一個 Agent 的好壞時,除了用戶體驗,你們會從什么視角去評價一個 Agent 的潛力?
鐘凱祺(Cage):一個好的 Agent 首先得有一個環(huán)境來幫助構建數據飛輪,而且這個數據本身要是可驗證的。
最近 Anthropic 的研究員提得比較多一個詞叫 RLVR(Reinforcement Learning from Verifiable Reward),其中的「V」就是指可驗證的回報。代碼和數學就是非常標準的可驗證領域,任務做完后,立馬能驗證對錯,數據飛輪就自然地建立起來了。
數據飛輪的工作機制|圖源:英偉達
所以,構建一個 Agent 產品,就是要構建這樣一個環(huán)境。在這個環(huán)境里,用戶執(zhí)行任務的成功或失敗都不重要,因為現在的 Agent 一定會失敗。關鍵是在失敗時,它能收集到有信號的數據,而不是噪音數據,來指導產品本身的優(yōu)化。這些數據甚至可以作為強化學習環(huán)境的冷啟動數據。
第二,產品是否做得足夠「Agent Native」。就是說,在設計產品時,要同時思考人和 Agent 的需求。一個典型的例子是 The Browser Company,它為什么要做一款新的瀏覽器?因為之前的 Arc 純粹是為了提升人類用戶的效率而設計的。而他們新的瀏覽器在設計時,很多新功能未來是能給 AI Agent 自己使用的。當產品的底層設計邏輯發(fā)生改變,這就非常重要了。
從結果上來說,客觀評估也很關鍵。
- 任務完成率+成功率
:首先任務得能跑完,這樣用戶至少能收到一個反饋。其次是成功率。一個 10 步的任務,如果每一步準確率都是 90%,那最終成功率只有 35%。所以必須優(yōu)化好每一步之間的銜接。目前行業(yè)里一個及格線可能是五成以上的成功率。
- 成本和效率
:包括計算成本(token cost)和用戶的時間成本。如果 GPT-4o 跑一個任務 3 分鐘,而另一個 Agent 要跑 30 分鐘,這對用戶是很大的消耗。而且這 30 分鐘里,算力消耗是巨大的,這會影響規(guī)模效應。
- 用戶指標
:最典型的是用戶粘性。用戶在嘗鮮后是否愿意反復使用?比如日活/月活(DAU/MAU)比例、次月留存率、付費率等,這些是避免公司只有「虛假繁榮」(five minutes of fame)的根本指標。
李廣密:我再補充一個視角:Agent 與當前模型能力的匹配程度。今天 Agent 80% 的能力依賴于模型這個引擎。比如,GPT 到了 3.5,多輪對話的通用范式出現了,Chatbot 這種產品形態(tài)就行得通了。Cursor 的崛起也是因為模型發(fā)展到了 Claude 3.5 的水平,它的代碼補全能力才得以成立。
像 Devin 其實出來就得偏早了,所以創(chuàng)始團隊對模型能力的邊界理解非常重要,要清楚今天以及未來六個月模型能到哪一步,這與 Agent 能實現的目標息息相關。
張鵬:什么叫「AI Native」的產品?我覺得 AI Native 的產品不只是給人用的,它必須同時服務于 AI。
換句話說,如果一個產品里沒有合理的數據去調試,沒有為未來 AI 的工作環(huán)境做搭建,那它只是把 AI 當成一種降本增效的工具,這樣的產品生命力是有限的,很容易被技術浪潮淹沒。一個真正的 AI Native 產品,應該是內建了服務 AI 和人類的雙向機制。簡單來說,AI 在服務用戶的時候,用戶有沒有也在服務 AI?
鐘凱祺(Cage):我非常喜歡這個概念。Agent 的數據在現實世界里是不存在的,沒有人會在完成任務時把思考過程一步步拆解清楚。那怎么辦?一個方法是找專業(yè)的標注公司,另一個方法就是要撬動(leverage)用戶,把用戶的真實使用方式和 Agent 自身的運行過程捕捉下來。
張鵬:那如果要通過 Agent 的方式讓人類給 AI「投喂」數據,什么樣的任務是最有價值的?
鐘凱祺(Cage):與其想著用數據服務 AI,不如想 AI 有什么長板應該被放大。比如科學研究,在 AlphaGo 之前,人類覺得圍棋和數學是最難的。但用了強化學習之后發(fā)現,這些對 AI 反而是最簡單的。在科學領域也一樣,人類歷史上已經很久沒有一個學者能通曉每個學科的犄角旮旯了,但 AI 可以。所以我認為,科學研究這類任務對人類來說很難,但對 AI 不一定難。正因如此,我們才要多找一些數據和服務來支持它。這類任務的回報比大部分任務更 verifiable,未來甚至可能是人類幫 AI「搖試管」,然后告訴 AI 結果是對是錯,幫助 AI 一起去點亮科技樹。
李廣密:一開始的數據冷啟動是必要的。做一個 Agent 就像做一個創(chuàng)業(yè)公司,創(chuàng)始人肯定要做冷啟動,要親力親為。接下來,搭建環(huán)境就很重要,決定了 Agent 往哪個方向走。再往后,更重要的是搭建獎勵(Reward)系統(tǒng)。我覺得環(huán)境和獎勵這兩個因素非常關鍵。在這個基礎上,Agent 的創(chuàng)業(yè)者做好這個 Agent 的「CEO」就好了。今天 AI 已經能寫出人類看不懂但能運行的代碼,我們不一定非要理解強化學習端到端的邏輯,只要搭好環(huán)境、設好獎勵就行。
05
Agent 的商業(yè)模式將走向何方?
張鵬:最近我們看到很多 ToB 領域的 Agent,尤其是在美國,它們的商業(yè)模式和增長模式有什么變化嗎?還是有新的模式出現?
鐘凱祺(Cage):現在最大的一個特點就是,有越來越多的產品從偏 C 端切入,在公司組織里自下而上(bottom-up)地被使用。最典型的就是 Cursor。除了它,還有很多 AI Agent 或 Copilot 產品,大家愿意自己先用起來。這就不再是傳統(tǒng) SaaS 那種需要先搞定 CIO、一對一簽單的模式了,至少第一步不是這樣。
另一個有意思的產品是 OpenEvidence,他們做的是醫(yī)生這個群體。他們先把醫(yī)生群體打下來,然后漸漸植入醫(yī)療器械和藥品的廣告。這些業(yè)務不需要一開始就和醫(yī)院談,因為和醫(yī)院談非常慢。AI 創(chuàng)業(yè)最關鍵的就是速度,光靠技術護城河是沒用的,需要通過這種自下而上的方式增長。
AI 醫(yī)療獨角獸 OpenEvidence|圖源:OpenEvidence
關于商業(yè)模式,現在有一個趨勢,就是慢慢地從基于成本(Cost-based)定價走向基于價值(Value-based)定價。
- 基于成本
:這像傳統(tǒng)云服務,在 CPU/GPU 成本之上加一層軟件價值。
- 按次收費
:在 Agent 這邊,一種是按「動作」(Action)收費。比如我前面提到的物流 Agent,給卡車司機打一個電話收幾毛錢。
- 按工作流收費
:更高一層的抽象是按「工作流」(Workflow)收費,比如完成一整個物流訂單。這離成本端更遠,離價值端更近了,因為它真的參與到了工作中。但這需要一個相對收斂的場景。
- 按結果付費
:再往上,就是按「結果」(Result)付費。因為 Agent 成功率不高,用戶希望為成功的結果付費。這要求 Agent 公司對產品有極高的打磨能力。
- 按 Agent 本身付費
:未來可能會真正地按「Agent」付費。比如,有一家叫 Hippocratic AI 的公司做 AI 護士,在美國招一個人類護士大概是每小時 40 美金,而他們的 AI 護士每小時只要 9 到 10 美金,降了四分之三的成本。在美國這種人力昂貴的市場,這非常合理。如果 Agent 未來能做得更好,我甚至可以給它發(fā)獎金、發(fā)年終獎。這些都是商業(yè)模式上的創(chuàng)新。
李廣密:我們最期待的是按價值(Value-based)的計價方式。比如 Manus AI 做一個網站,這個價值是不是值 300 美金?它做一個應用,是不是值 5 萬美金?但今天的任務價值還不好定價。如何建立一個好的衡量計價方式,是值得創(chuàng)業(yè)者去探索的。
另外,剛才凱祺提到按 Agent 付費,這就像企業(yè)要和員工簽合同一樣。未來我們雇傭了 Agent,是不是要給它發(fā)「身份證」?是不是要簽「勞動合同」?這其實就是智能合約。我比較期待未來 Crypto 領域的智能合約如何應用到數字世界的 Agent 上,當任務完成后,通過一個好的衡量計價手段,去分配經濟利益。這可能是 Agent 與 Crypto 智能合約結合的機會。
06
人類與 Agent 的協(xié)作關系會變成什么形態(tài)?
張鵬:最近在 Coding Agent 這個方向,有兩個詞討論得比較多:「Human in the loop」和「Human on the loop」,這是在探討什么?
鐘凱祺(Cage):「Human on the loop」是指人盡可能減少在循環(huán)中的決策,只在關鍵時刻參與一下。有點像特斯拉的 FSD,當系統(tǒng)遇到危險決策時,會警告人類接管油門剎車。在虛擬世界中,這通常指非即時的、異步的人機協(xié)作。人可以對 AI 拿不準的關鍵決策進行干預。
「Human in the loop」則更偏向于 AI 會時不時地「ping」你一下,來確認某件事。比如 Minus AI,它的右半邊有一個虛擬機,我可以實時看到它在瀏覽器里做什么,這就像一個打開的白盒,我能大概知道 Agent 想做什么。
這兩個概念不是非黑即白的關系,而是一個光譜。現在更多的是「in the loop」,人還是要在很多關鍵點上做審批。原因很簡單,軟件還沒到那個階段,出了問題總得有人負責。油門和剎車一定是去不掉的。
可以預見的是,未來高重復性的任務,最終結果一定是人只看摘要,自動化程度會非常高。對于一些難題,比如讓 AI 看病理報告,我們可以把 Agent 的「假陽率」調高一點,讓它更容易覺得「有問題」,然后「on the loop」地把這些案例作為郵件發(fā)給人類醫(yī)生。這樣,雖然人類醫(yī)生需要復核的案例多了,但 Agent 所有判斷為「陰性」的案例都可以被順利審批掉。如果病理報告中只有 20% 真的有難度,那人類醫(yī)生的工作帶寬就已經放大了 5 倍。所以不用太糾結于「in」還是「on」,只要找到好的結合點,就能把人機協(xié)作做得很好。
李廣密:鵬哥問的這個問題背后,其實有一個巨大的機會,就是「新的交互」以及「人與 Agent 如何協(xié)同」。這可以簡單理解成在線(同步)和離線(異步)。比如我們開會直播,必須實時在線。但如果我作為一個 CEO 給同事布置任務,項目推進是異步的。
這里面更大的意義在于,當 Agent 大規(guī)模落地后,人與 Agent 如何協(xié)同交互,以及 Agent 與 Agent 之間如何協(xié)同交互,這是非常值得探索的。今天我們還是通過文本與 AI 交互,但未來與 Agent 的交互方式會有很多種。有些可能在后臺自動化運行,有些則需要人在前面看著。探索新的交互是一個巨大的機會。
07
能力過剩、需求不足,
Agent 的「殺手級應用」何時出現?
張鵬:Coding Agent 總體還是圍繞 IDE 的延長線在做。未來會不會有變化?如果大家都擠在這條路上,后來者要如何追趕 Cursor?
鐘凱祺(Cage):IDE 只是一個環(huán)境,再去復刻一個 IDE 本身的價值不大。但在 IDE 或另一個好的環(huán)境里做 Agent,本身是有價值的。我會思考它的用戶到底只是專業(yè)開發(fā)者,還是能拓展到專業(yè)開發(fā)者之外「平民開發(fā)者」——那些有很多自動化需求的白領工作者。
現在缺的是什么?不是供給能力,因為 Cursor 這類產品已經把 AI 的 coding 供給能力放大了 10 倍甚至 100 倍。以前我要做一個產品,需要外包一個 IT 團隊,試錯成本很高。現在理論上我只要說一句話,花 20 美元的月費就能試錯。
現在缺的是需求。大家都在用老的需求去套新技術,有點「拿著錘子找釘子」的狀態(tài)。目前的需求大多是做落地頁(Landing page)或者基礎的玩具網站。未來需要找到一個收斂的產品形態(tài)。這有點像當年推薦引擎出來的時候,它是一個很好的技術,后來出現了一種叫「信息流」的產品形態(tài),把推薦引擎真正帶給了大眾。但 AI Coding 領域還沒有找到像「信息流」這樣的殺手級產品。
李廣密:我覺得 Coding 有可能拿走整個大模型產業(yè)階段性 90% 的價值。這個價值怎么長出來?今天的第一幕還是服務全球 3000 萬程序員。我舉個例子,Photoshop 服務的是全球兩三千萬專業(yè)設計師,門檻很高。但是當剪映、Canva、美圖秀秀出來后,可能有 5 億甚至更多的用戶都可以使用這些工具,并做出更火爆的內容。
Code 有一個好處,它是一個創(chuàng)意的表達平臺。這個社會上 90% 以上的任務都可以通過 Code 來表達,所以它有可能變成一個創(chuàng)意平臺。以前應用開發(fā)門檻非常高,大量的長尾需求沒有被滿足。當門檻大幅降低后,這些需求就會被激發(fā)出來。我期待的是「應用的大爆發(fā)」。移動互聯網生成的最大數據是內容,而 AI 這一波生成的最大內容可能就是新的應用軟件。這就像優(yōu)酷、愛奇藝這種長視頻平臺和抖音的區(qū)別。你可以把大模型比作攝像頭,在它之上還能做出抖音和剪映這樣的殺手級應用。這可能就是所謂的「Vibe Coding」(氛圍編程)的本質,它是一個新的創(chuàng)意平臺。
張鵬:要提升 Agent 的輸出價值,輸入(input)也變得非常重要。但在產品和技術上,有什么方法可以提升輸入質量,從而確保更好的輸出呢?
鐘凱祺(Cage):在產品上,我們不能覺得用戶用不好產品是用戶的問題。要下功夫最關鍵的一個詞就是「上下文」(Context)。一個 Agent 能否建立「上下文感知」(Context Awareness)?
舉個例子,如果我在互聯網大廠里寫代碼,Agent 不光要看我手頭的代碼,還要看整個公司相關的代碼庫(Codebase),甚至要看我在飛書里和產品經理、同事的對話,以及我之前的編碼和溝通習慣。把這些上下文都給 Agent,我的輸入才能更高效。
所以對于 Agent 開發(fā)者來說,最關鍵的就是要把記憶(Memory)機制和上下文的連接能力做得足夠好,這也是 Agent 基礎設施(Infra)的一大挑戰(zhàn)。
Agent 的挑戰(zhàn):好記憶機制和上下文連接|圖源:零售科學
此外,對于開發(fā)者來說,怎么做好強化學習的冷啟動數據、怎么定義清晰的獎勵(Reward)也很重要。這個獎勵背后意味著,當用戶表達不清晰時,你怎么把他的需求拆解出來。比如,OpenAI 的 Deep Research 在我問得不清晰時,會先給出四個引導性問題。在和它交互的過程中,我其實也在想清楚自己的需求。
對于今天的用戶來說,最主要還是要想怎么清晰地表達需求,以及怎么驗收需求。雖然不用做到「以終為始」,但要對好壞有一個大概的預期。我們寫 Prompt 也要像寫代碼一樣,有清晰的指令和邏輯,這樣能避免很多無效的輸出。
李廣密:我補充兩點。第一,上下文的重要性。我們內部經常討論,上下文做好了,會有新的支付寶、PayPal 級別的機會。
以前電商看的是成交總額(GMV),以后看的是任務完成率。而任務完成,一邊是智能,另一邊就是上下文。比如我要做一個個人網站,如果把我的 Notion 筆記、微信數據、郵件數據都提供給 AI,那我的個人網站內容肯定會非常豐富。
第二,自主學習。搭好環(huán)境后,Agent 要能迭代,這非常關鍵。如果不能持續(xù)學習迭代,結果就是被模型本身吃掉,因為模型就是一個學習系統(tǒng)。上一波移動互聯網,沒有做機器學習和推薦的公司都沒做大。這一波如果 Agent 做不好端到端的自主學習和迭代,我覺得也做不起來。
08
巨頭博弈下,還有哪些變化和機會?
張鵬:我們怎么判斷未來 Agent 的能力會以一個超級接口的形式出現,還是離散地分布在各個場景里?
鐘凱祺(Cage):我看到一個比較大的趨勢是,第一,肯定是多智能體(Multi-agent)的。即便是完成一個任務,在 Cursor 這類產品里,做代碼補全和做單元測試的可能是不同的 Agent,因為它們需要的「性格」和擅長的點不一樣。
第二,入口會不會有變化?我覺得入口是一個二階的問題。首先要發(fā)生的是,大家有很多 Agent,并和它們協(xié)作。這些 Agent 背后會支撐起一張網絡,我稱之為「Botnet」。比如未來購物,60% 以上的固定消費可能都由 Agent 幫我完成。
在生產力場景也一樣,未來程序員的每日例會可能會被 Agent 之間的協(xié)作所取代,由它們推送指標異常和產品開發(fā)進展。當這些發(fā)生后,入口的變化才可能出現。那個時候,API 的調用也不再主要是人類調用,而是 Agent 之間互相調用。
張鵬:那些有能力的大廠,比如 OpenAI, Anthropic, Google, Microsoft,在 Agent 上都是什么樣的決策和行動狀態(tài)?
李廣密:我腦子里一個關鍵詞是「分化」。去年大家都在追趕 GPT-4,但現在能做的事更多了,各家都開始分化。
第一個發(fā)生分化的就是 Anthropic。因為它比 OpenAI 晚,綜合能力沒那么強,所以它就專注在 Coding 上。我感覺它摸到了通往 AGI 大方向的第一張大牌,就是 Coding Agent。他們可能認為,通過 Coding 可以實現 AGI,可以帶來指令遵循能力和 Agent 能力,這是一個邏輯自洽的閉環(huán)。
但 OpenAI 手上的大牌就更多了。第一張是 ChatGPT,Sam Altman 可能想把它做成 10 億日活的產品。第二張是它的「o」系列模型(GPT-4o 等),預期很高,能帶來更多泛化能力。第三張是多模態(tài),它的多模態(tài)推理能力上來了,未來在生成上也能體現。所以,Anthropic 摸到了一張大牌,OpenAI 摸到了三張。
另一個大廠是 Google。我覺得到今年年底,Google 可能會在全方位趕上。因為它既有 TPU,又有 Google Cloud,有頂尖的 Gemini 模型,還有 Android 和 Chrome。你在全球找不到第二家擁有所有這些要素,還幾乎不依賴外部的公司。Google 端到端能力是非常強的,很多人擔心它的廣告業(yè)務會被顛覆,但我感覺它未來可能會找到新的產品結合方式,從一個信息引擎變成一個任務引擎。
你看蘋果,因為沒有自己的 AI 能力,現在迭代就很被動。而微軟是以開發(fā)者見長的,但 Cursor 和 Claude 其實搶了不少開發(fā)者的注意力。當然微軟的盤子非常穩(wěn),有 GitHub 和 VS Code,但它也必須擁有非常強的 AGI 和模型能力。所以你看它也宣布 GitHub 的首選模型之一變成了 Claude,并迭代自己的開發(fā)者產品。微軟在開發(fā)者這塊必須守住,否則根基就沒了。
所以大家開始分化了。可能 OpenAI 想成為下一個 Google,Anthropic 想成為下一個 Windows(靠 API 活著)。
張鵬:那與 Agent 相關的基礎設施(Infra)有哪些變化和機會?
鐘凱祺(Cage):Agent 有幾個關鍵組件。除了模型,第一個就是環(huán)境(Environment)。Agent 開發(fā)最早期,80% 的問題都出在環(huán)境上。像早期的 AutoGPT,要么用 Docker 啟動,非常慢,要么直接在本地電腦部署,非常不安全。如果一個 Agent 要和我一起「上班」,我就得給它配一臺「電腦」,所以環(huán)境的機會就出來了。
配「電腦」有兩大需求:
- 虛擬機/沙盒
:提供一個安全的執(zhí)行環(huán)境。任務做錯了能回退,執(zhí)行過程不能傷害實際環(huán)境,并且要能快速啟動、穩(wěn)定運行。像 E2B、Modal Labs 這樣的公司都在提供這類產品。
- 瀏覽器
:信息檢索是最大需求,Agent 需要到各種網站上爬取信息。傳統(tǒng)的爬蟲容易被封,所以需要給 Agent 搭一個專用的、能理解信息的瀏覽器。這就應運而生了像 Browserbase、Browser Use 這樣的公司。
第二個組件是上下文(Context)。這包括:
信息檢索(Retrieval):傳統(tǒng)的 RAG 公司還在,但也有新的公司,比如 MemGPT,它為 AI Agent 開發(fā)輕量化的記憶和上下文管理工具。
工具發(fā)現:未來工具會非常多,需要一個像「大眾點評」一樣的平臺來幫助 Agent 發(fā)現和挑選好用的工具。
記憶(Memory):Agent 需要一套能模擬人類復雜的長短期記憶結合能力的 Infra。
第三個組件是工具(Tools)。包括簡單的搜索,也包括復雜的支付、自動化后端開發(fā)等。
最后,當 Agent 能力再強一些,一個重要的機會就是 Agent 安全(Agent Security)。
李廣密:Agent Infra 非常重要。我們可以「以終為始」地想,三年后,當幾萬億的 Agent 在數字世界里執(zhí)行任務,那 Infra 的需求就太大了,這將重構整個云計算和數字化世界。
但今天我們還不知道什么樣的 Agent 能做大,它到底需要什么樣的 Infra。所以現在對創(chuàng)業(yè)者是一個非常好的窗口期,可以和那些做得好的 Agent 公司共同設計(co-design)和共創(chuàng) Infra 工具。
我覺得今天最重要的,第一是虛擬機,第二是工具。比如未來的 Agent 搜索肯定和人的搜索不一樣,會產生天量的機器搜索需求。現在全網人類的搜索每天可能 200 億次,未來機器搜索可能是幾千億甚至上萬億次。這種搜索不需要給人類做排序優(yōu)化,可能一個大的數據庫就夠了,這里有很大的成本優(yōu)化和創(chuàng)業(yè)機會。
09
當 AI 不再只是大模型,它會往哪個方向進化?
張鵬:Agent 始終繞不開模型,站在今天,你覺得模型技術在過去兩年里走過了哪些關鍵的臺階?
李廣密:我覺得關鍵的里程碑(milestone)可能就兩個。一個是 GPT-4 代表的規(guī)模化定律(Scaling Law)范式,即在預訓練階段,擴大規(guī)模仍然是有效的,它能帶來通用的泛化能力。
第二個大的里程碑是「o」系列模型所代表的「模型會思考」的范式。它通過更長的思考時間(思維鏈),顯著提升了推理能力。
我覺得這兩個范式是今天 AGI 的左膀右臂。在這個基礎上,Scaling Law 遠遠沒有停止,思考模式也會繼續(xù)。比如,在多模態(tài)下可以繼續(xù) Scaling,也可以把「o」系列的思考能力加到多模態(tài)上,這樣多模態(tài)就能有更長的推理能力,生成的可控性和一致性就會變得非常好。
我自己的感覺是,未來兩年可能比過去兩年進步要更快。今天可能正處在一個全球幾千名頂尖 AI 科學家,共同推動人類科技文藝復興的狀態(tài),資源充足,平臺也具備了,很多地方都可能出現突破。
張鵬:你會比較期待接下來一兩年,在 AI 領域看到哪些技術臺階的實現和跳躍?
鐘凱祺(Cage):第一個是多模態(tài)。現在多模態(tài)的理解和生成還是比較零散的,未來一定會走向「大一統(tǒng)」,即理解和生成一體化。這會極大地打開產品的想象力。
第二個是自主學習。我很喜歡 Richard Sutton(強化學習之父)提出的「經驗的時代」(the era of experience)這個概念,即 AI 通過在線執(zhí)行任務的體驗來提升自己的能力。這在以前是看不到影子的,因為沒有基座的世界知識。但從今年開始往后,這會是一個持續(xù)發(fā)生的事情。
2024 年圖靈獎獲獎者 Richard Sutton |圖源:Amii
第三個是記憶。如果模型真的能在產品和技術層面把 Agent 的記憶做好,帶來的突破會非常大。產品的粘性才真正出現。我感覺 GPT-4o 開始有記憶的那一刻,我才真正對 ChatGPT 這款應用產生了粘性。
最后是新交互。會不會有不再是文字輸入框的新交互?因為打字這個門檻其實挺高的。未來會不會有更符合人類直覺和本能的交互方式?比如,我有一個「永遠在線」(Always-on)的 AI 產品,它在后臺不斷地聽我說話、異步思考,在我靈感迸發(fā)的那一刻,能捕捉到關鍵的上下文。我覺得這些都是我比較期待的。
張鵬:確實,今天我們面臨的挑戰(zhàn)和機遇并存。一方面,我們不能被技術發(fā)展的速度「拉爆」,要保持持續(xù)的關注。另一方面,今天的 AI 產品正在從「工具」走向「關系」。人不會和工具建立關系,但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關系。這種關系本質上就是習慣和慣性,這也是未來重要的壁壘。
今天的探討非常深入,感謝廣密和凱祺的精彩分享。也感謝直播間觀眾的陪伴。我們下期《今夜科技談》再見。
李廣密:謝謝。
鐘凱祺(Cage):謝謝。
*頭圖來源:McKinsey
本文為極客公園原創(chuàng)文章,轉載請聯系極客君微信 geekparkGO
極客一問
你認為 Agent 未來發(fā)展會怎樣?
黃仁勛最新發(fā)言:如果中國積極擴散 AI 技術,那么他們將會主導整個市場。
點贊關注 極客公園視頻號 ,
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.