大廠團(tuán)隊(duì)開發(fā) AI 產(chǎn)品的樣本。
4 月 18 日周五晚,字節(jié)的 Agent 產(chǎn)品 “扣子空間(space.coze.cn) ” 開啟內(nèi)測(cè)。團(tuán)隊(duì)為此準(zhǔn)備不少算力資源,但短短幾小時(shí)內(nèi),服務(wù)器就被涌入的用戶擠爆。
超出預(yù)期的用戶熱情,讓扣子團(tuán)隊(duì)再次驗(yàn)證一個(gè)判斷:用戶一直在等待能用的 AI 產(chǎn)品,去解決工作中的問題。
ChatGPT 讓聊天窗成為大模型應(yīng)用首選的交互界面。理由是當(dāng) AI 足夠聰明,似乎就不需要用戶學(xué)習(xí),不用熟悉按鈕和菜單、只用自然語(yǔ)言下命令就夠了。
字節(jié)在 2023 年下半年搭起 AI 應(yīng)用開發(fā)平臺(tái) “扣子(Coze)”,讓開發(fā)者不需要熟悉復(fù)雜的技術(shù)能力,就能將自己的數(shù)據(jù)接入最前沿的大模型,做各式各樣的應(yīng)用。到 2024 年中,扣子團(tuán)隊(duì)發(fā)現(xiàn),盡管聊天機(jī)器人應(yīng)用成千上萬(wàn)地出現(xiàn),從知識(shí)問答到情感陪伴,覆蓋幾乎所有熱門的場(chǎng)景,但大多面臨相同的問題:用戶增長(zhǎng)難,留存更難。
這是一個(gè)產(chǎn)品形態(tài)與用戶真實(shí)需求形成偏差的案例。聊天界面簡(jiǎn)單易用,但對(duì)大模型要求極高,導(dǎo)致不論中美都是一兩個(gè)通用 AI 聊天應(yīng)用斷層式領(lǐng)先。扣子團(tuán)隊(duì)發(fā)現(xiàn),平臺(tái)上有一類應(yīng)用的增長(zhǎng)和留存明顯更好——嵌入到用戶工作流的大模型應(yīng)用,針對(duì)具體工作場(chǎng)景解決具體問題。
這成為他們?nèi)ツ晗掳肽甑墓ぷ髦攸c(diǎn)。用大模型改造工作流,在工作場(chǎng)景中完成繁瑣的任務(wù),正是當(dāng)下行業(yè)熱議的 Agent 初始形態(tài)。
隨著 o1、Claude 3.5 等模型發(fā)布,Cursor、Devin 等編程 Agent 工具驗(yàn)證用戶對(duì)解決復(fù)雜任務(wù)的 AI 產(chǎn)品有強(qiáng)烈需求。Google、OpenAI 推出 Deep Research 產(chǎn)品,創(chuàng)業(yè)公司的 Agent 產(chǎn)品 Manus、Genspark 接連發(fā)布,圍繞 “復(fù)雜任務(wù) Agent” 的競(jìng)爭(zhēng)日益激烈。
扣子團(tuán)隊(duì)春節(jié)后就在考慮開發(fā)類似產(chǎn)品,也就是上周五開啟內(nèi)測(cè)的扣子空間。延續(xù)過去積累的經(jīng)驗(yàn),他們重點(diǎn)關(guān)注 Agent 解決工作場(chǎng)景復(fù)雜問題的能力,產(chǎn)品定位 “與 Agent 一起,開始你的工作”。
這款產(chǎn)品由字節(jié)自研的豆包等國(guó)產(chǎn)大模型驅(qū)動(dòng),提供通用 Agent 入口,支持 MCP(Model Context Protocol)協(xié)議,引入多款可以調(diào)用的工具,包括飛書云文檔、飛書表格等,強(qiáng)化解決工作任務(wù)的能力。此外,扣子空間引入專家 Agent 體系。
我們第一時(shí)間獲得扣子空間的內(nèi)測(cè)碼,測(cè)試了數(shù)十個(gè)任務(wù),并從扣子團(tuán)隊(duì)內(nèi)部獲悉了他們開發(fā)扣子空間的開發(fā)理念和迭代方向。
扣子團(tuán)隊(duì)將這次發(fā)布的產(chǎn)品視作 “打樣” 版本,展示 Agent 如何在工作中解決問題。他們的長(zhǎng)期目標(biāo)是打造一個(gè)開放的 Agent 系統(tǒng):用戶提出需求時(shí),系統(tǒng)能自動(dòng)調(diào)度最合適的一位或多位專家 Agent 協(xié)同完成任務(wù)。
現(xiàn)在內(nèi)測(cè)的扣子空間 Beta 版,已經(jīng)可以為用戶解決工作中的問題,但它還是一個(gè)初級(jí)形態(tài)。
扣子空間:一個(gè)通用實(shí)習(xí)生和一批垂直領(lǐng)域?qū)<?/strong>
扣子團(tuán)隊(duì)給通用 Agent 開發(fā)了 “探索模式” 和 “規(guī)劃模式”。探索模式與市面上的同類 Agent 產(chǎn)品類似,自動(dòng)根據(jù)用戶需求執(zhí)行任務(wù)。
規(guī)劃模式強(qiáng)調(diào)輔助人解決問題,而不是完全替代人。用戶提出需求后,它不會(huì)立即開始工作,而是先給出任務(wù)處理規(guī)劃,請(qǐng)用戶確認(rèn)后再開始行動(dòng),執(zhí)行任務(wù)期間,也需要用戶參與。在我們的測(cè)試中,規(guī)劃模式解決問題的能力明顯更強(qiáng)。
左圖為探索模式,右圖為規(guī)劃模式。
這種開發(fā)理念與 OpenAI 的 Deep Research 類似。用戶向 Deep Research 提出需求后,它會(huì)讓用戶提問,澄清需求。OpenAI 的研究者認(rèn)為,大多數(shù)用戶不會(huì)一次給出自己最完整的需求。
一位扣子團(tuán)隊(duì)人士認(rèn)為,通用 Agent 像是一個(gè)經(jīng)驗(yàn)不足的 “實(shí)習(xí)生”——很難一次完整理解需求,需要不斷與人交互、確認(rèn)需求,才能搞清楚自己要做什么,并給出成果。
他們鼓勵(lì)多用協(xié)作模式,“如果花 30 分鐘甚至更久自動(dòng)解決問題,最后給出一個(gè)不可用的結(jié)果,就是浪費(fèi)時(shí)間和資源。”
從我們數(shù)十個(gè)任務(wù)測(cè)試來看,扣子空間的通用 Agent 的確像一名 “實(shí)習(xí)生”。它能理解需求,搜索公開資料,交出一份可以參考的成果。比如它可以收集豆包大模型研究團(tuán)隊(duì)過去一個(gè)月的動(dòng)向,能關(guān)注到前不久負(fù)責(zé)人的變動(dòng),也了解最近 “AI Lab 并入 Seed 團(tuán)隊(duì)” 的組織調(diào)整。
讓它開發(fā)一個(gè)提醒喝水的 app,它會(huì)先搜索市面上優(yōu)秀的同類 app,做功能、設(shè)計(jì)和應(yīng)用體驗(yàn)分析。然后它會(huì)給出提示,讓我們根據(jù)自己的情況提供具體的功能需求,再繼續(xù)往下推進(jìn),最后制定最終的 app 開發(fā)方案,并附帶一個(gè)可以交互的本地網(wǎng)頁(yè)文件。
如果給它上一些強(qiáng)度,比如 “從權(quán)威網(wǎng)站搜索美國(guó)從中國(guó)進(jìn)口 T 恤、圣經(jīng)、運(yùn)動(dòng)鞋、抗生素、維生素 C 等產(chǎn)品的關(guān)稅”,它會(huì)去搜索美國(guó)政府相關(guān)網(wǎng)站上的公告,但最終結(jié)果不太理想,它給出兩個(gè)正確答案,其他信息都有點(diǎn)過時(shí)。我們同步測(cè)試了 OpenAI 的 Deep Research,表現(xiàn)好一些,但也不是完全正確。
反饋結(jié)果時(shí),就算我們沒提出明確要求,扣子空間的 Agent 多數(shù)情況會(huì)提供一份可以交互的本地網(wǎng)頁(yè)文件,更直觀地呈現(xiàn)結(jié)果。
“今天大家的注意力容易散失,結(jié)果第一眼得比較亮眼。” 扣子團(tuán)隊(duì)也會(huì)讓 Agent 同步輸出文檔,“如果用戶覺得可視化的信息量不夠,可以去看詳細(xì)內(nèi)容。”
實(shí)用理念驅(qū)動(dòng)下,扣子空間引入專家 Agent 體系,當(dāng)前上線 2 個(gè),覆蓋處理用戶個(gè)人數(shù)據(jù)和處理第三方數(shù)據(jù)場(chǎng)景。
“用戶研究專家” 是扣子團(tuán)隊(duì)在一次內(nèi)部研討會(huì)中確定的 Agent。無(wú)論是產(chǎn)品經(jīng)理、還是運(yùn)營(yíng),了解用戶需求都是工作中的高頻場(chǎng)景。他們邀請(qǐng)字節(jié)的資深用研專家、產(chǎn)品經(jīng)理等分享處理用研工作的經(jīng)驗(yàn)和技巧,讓大模型學(xué)習(xí),融入解決任務(wù)的流程中。
我們讓它處理智能眼鏡的用戶訪談?dòng)涗洠軓挠脩粼嫉脑L談?dòng)涗浿刑釤挸鲆?guī)律,然后給出相對(duì)細(xì)致的功能開發(fā)建議,比如 “日常可佩戴的外觀,避免過于浮夸”,這在原始訪談?dòng)涗浿泻苌俪霈F(xiàn),但有多位用戶訪談中提到 “方便摸魚”。
扣子空間也給用戶研究專家引入特定的數(shù)據(jù)處理工具。用戶上傳 CSV 文件后,它會(huì)自動(dòng)解析,然后把數(shù)據(jù)文件做成云端數(shù)據(jù)庫(kù)文件,讓模型根據(jù)用戶的指令做分析。
“華泰 A 股觀察助手” 是扣子團(tuán)隊(duì)與華泰證券聯(lián)合孵化的 Agent。他們讓大模型學(xué)習(xí)如何分析上市公司和發(fā)展?jié)摿Γ瑢⑦@些專業(yè)知識(shí)融入到 Agent 的工作流中。為了減少大模型的幻覺,團(tuán)隊(duì)引入專業(yè)股票數(shù)據(jù)庫(kù)作為模型優(yōu)先使用的工具。
我們讓它分析了 “中美關(guān)稅博弈,對(duì)寧德時(shí)代未來一段時(shí)間的影響是什么?” 它拆解成六個(gè)步驟:搜索中國(guó)關(guān)稅博弈的具體內(nèi)容、研究關(guān)稅的傳導(dǎo)機(jī)制、獲取股價(jià)數(shù)據(jù)、分析股價(jià)走勢(shì)、分析未來影響,撰寫報(bào)告。
經(jīng)過約 40 分鐘的工作,它交出一份報(bào)告,從原材料、產(chǎn)品出口等方面分析,關(guān)稅沖突可能會(huì)怎樣影響寧德時(shí)代的業(yè)績(jī),并給寧德時(shí)代提出應(yīng)對(duì)關(guān)稅沖擊的策略。它建議寧德時(shí)代拓展歐洲、東南亞等新興市場(chǎng),加速研發(fā)高能量密度、低成本電池技術(shù)等。整體來看,Agent 引用的數(shù)據(jù)和內(nèi)容多數(shù)內(nèi)容準(zhǔn)確,但會(huì)存在一些幻覺。
背靠扣子、打通飛書,在字節(jié)業(yè)務(wù)體系中開發(fā)新品
扣子團(tuán)隊(duì)的實(shí)用主義理念貫穿產(chǎn)品開發(fā)始終。他們認(rèn)為現(xiàn)階段沒有產(chǎn)品能完全 “壓榨” 大模型的性能,更看重解決用戶工作中遇到的實(shí)際問題。
“扣子是個(gè)開放的平臺(tái),如果國(guó)內(nèi)有大模型效果比豆包好,我們也會(huì)積極使用。” 扣子團(tuán)隊(duì)開發(fā)扣子空間時(shí),豆包深度思考模型還沒發(fā)布,他們?cè)紤]優(yōu)先使用 DeepSeek-R1,測(cè)試后發(fā)現(xiàn)它調(diào)用工具的能力不夠。
后來團(tuán)隊(duì)又對(duì)比六款國(guó)內(nèi)大模型,使用了豆包 1.5 Pro 為主的多款模型。因?yàn)槎拱谥噶钭裱⒄{(diào)用工具,以及多模態(tài)處理能力上表現(xiàn)最好,而且推理成本很低,能支撐大規(guī)模調(diào)用。
作為字節(jié)的一部分,扣子團(tuán)隊(duì)不僅能參考行業(yè)公開經(jīng)驗(yàn),還能從扣子平臺(tái)上 200 多萬(wàn)款 AI 應(yīng)用和上百萬(wàn)活躍開發(fā)者的反饋了解趨勢(shì)。扣子平臺(tái)還與火山引擎打通,開發(fā)者的 AI 應(yīng)用也可以一鍵部署到豆包、飛書、抖音小程序中。
這不能直接幫他們從 0 到 1 創(chuàng)造新的產(chǎn)品形態(tài),但好的產(chǎn)品想法得到驗(yàn)證時(shí),他們能夠較早發(fā)覺。去年下半年扣子團(tuán)隊(duì)把業(yè)務(wù)中心從聊天機(jī)器人轉(zhuǎn)向工作流,并把扣子空間的重點(diǎn)放在人與 Agent 的協(xié)作上,都有相關(guān)的數(shù)據(jù)支撐。
扣子推出的大模型應(yīng)用調(diào)試工具 “扣子羅盤”,讓團(tuán)隊(duì)能近距離觀察大量 AI 應(yīng)用的開發(fā)、調(diào)優(yōu)和部署過程,積累經(jīng)驗(yàn),更有效地發(fā)揮大模型性能。這是扣子團(tuán)隊(duì)能迅速開發(fā)出復(fù)雜 Agent 產(chǎn)品的原因之一。
給 Agent 引入?yún)f(xié)作工具時(shí),他們也有優(yōu)勢(shì)。市面上很多 AI 工具接入飛書,也有開發(fā)者做飛書的 MCP,但它們只能與飛書整體的 API 交互。
MCP 是 Anthropic 在 2024 年提出的協(xié)議,用統(tǒng)一的方式,把現(xiàn)有軟件變成大模型可以直接調(diào)用的 “工具”。它相當(dāng)于給傳統(tǒng)軟件加一個(gè) “接口”,讓模型能更方便地使用這些工具。現(xiàn)在,越來越多公司支持 MCP,但多數(shù)是作為工具的使用方增強(qiáng)自己 AI 產(chǎn)品的能力,而不是把產(chǎn)品開放出來、做成 MCP 工具供別人調(diào)用。
因?yàn)槭亲止?jié)的團(tuán)隊(duì),他們把 MCP 把飛書云文檔、飛書表格、飛書多維表格做成工具。“還做了一些創(chuàng)新。” 扣子團(tuán)隊(duì)說,MCP 本質(zhì)上還是一種 API Key,要實(shí)現(xiàn)這個(gè)功能還要做一層身份認(rèn)證。
用戶授權(quán)后,Agent 可以調(diào)用飛書文檔里的內(nèi)容來解決問題,并把處理結(jié)果寫回到飛書文檔中。這意味著用戶無(wú)需手動(dòng)上傳文件或整理資料,Agent 就能訪問用戶有權(quán)限的公司內(nèi)部文檔,完成任務(wù)的過程更順暢、也更貼近實(shí)際工作流。能夠訪問私有數(shù)據(jù),也是業(yè)內(nèi)公認(rèn)能夠提升 Agent 能力的關(guān)鍵。
對(duì)于現(xiàn)在的 Agent 產(chǎn)品,基礎(chǔ)模型已經(jīng)很難形成差異,理論上任何開發(fā)者都可以調(diào)用最領(lǐng)先的模型;產(chǎn)品框架差別也沒有那么大,開源抹平大多數(shù)公司的技術(shù)差距。真正的壁壘,可能在于它能否調(diào)用更有價(jià)值的數(shù)據(jù)或工具去解決問題。
目標(biāo)是 Agent 系統(tǒng),用戶反饋比完美的產(chǎn)品更重要
扣子團(tuán)隊(duì)自己也認(rèn)為,當(dāng)前上線的扣子空間還不算成熟的產(chǎn)品。“但時(shí)間是最重要的。” 他們認(rèn)為現(xiàn)在已經(jīng)到了必須上線的節(jié)點(diǎn),才能盡快得到更多反饋,迅速迭代產(chǎn)品。
更多用戶使用并不能直接提升模型本身的能力,在大模型行業(yè)已經(jīng)形成共識(shí)。比如 Anthropic 推出 Claude 3.5、DeepSeek 發(fā)布 DeepSeek-R1 前,都沒有積累太多用戶。
但這只限于 “模型-用戶” 循環(huán),復(fù)雜的 Agent 在模型和用戶之間增加了足夠厚的產(chǎn)品層。
“大量用戶的真實(shí)反饋對(duì) Agent 開發(fā)至關(guān)重要。” 扣子團(tuán)隊(duì)說,“這有助于改進(jìn)產(chǎn)品功能,提升用戶體驗(yàn),更好地挖掘基礎(chǔ)模型的能力。”
在扣子團(tuán)隊(duì)的產(chǎn)品路線圖中,現(xiàn)在內(nèi)測(cè)的扣子空間還是初級(jí)形態(tài)。團(tuán)隊(duì)從扣子平臺(tái)數(shù)據(jù)分析中發(fā)現(xiàn),許多應(yīng)用解決的需求都是小眾且個(gè)性化的——用戶量不大,但使用頻率穩(wěn)定。這像是金融風(fēng)險(xiǎn)專家納西姆·塔勒布(Nassim Taleb)提出的 “肥尾效應(yīng)” 的一種體現(xiàn)。
在他們看來,基礎(chǔ)模型能力提升的確會(huì)吞并部分產(chǎn)品或功能,但用戶個(gè)性化的需求很難被通用大模型完全滿足,“可能只能做 90% 或者 99%,總會(huì)差上那么一點(diǎn)”。所以扣子空間的目標(biāo)是打造 “通用 Agent 和專家 Agent 協(xié)作的系統(tǒng)”——這也是他們?nèi)∶?“空間” 的原因之一。
扣子空間只是大廠加入 Agent 競(jìng)爭(zhēng)的序幕。我們了解到,現(xiàn)在國(guó)內(nèi)幾乎所有的大廠都在積極開發(fā) Agent 產(chǎn)品,扣子空間只是行動(dòng)較快的之一。競(jìng)爭(zhēng)才剛剛開始。
文內(nèi)提及的扣子空間測(cè)試案例回放鏈接:
豆包大模型研究的詳細(xì)動(dòng)向整理
https://space.coze.cn/s/yJ8eXbNzbj4/
開發(fā)喝水提醒 app
https://space.coze.cn/s/uus-6nMBve4/
搜中國(guó)商品關(guān)稅信息
https://space.coze.cn/s/HY18T8UqZkE/
總結(jié)訪談?dòng)涗浱岙a(chǎn)品建議
https://space.coze.cn/s/0zbuSiRdQnk/
中美關(guān)稅博弈對(duì)寧德時(shí)代影響
https://space.coze.cn/s/NXMYcXaqu5U/
題圖來源:《千鈞一發(fā)》
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.