智東西
作者 ZeR0
編輯 漠影
智東西5月14日報道,在5月13日的火山引擎AI創(chuàng)新巡展·上海站活動上,火山引擎曬出大模型全景圖,發(fā)布豆包·視頻生成模型Seedance 1.0 lite、豆包1.5·視覺深度思考模型,升級豆包·音樂模型。同時,Data Agent正式亮相,國內(nèi)首款A(yù)I原生IDE產(chǎn)品Trae接入豆包深度思考模型并升級多個重點(diǎn)功能。
目前,火山方舟已覆蓋語言、深度思考、視覺理解、視覺、語音、GUI Agent等多類模型。
火山引擎副總裁張鑫在會上談道,模型、算力、數(shù)據(jù)、安全構(gòu)成了AI時代的新基建,火山引擎同時對外提供這“四要素”:
模型方面,豆包大模型支撐了50多個內(nèi)部真實(shí)場景、30多個行業(yè)外部企業(yè)共創(chuàng),截至4月份,日均tokens調(diào)用量超過12.7萬億。
算力方面,火山引擎AI云原生提供了強(qiáng)有力的系統(tǒng)承載力,包括充沛算力、推理層優(yōu)化、系統(tǒng)調(diào)度能力的乘積。
數(shù)據(jù)方面,數(shù)據(jù)飛輪2.0和Data Agent,讓用戶可以基于動態(tài)的多模態(tài)數(shù)據(jù)湖,以智能重塑數(shù)據(jù)關(guān)系。
安全方面,大模型安全方案提供PCC私密云計算平臺,可解決端云協(xié)同計算過程中的數(shù)據(jù)泄露問題,并通過大模型防火墻消除一系列攻擊隱患。
一、視頻生成模型:效果好、生成快、更便宜
新發(fā)布的豆包視頻生成模型Seedance 1.0 lite,支持文生視頻、圖生視頻,視頻生成時長支持5s、10s,分辨率提供480P、720P。
企業(yè)用戶可在火山方舟平臺使用該模型API,個人用戶也可在豆包App、即夢體驗(yàn)。
作為豆包視頻生成模型系列的小參數(shù)量版本,Seedance 1.0 lite模型實(shí)現(xiàn)了兩大突破:影視級的視頻生成質(zhì)量、視頻生成速度大幅提升,兼顧效果、速度、性價比。
(1)更精準(zhǔn)的指令遵循:通過強(qiáng)大的語義理解,可精細(xì)控制人物外貌氣質(zhì)、衣著風(fēng)格、表情動作等,并在多主體動作解析、嵌入式文本響應(yīng)、程度副詞和鏡頭切換響應(yīng)方面具有優(yōu)勢。
(2)更豐富的影視級運(yùn)鏡:支持360度環(huán)繞、航拍、變焦、平移、跟隨、手持等多種鏡頭語言,具備細(xì)膩高清的基礎(chǔ)畫質(zhì)和影視級美感。
(3)更合理的運(yùn)動交互:分析動作時序與空間關(guān)系,提升人物、物體間自然流暢的交互動作,運(yùn)動軌跡、受力反饋更加契合現(xiàn)實(shí)規(guī)律。
Seedance 1.0 lite模型可廣泛應(yīng)用于電商廣告、娛樂特效、影視創(chuàng)作、動態(tài)壁紙等場景。例如在電商領(lǐng)域,該模型可幫助商家快速生成高質(zhì)量的營銷視頻素材,精準(zhǔn)匹配產(chǎn)品展示、活動推廣等場景,降低制作成本與周期。
二、豆包1.5·視覺深度思考模型:在60項評測中取得38項第一
新發(fā)布的豆包1.5·視覺深度思考模型(Doubao-1.5-thinking-vision-pro),激活參數(shù)僅20B,但具備強(qiáng)大的多模態(tài)理解和推理能力,在60個公開評測基準(zhǔn)中有38個取得SOTA表現(xiàn),在視頻理解、視覺推理、GUI Agent能力等方面均處于第一梯隊。該模型已在火山方舟上線。
在視頻理解方面,豆包1.5·視覺深度思考模型支持動態(tài)幀率采樣,視頻時序定位能力顯著增強(qiáng),結(jié)合向量搜索,可精準(zhǔn)定位視頻中與文本描述相對應(yīng)的片段。
同時,該模型新增視頻深度思考能力,學(xué)習(xí)了數(shù)萬億多模態(tài)標(biāo)記數(shù)據(jù),掌握廣泛視覺知識,結(jié)合強(qiáng)化學(xué)習(xí),使視覺推理能力大幅提升。例如,在復(fù)雜的圖形推理題中,模型提出假設(shè),進(jìn)行推理檢驗(yàn),當(dāng)發(fā)現(xiàn)和假設(shè)不一樣時,還能進(jìn)行不斷反思,提出新的猜測,直到得出正確答案。
豆包1.5·視覺深度思考模型還新增了GUI Agent能力,基于強(qiáng)大的GUI定位性能,可在PC端、手機(jī)端等不同環(huán)境中完成復(fù)雜交互任務(wù),例如可對新開發(fā)的App功能進(jìn)行自動化檢測。該功能已應(yīng)用于字節(jié)跳動多款A(yù)pp產(chǎn)品的開發(fā)測試中。
去年,火山引擎推出了豆包·音樂模型。基于該模型,用戶僅通過一張圖、一句話,就能創(chuàng)作10多種不同風(fēng)格的高品質(zhì)音樂。此次大會上,豆包·音樂模型升級,不僅支持英文歌曲創(chuàng)作,還可以通過理解視頻,自動適配純音樂BGM。
豆包·音樂模型已全量上線,個人和企業(yè)用戶可在海綿音樂、火山引擎官網(wǎng)體驗(yàn)。
三、火山方舟:免登錄,低價推理,3分鐘搞定DeepSeek滿血版部署
火山引擎旗下的一站式大模型服務(wù)平臺火山方舟,提供了語言、視覺、語音等模型的精調(diào)、推理、評測等功能與服務(wù),通過豐富的插件生態(tài)和安全可信的方案,讓企業(yè)及開發(fā)者的AI應(yīng)用更易落地。
開發(fā)者可在免登錄的情況下,極速體驗(yàn)?zāi)P湍芰Ατ谝L期使用的實(shí)名制用戶,火山方舟簡化了模型接入鏈路,無需多頁面跳轉(zhuǎn),2分鐘即可完成模型接入。在安心推理體驗(yàn)?zāi)J较拢鹕椒街鄄粫鲃酉母顿M(fèi)資源,并支持按模型分配tokens。
火山方舟推出了兩種離線批量推理方案。其一,從存儲中批量讀取數(shù)據(jù),以進(jìn)行離線推理;其二,直接調(diào)用類似于在線聊天的模型接口,對批量請求的動態(tài)負(fù)載實(shí)施精準(zhǔn)控制,幾分鐘便可完成開發(fā)適配。
針對每個用戶,火山方舟提供每日不少于100億個token的批量推理額度,并提供更低價格。相比在線推理,批量推理的價格降低了50%;如果使用前綴緩存,命中部分價格再降40%;存儲費(fèi)用為0元。
火山方舟還提供超低延遲的小時級推理保障包。用戶可依據(jù)業(yè)務(wù)實(shí)際流量曲線來精細(xì)地規(guī)劃所需資源,無需為業(yè)務(wù)低谷期付費(fèi),從而節(jié)約成本節(jié)約。例如,Deepseek-R1的推理保障包能穩(wěn)定提供20ms的每token延遲,豆包1.5 Pro的推理保障包可將推理延遲降低到15ms。
極致的性能是充沛算力、深度技術(shù)優(yōu)化、系統(tǒng)調(diào)度能力的乘積。火山方舟用充沛的資源和先進(jìn)的系統(tǒng)工程能力,提供高并發(fā)算力保障和極致的服務(wù)體驗(yàn)。在多方測評中,火山方舟Deepseek-R1服務(wù)始終保持最低的延遲表現(xiàn)。
這得益于火山方舟多年來在算子層、框架層和調(diào)度層開展的深度優(yōu)化工作:通過Prefill Decode分離式部署(即PD分離)、存算分離、kernel優(yōu)化、秒速擴(kuò)容等技術(shù),在異構(gòu)硬件協(xié)同優(yōu)化與通信開銷中實(shí)現(xiàn)極致性能,確保方舟推理既快速又穩(wěn)定。
有模型定制、部署及推理需求的企業(yè)客戶,可以使用火山引擎機(jī)器學(xué)習(xí)平臺。該平臺與方舟共享相同的大模型推理引擎,具備業(yè)內(nèi)領(lǐng)先的生產(chǎn)級可用的PD分離、分布式KV Cache能力。
火山方舟機(jī)器學(xué)習(xí)平臺突破了傳統(tǒng)部署的復(fù)雜流程,通過預(yù)置模型和鏡像以及PD分離部署方式,僅需1- 3分鐘即可一鍵啟動預(yù)置模型服務(wù),完成DeepSeek推理集群的部署。
憑借高性能文本推理框架xLLM以及分布式系統(tǒng)優(yōu)化,機(jī)器學(xué)習(xí)平臺將TPOT(吐字間隔)優(yōu)化至20ms。 在使用兩臺8卡H20的情況下,xLLM推理性能在DeepSeek-R1 671B模型上,相較于開源SGLang方案實(shí)現(xiàn)了4.5倍的吞吐量(tokens/s)提升,同時每token延遲降低至1/3。
基于自研DiT推理框架veFuser,該平臺可在15秒內(nèi)生成一個5秒480P的視頻,相比行業(yè)平均水平,推理效率提升4.5倍。
火山方舟還提供全周期安全可信方案,通過鏈路全加密、數(shù)據(jù)高保密、環(huán)境強(qiáng)隔離、操作可審計四個安全模塊,確保會話無痕。
火山方舟應(yīng)用實(shí)驗(yàn)室為客戶和開發(fā)者提供完整的場景化解決方案和完整的源代碼:面向應(yīng)用插件、多模態(tài)、終端等場景,提供超過20個開源應(yīng)用;面向具有專業(yè)開發(fā)能力的企業(yè)開發(fā)者,提供大模型應(yīng)用開發(fā)所需的工具集和流程集,支持快速開發(fā)和定制匹配業(yè)務(wù)場景的大模型相關(guān)應(yīng)用;支持超過60個大模型產(chǎn)品,用戶可輕松將方舟大模型集成到主流軟件。
火山方舟應(yīng)用實(shí)驗(yàn)室廣場還有非常多有趣的應(yīng)用,比如幫助網(wǎng)店運(yùn)營的智能導(dǎo)購、豆包模型與DeepSeek協(xié)作的長期記憶方案、整合多模態(tài)和硬件能力的實(shí)時對話AI硬件、提供標(biāo)準(zhǔn)化解題鏈路的教師分身等。
四、Data Agent助攻企業(yè)挖掘數(shù)據(jù)資產(chǎn),新版Trae接入豆包深度思考模型
Data Agent是火山引擎推出的企業(yè)數(shù)據(jù)全場景智能體。它就像一個企業(yè)級AI數(shù)字專家,具備主動思考、洞察、分析、行動能力,可深入幫助企業(yè)挖掘數(shù)據(jù)資產(chǎn)價值,功能覆蓋數(shù)據(jù)分析、智能營銷等關(guān)鍵領(lǐng)域。
在數(shù)據(jù)分析上,Data Agent能融合企業(yè)內(nèi)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),結(jié)合聯(lián)網(wǎng)知識,精準(zhǔn)理解業(yè)務(wù)需求,快速生成專業(yè)深度研究報告。
通過自動化制定分析方案、追溯指標(biāo)波動、運(yùn)用自助分析工具及搭建預(yù)警系統(tǒng),Data Agent實(shí)現(xiàn)數(shù)據(jù)處理全流程智能化,可將復(fù)雜報表生成的時間從2天縮短至30分鐘,顯著提升數(shù)據(jù)獲取與決策效率。
在智能營銷領(lǐng)域,Data Agent實(shí)現(xiàn)從策略制定到執(zhí)行優(yōu)化的全鏈路閉環(huán)管理,高效完成人群圈選與策略拆解,基于個性化引擎實(shí)現(xiàn)精準(zhǔn)營銷。
此外,其智能會話輔助與自動復(fù)盤優(yōu)化功能,可不斷提升轉(zhuǎn)化率與客戶滿意度,動態(tài)迭代營銷策略。
打造高智商的智能體,不是一次性搭建的靜態(tài)結(jié)果,而是數(shù)據(jù)、模型、工程、業(yè)務(wù)動態(tài)耦合的持續(xù)迭代過程。因此,智能體還需要持續(xù)的全生命周期管理。HiAgent發(fā)布的Agent Devops體系,打通了從開發(fā)、運(yùn)營調(diào)優(yōu)到用戶使用的全鏈路。
通過統(tǒng)一的AI交互入口,企業(yè)員工可以更好地使用更多的智能體。比如企業(yè)的管理員可登錄HiAgent,選擇要發(fā)布的智能體。發(fā)布后,員工可根據(jù)意圖和需要,喚醒和使用不同的助手,如任務(wù)助手、差旅助手、報銷助手、會議助手等。隨著員工更多使用智能體,企業(yè)也能夠積累越來越多的數(shù)據(jù)和用戶的行為偏好,讓AI越來越懂企業(yè),越用越聰明。
最新版本的Agent Devops近期全面適配MCP協(xié)議,提供了更好的開放性,也集成了火山引擎安全防火墻,提供了更好的安全加固能力。此外,火山引擎還基于自身以及客戶、合作伙伴共同沉淀的知識與實(shí)踐,打造了一套HiAgent應(yīng)用樣板間,以幫助客戶快速搭建好貼合業(yè)務(wù)屬性的智能體。
為幫助開發(fā)者更便捷地利用AI提升開發(fā)效率,國內(nèi)首款A(yù)I原生IDE產(chǎn)品Trae也帶來多個重點(diǎn)功能升級,例如統(tǒng)一的AI對話面板(所有交互僅需一個對話框)、支持自定義@Agent(構(gòu)建專屬AI團(tuán)隊)、新增聯(lián)網(wǎng)搜索 #Web和文檔 #Doc 的上下文理解類型(AI執(zhí)行需求更準(zhǔn)確高效)、通過MCP讓AI主動調(diào)用外部工具等。
目前,Trae已配置豆包1.5·深度思考模型(Doubao-1.5-thinking-pro),基于模型主動深度思考和20毫秒極低延遲,讓代碼生成的質(zhì)量更好、效率更高。
Trae團(tuán)隊預(yù)測未來會有兩個主要趨勢:一是復(fù)雜度上,隨著模型能力增強(qiáng),AI編程會從復(fù)雜度較低的代碼片段生成,往復(fù)雜度更高的軟件生成、項目生成方向演進(jìn);二是交互邏輯上,AI編程會從原先在IDE等工具里嵌入AI方式,逐漸往AI使用各種工具來實(shí)現(xiàn)軟件各種各樣的開發(fā)需求。
后續(xù),Trae將逐步開放智能體的一些底層能力,支持開發(fā)者做更深層次的自定義專屬智能體,并將提供更好的人與AI協(xié)作機(jī)制,來激發(fā)人的創(chuàng)作,同時發(fā)揮AI的生產(chǎn)力。
五、豆包大模型產(chǎn)業(yè)落地加速,為游戲、醫(yī)藥行業(yè)拓界增效
豆包大模型已在汽車、智能終端、互聯(lián)網(wǎng)、金融、教育科研、零售消費(fèi)等行業(yè)廣泛落地,覆蓋4億終端設(shè)備、八成主流車企、70%系統(tǒng)重要性銀行和數(shù)十家證券基金公司、近七成的C9頂級高校和100多家科研院所。
在游戲行業(yè),巨人網(wǎng)絡(luò)正在借助大模型能力重塑游戲體驗(yàn)和玩法創(chuàng)新。通過火山方舟接入豆包大模型及DeepSeek,巨人網(wǎng)絡(luò)今年3月在旗下《太空殺》中推出Al原生游戲玩法“內(nèi)鬼挑戰(zhàn)”,通過接入火山方舟DeepSeek-R1及豆包大模型的深度思考等能力,打造AI玩家,與真實(shí)玩家進(jìn)行實(shí)時策略對抗,重新定義了社交推理游戲的智能邊界。
同時,《原始征途》也接入大模型能力打造AI智能NPC“小師妹”,在游戲策略指導(dǎo)、情感陪伴等方面提供更智能、更人性化的交互體驗(yàn),顯著提升了玩家粘性。
此外,借助火山引擎機(jī)器學(xué)習(xí)平臺所提供的大模型訓(xùn)練及資源保障,巨人網(wǎng)絡(luò)亦推進(jìn)了自研視頻生成大模型、游戲音效生成大模型的迭代優(yōu)化。
在醫(yī)療行業(yè),禮來制藥搭建了專屬AI應(yīng)用開發(fā)平臺,支撐從藥物研發(fā)到疾病診療的全場景創(chuàng)新。
通過可視化的拖拉拽工作流編排,禮來制藥搭建了HCP Chatbot、地區(qū)經(jīng)理輔導(dǎo)報告等智能體,在學(xué)術(shù)溝通、銷售培訓(xùn)、疾病教育等多個場景中形成應(yīng)用,實(shí)現(xiàn)了企業(yè)AI資產(chǎn)的沉淀與持續(xù)化運(yùn)營。
六、全鏈路、全場景AI云原生推理套件,幫助企業(yè)加速AI轉(zhuǎn)型與升級
隨著DeepSeek熱度高漲,火山引擎MaaS流量也迎來了新一輪增長。當(dāng)前火山引擎MaaS服務(wù)所服務(wù)的Deepseek和豆包大模型,支持了每天峰值千卡級別的GPU彈性能力、500萬初始TPM(每分鐘token數(shù))、超過3萬的RPM(每分鐘請求數(shù)),日均Tokens使用量達(dá)到12.7萬億。
火山引擎AI云原生推理套件相關(guān)產(chǎn)品為這些能力提供了支持。
在第三方測評排行榜上,火山引擎DeepSeek服務(wù)在首token、推理速度、生成速度上均表現(xiàn)最優(yōu),在同樣硬件資源上運(yùn)行DeepSeek-R1滿血版,相比開源SGLang,可將TPS吞吐提升5倍,GPU使用成本降低80%。
對于不同的模型,火山引擎提供了多樣化的接入和使用方式,包括方舟MaaS平臺、機(jī)器學(xué)習(xí)平臺、AI云原生推理套件。
面向大模型推理的AI云原生推理套件ServingKit,能夠幫助企業(yè)實(shí)現(xiàn)從模型部署、推理到運(yùn)維的全鏈路提效。
在部署階段,鏡像下載和加載的加速服務(wù),使得首次部署和擴(kuò)容階段能快速拉起業(yè)務(wù)進(jìn)行業(yè)務(wù)發(fā)展。Onion鏡像權(quán)重加速引擎可實(shí)現(xiàn)DeepSeek-R1滿血版模型109秒下載、40秒緩存預(yù)熱、13秒權(quán)重加載。
在推理階段,通過GPU算子加速器、APIG AI網(wǎng)關(guān)、VKE編排調(diào)度、KVCache緩存服務(wù)等能力升級,來優(yōu)化推理性能。其中算子優(yōu)化后,R1滿血版的TPS提升了2.4倍;智能路由可以TTFT降低60%;KVCache在長文本推理場景,KVCache命中率相比GPU Local提升了10倍。
在運(yùn)維階段,觀測平臺APM和VMP全面升級,支持推理業(yè)務(wù)無侵入式透明埋點(diǎn),從資源層到推理業(yè)務(wù)層實(shí)現(xiàn)全鏈路、全場景的觀測指標(biāo)覆蓋。
火山引擎與英特爾合作,通過“云實(shí)例+鏡像”的方式,提供一個低門檻、高效率的大模型開發(fā)入場券,并將持續(xù)提升大模型部署效率、降低算力成本。
結(jié)語:從模型矩陣到智能體工具,推動AI應(yīng)用落地普及
根據(jù)火山引擎副總裁張鑫的分享,企業(yè)應(yīng)在AI落地過程中走好業(yè)務(wù)價值、模型基建、智能體應(yīng)用三段旅程。業(yè)務(wù)價值可分階段實(shí)現(xiàn),首先是達(dá)成戰(zhàn)略共識(-1→0),然后選擇技術(shù)成熟度高、數(shù)據(jù)就緒度高、業(yè)務(wù)價值明顯的場景進(jìn)行場景驗(yàn)證(0→1),在此過程中逐漸構(gòu)建自己的AI能力中心和沉淀企業(yè)知識庫,為后續(xù)實(shí)現(xiàn)擴(kuò)量復(fù)制(1→N)、價值重構(gòu)(N→∞)打好基礎(chǔ)。
在整段旅程中,企業(yè)要構(gòu)建的核心競爭力,來源于結(jié)合AI做到極致的產(chǎn)品體驗(yàn)設(shè)計,沉淀企業(yè)獨(dú)有的領(lǐng)域知識庫甚至專業(yè)模型,打造面向AI的人才組織和文化。
技術(shù)落地的過程遠(yuǎn)不止引入一個大模型那么簡單,而是包含多個不同維度,涉及模型選擇、效果評估、數(shù)據(jù)知識工程、算力準(zhǔn)備、開發(fā)平臺搭建、模型接入、效果評估、模型基建的落地旅程、數(shù)據(jù)知識工程、算力準(zhǔn)備、開發(fā)平臺搭建、模型接入、效果調(diào)優(yōu)、性能安全測試等環(huán)節(jié)。
火山引擎計劃以更全面的模型矩陣、更豐富的智能體工具,幫助企業(yè)打通從業(yè)務(wù)到智能體的應(yīng)用鏈路,進(jìn)一步推動AI普及,希望與更多企業(yè)一起將AI科技落地的方式從以前的手工編寫“Hello World”代碼變成更輕松的對Agent Say “Hi”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.