火山引擎密集上新：豆包全新視頻生成模型、視覺深度思考模型，Trae多個重點(diǎn)功能升級

2025-05-14 18:21:56　來源: 智東西

北京舉報

分享至

智東西
作者 ZeR0
編輯漠影

智東西5月14日報道，在5月13日的火山引擎AI創(chuàng)新巡展·上海站活動上，火山引擎曬出大模型全景圖，發(fā)布豆包·視頻生成模型Seedance 1.0 lite、豆包1.5·視覺深度思考模型，升級豆包·音樂模型。同時，Data Agent正式亮相，國內(nèi)首款A(yù)I原生IDE產(chǎn)品Trae接入豆包深度思考模型并升級多個重點(diǎn)功能。

目前，火山方舟已覆蓋語言、深度思考、視覺理解、視覺、語音、GUI Agent等多類模型。

火山引擎副總裁張鑫在會上談道，模型、算力、數(shù)據(jù)、安全構(gòu)成了AI時代的新基建，火山引擎同時對外提供這“四要素”：

模型方面，豆包大模型支撐了50多個內(nèi)部真實(shí)場景、30多個行業(yè)外部企業(yè)共創(chuàng)，截至4月份，日均tokens調(diào)用量超過12.7萬億。

算力方面，火山引擎AI云原生提供了強(qiáng)有力的系統(tǒng)承載力，包括充沛算力、推理層優(yōu)化、系統(tǒng)調(diào)度能力的乘積。

數(shù)據(jù)方面，數(shù)據(jù)飛輪2.0和Data Agent，讓用戶可以基于動態(tài)的多模態(tài)數(shù)據(jù)湖，以智能重塑數(shù)據(jù)關(guān)系。

安全方面，大模型安全方案提供PCC私密云計算平臺，可解決端云協(xié)同計算過程中的數(shù)據(jù)泄露問題，并通過大模型防火墻消除一系列攻擊隱患。

一、視頻生成模型：效果好、生成快、更便宜

新發(fā)布的豆包視頻生成模型Seedance 1.0 lite，支持文生視頻、圖生視頻，視頻生成時長支持5s、10s，分辨率提供480P、720P。

企業(yè)用戶可在火山方舟平臺使用該模型API，個人用戶也可在豆包App、即夢體驗(yàn)。

作為豆包視頻生成模型系列的小參數(shù)量版本，Seedance 1.0 lite模型實(shí)現(xiàn)了兩大突破：影視級的視頻生成質(zhì)量、視頻生成速度大幅提升，兼顧效果、速度、性價比。

（1）更精準(zhǔn)的指令遵循：通過強(qiáng)大的語義理解，可精細(xì)控制人物外貌氣質(zhì)、衣著風(fēng)格、表情動作等，并在多主體動作解析、嵌入式文本響應(yīng)、程度副詞和鏡頭切換響應(yīng)方面具有優(yōu)勢。

（2）更豐富的影視級運(yùn)鏡：支持360度環(huán)繞、航拍、變焦、平移、跟隨、手持等多種鏡頭語言，具備細(xì)膩高清的基礎(chǔ)畫質(zhì)和影視級美感。

（3）更合理的運(yùn)動交互：分析動作時序與空間關(guān)系，提升人物、物體間自然流暢的交互動作，運(yùn)動軌跡、受力反饋更加契合現(xiàn)實(shí)規(guī)律。

Seedance 1.0 lite模型可廣泛應(yīng)用于電商廣告、娛樂特效、影視創(chuàng)作、動態(tài)壁紙等場景。例如在電商領(lǐng)域，該模型可幫助商家快速生成高質(zhì)量的營銷視頻素材，精準(zhǔn)匹配產(chǎn)品展示、活動推廣等場景，降低制作成本與周期。

二、豆包1.5·視覺深度思考模型：在60項評測中取得38項第一

新發(fā)布的豆包1.5·視覺深度思考模型（Doubao-1.5-thinking-vision-pro），激活參數(shù)僅20B，但具備強(qiáng)大的多模態(tài)理解和推理能力，在60個公開評測基準(zhǔn)中有38個取得SOTA表現(xiàn)，在視頻理解、視覺推理、GUI Agent能力等方面均處于第一梯隊。該模型已在火山方舟上線。

在視頻理解方面，豆包1.5·視覺深度思考模型支持動態(tài)幀率采樣，視頻時序定位能力顯著增強(qiáng)，結(jié)合向量搜索，可精準(zhǔn)定位視頻中與文本描述相對應(yīng)的片段。

同時，該模型新增視頻深度思考能力，學(xué)習(xí)了數(shù)萬億多模態(tài)標(biāo)記數(shù)據(jù)，掌握廣泛視覺知識，結(jié)合強(qiáng)化學(xué)習(xí)，使視覺推理能力大幅提升。例如，在復(fù)雜的圖形推理題中，模型提出假設(shè)，進(jìn)行推理檢驗(yàn)，當(dāng)發(fā)現(xiàn)和假設(shè)不一樣時，還能進(jìn)行不斷反思，提出新的猜測，直到得出正確答案。

豆包1.5·視覺深度思考模型還新增了GUI Agent能力，基于強(qiáng)大的GUI定位性能，可在PC端、手機(jī)端等不同環(huán)境中完成復(fù)雜交互任務(wù)，例如可對新開發(fā)的App功能進(jìn)行自動化檢測。該功能已應(yīng)用于字節(jié)跳動多款A(yù)pp產(chǎn)品的開發(fā)測試中。

去年，火山引擎推出了豆包·音樂模型。基于該模型，用戶僅通過一張圖、一句話，就能創(chuàng)作10多種不同風(fēng)格的高品質(zhì)音樂。此次大會上，豆包·音樂模型升級，不僅支持英文歌曲創(chuàng)作，還可以通過理解視頻，自動適配純音樂BGM。

豆包·音樂模型已全量上線，個人和企業(yè)用戶可在海綿音樂、火山引擎官網(wǎng)體驗(yàn)。

三、火山方舟：免登錄，低價推理，3分鐘搞定DeepSeek滿血版部署

火山引擎旗下的一站式大模型服務(wù)平臺火山方舟，提供了語言、視覺、語音等模型的精調(diào)、推理、評測等功能與服務(wù)，通過豐富的插件生態(tài)和安全可信的方案，讓企業(yè)及開發(fā)者的AI應(yīng)用更易落地。

開發(fā)者可在免登錄的情況下，極速體驗(yàn)?zāi)Ｐ湍芰Ατ谝L期使用的實(shí)名制用戶，火山方舟簡化了模型接入鏈路，無需多頁面跳轉(zhuǎn)，2分鐘即可完成模型接入。在安心推理體驗(yàn)?zāi)Ｊ较拢鹕椒街鄄粫鲃酉母顿M(fèi)資源，并支持按模型分配tokens。

火山方舟推出了兩種離線批量推理方案。其一，從存儲中批量讀取數(shù)據(jù)，以進(jìn)行離線推理；其二，直接調(diào)用類似于在線聊天的模型接口，對批量請求的動態(tài)負(fù)載實(shí)施精準(zhǔn)控制，幾分鐘便可完成開發(fā)適配。

針對每個用戶，火山方舟提供每日不少于100億個token的批量推理額度，并提供更低價格。相比在線推理，批量推理的價格降低了50%；如果使用前綴緩存，命中部分價格再降40%；存儲費(fèi)用為0元。

火山方舟還提供超低延遲的小時級推理保障包。用戶可依據(jù)業(yè)務(wù)實(shí)際流量曲線來精細(xì)地規(guī)劃所需資源，無需為業(yè)務(wù)低谷期付費(fèi)，從而節(jié)約成本節(jié)約。例如，Deepseek-R1的推理保障包能穩(wěn)定提供20ms的每token延遲，豆包1.5 Pro的推理保障包可將推理延遲降低到15ms。

極致的性能是充沛算力、深度技術(shù)優(yōu)化、系統(tǒng)調(diào)度能力的乘積。火山方舟用充沛的資源和先進(jìn)的系統(tǒng)工程能力，提供高并發(fā)算力保障和極致的服務(wù)體驗(yàn)。在多方測評中，火山方舟Deepseek-R1服務(wù)始終保持最低的延遲表現(xiàn)。

這得益于火山方舟多年來在算子層、框架層和調(diào)度層開展的深度優(yōu)化工作：通過Prefill Decode分離式部署（即PD分離）、存算分離、kernel優(yōu)化、秒速擴(kuò)容等技術(shù)，在異構(gòu)硬件協(xié)同優(yōu)化與通信開銷中實(shí)現(xiàn)極致性能，確保方舟推理既快速又穩(wěn)定。

有模型定制、部署及推理需求的企業(yè)客戶，可以使用火山引擎機(jī)器學(xué)習(xí)平臺。該平臺與方舟共享相同的大模型推理引擎，具備業(yè)內(nèi)領(lǐng)先的生產(chǎn)級可用的PD分離、分布式KV Cache能力。

火山方舟機(jī)器學(xué)習(xí)平臺突破了傳統(tǒng)部署的復(fù)雜流程，通過預(yù)置模型和鏡像以及PD分離部署方式，僅需1- 3分鐘即可一鍵啟動預(yù)置模型服務(wù)，完成DeepSeek推理集群的部署。

憑借高性能文本推理框架xLLM以及分布式系統(tǒng)優(yōu)化，機(jī)器學(xué)習(xí)平臺將TPOT（吐字間隔）優(yōu)化至20ms。在使用兩臺8卡H20的情況下，xLLM推理性能在DeepSeek-R1 671B模型上，相較于開源SGLang方案實(shí)現(xiàn)了4.5倍的吞吐量（tokens/s）提升，同時每token延遲降低至1/3。

基于自研DiT推理框架veFuser，該平臺可在15秒內(nèi)生成一個5秒480P的視頻，相比行業(yè)平均水平，推理效率提升4.5倍。

火山方舟還提供全周期安全可信方案，通過鏈路全加密、數(shù)據(jù)高保密、環(huán)境強(qiáng)隔離、操作可審計四個安全模塊，確保會話無痕。

火山方舟應(yīng)用實(shí)驗(yàn)室為客戶和開發(fā)者提供完整的場景化解決方案和完整的源代碼：面向應(yīng)用插件、多模態(tài)、終端等場景，提供超過20個開源應(yīng)用；面向具有專業(yè)開發(fā)能力的企業(yè)開發(fā)者，提供大模型應(yīng)用開發(fā)所需的工具集和流程集，支持快速開發(fā)和定制匹配業(yè)務(wù)場景的大模型相關(guān)應(yīng)用；支持超過60個大模型產(chǎn)品，用戶可輕松將方舟大模型集成到主流軟件。

火山方舟應(yīng)用實(shí)驗(yàn)室廣場還有非常多有趣的應(yīng)用，比如幫助網(wǎng)店運(yùn)營的智能導(dǎo)購、豆包模型與DeepSeek協(xié)作的長期記憶方案、整合多模態(tài)和硬件能力的實(shí)時對話AI硬件、提供標(biāo)準(zhǔn)化解題鏈路的教師分身等。

四、Data Agent助攻企業(yè)挖掘數(shù)據(jù)資產(chǎn)，新版Trae接入豆包深度思考模型

Data Agent是火山引擎推出的企業(yè)數(shù)據(jù)全場景智能體。它就像一個企業(yè)級AI數(shù)字專家，具備主動思考、洞察、分析、行動能力，可深入幫助企業(yè)挖掘數(shù)據(jù)資產(chǎn)價值，功能覆蓋數(shù)據(jù)分析、智能營銷等關(guān)鍵領(lǐng)域。

在數(shù)據(jù)分析上，Data Agent能融合企業(yè)內(nèi)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)，結(jié)合聯(lián)網(wǎng)知識，精準(zhǔn)理解業(yè)務(wù)需求，快速生成專業(yè)深度研究報告。

通過自動化制定分析方案、追溯指標(biāo)波動、運(yùn)用自助分析工具及搭建預(yù)警系統(tǒng)，Data Agent實(shí)現(xiàn)數(shù)據(jù)處理全流程智能化，可將復(fù)雜報表生成的時間從2天縮短至30分鐘，顯著提升數(shù)據(jù)獲取與決策效率。

在智能營銷領(lǐng)域，Data Agent實(shí)現(xiàn)從策略制定到執(zhí)行優(yōu)化的全鏈路閉環(huán)管理，高效完成人群圈選與策略拆解，基于個性化引擎實(shí)現(xiàn)精準(zhǔn)營銷。

此外，其智能會話輔助與自動復(fù)盤優(yōu)化功能，可不斷提升轉(zhuǎn)化率與客戶滿意度，動態(tài)迭代營銷策略。

打造高智商的智能體，不是一次性搭建的靜態(tài)結(jié)果，而是數(shù)據(jù)、模型、工程、業(yè)務(wù)動態(tài)耦合的持續(xù)迭代過程。因此，智能體還需要持續(xù)的全生命周期管理。HiAgent發(fā)布的Agent Devops體系，打通了從開發(fā)、運(yùn)營調(diào)優(yōu)到用戶使用的全鏈路。

通過統(tǒng)一的AI交互入口，企業(yè)員工可以更好地使用更多的智能體。比如企業(yè)的管理員可登錄HiAgent，選擇要發(fā)布的智能體。發(fā)布后，員工可根據(jù)意圖和需要，喚醒和使用不同的助手，如任務(wù)助手、差旅助手、報銷助手、會議助手等。隨著員工更多使用智能體，企業(yè)也能夠積累越來越多的數(shù)據(jù)和用戶的行為偏好，讓AI越來越懂企業(yè)，越用越聰明。

最新版本的Agent Devops近期全面適配MCP協(xié)議，提供了更好的開放性，也集成了火山引擎安全防火墻，提供了更好的安全加固能力。此外，火山引擎還基于自身以及客戶、合作伙伴共同沉淀的知識與實(shí)踐，打造了一套HiAgent應(yīng)用樣板間，以幫助客戶快速搭建好貼合業(yè)務(wù)屬性的智能體。

為幫助開發(fā)者更便捷地利用AI提升開發(fā)效率，國內(nèi)首款A(yù)I原生IDE產(chǎn)品Trae也帶來多個重點(diǎn)功能升級，例如統(tǒng)一的AI對話面板（所有交互僅需一個對話框）、支持自定義@Agent（構(gòu)建專屬AI團(tuán)隊）、新增聯(lián)網(wǎng)搜索 #Web和文檔 #Doc 的上下文理解類型（AI執(zhí)行需求更準(zhǔn)確高效）、通過MCP讓AI主動調(diào)用外部工具等。

目前，Trae已配置豆包1.5·深度思考模型（Doubao-1.5-thinking-pro），基于模型主動深度思考和20毫秒極低延遲，讓代碼生成的質(zhì)量更好、效率更高。

Trae團(tuán)隊預(yù)測未來會有兩個主要趨勢：一是復(fù)雜度上，隨著模型能力增強(qiáng)，AI編程會從復(fù)雜度較低的代碼片段生成，往復(fù)雜度更高的軟件生成、項目生成方向演進(jìn)；二是交互邏輯上，AI編程會從原先在IDE等工具里嵌入AI方式，逐漸往AI使用各種工具來實(shí)現(xiàn)軟件各種各樣的開發(fā)需求。

后續(xù)，Trae將逐步開放智能體的一些底層能力，支持開發(fā)者做更深層次的自定義專屬智能體，并將提供更好的人與AI協(xié)作機(jī)制，來激發(fā)人的創(chuàng)作，同時發(fā)揮AI的生產(chǎn)力。

五、豆包大模型產(chǎn)業(yè)落地加速，為游戲、醫(yī)藥行業(yè)拓界增效

豆包大模型已在汽車、智能終端、互聯(lián)網(wǎng)、金融、教育科研、零售消費(fèi)等行業(yè)廣泛落地，覆蓋4億終端設(shè)備、八成主流車企、70%系統(tǒng)重要性銀行和數(shù)十家證券基金公司、近七成的C9頂級高校和100多家科研院所。

在游戲行業(yè)，巨人網(wǎng)絡(luò)正在借助大模型能力重塑游戲體驗(yàn)和玩法創(chuàng)新。通過火山方舟接入豆包大模型及DeepSeek，巨人網(wǎng)絡(luò)今年3月在旗下《太空殺》中推出Al原生游戲玩法“內(nèi)鬼挑戰(zhàn)”，通過接入火山方舟DeepSeek-R1及豆包大模型的深度思考等能力，打造AI玩家，與真實(shí)玩家進(jìn)行實(shí)時策略對抗，重新定義了社交推理游戲的智能邊界。

同時，《原始征途》也接入大模型能力打造AI智能NPC“小師妹”，在游戲策略指導(dǎo)、情感陪伴等方面提供更智能、更人性化的交互體驗(yàn)，顯著提升了玩家粘性。

此外，借助火山引擎機(jī)器學(xué)習(xí)平臺所提供的大模型訓(xùn)練及資源保障，巨人網(wǎng)絡(luò)亦推進(jìn)了自研視頻生成大模型、游戲音效生成大模型的迭代優(yōu)化。

在醫(yī)療行業(yè)，禮來制藥搭建了專屬AI應(yīng)用開發(fā)平臺，支撐從藥物研發(fā)到疾病診療的全場景創(chuàng)新。

通過可視化的拖拉拽工作流編排，禮來制藥搭建了HCP Chatbot、地區(qū)經(jīng)理輔導(dǎo)報告等智能體，在學(xué)術(shù)溝通、銷售培訓(xùn)、疾病教育等多個場景中形成應(yīng)用，實(shí)現(xiàn)了企業(yè)AI資產(chǎn)的沉淀與持續(xù)化運(yùn)營。

六、全鏈路、全場景AI云原生推理套件，幫助企業(yè)加速AI轉(zhuǎn)型與升級

隨著DeepSeek熱度高漲，火山引擎MaaS流量也迎來了新一輪增長。當(dāng)前火山引擎MaaS服務(wù)所服務(wù)的Deepseek和豆包大模型，支持了每天峰值千卡級別的GPU彈性能力、500萬初始TPM（每分鐘token數(shù)）、超過3萬的RPM（每分鐘請求數(shù)），日均Tokens使用量達(dá)到12.7萬億。

火山引擎AI云原生推理套件相關(guān)產(chǎn)品為這些能力提供了支持。

在第三方測評排行榜上，火山引擎DeepSeek服務(wù)在首token、推理速度、生成速度上均表現(xiàn)最優(yōu)，在同樣硬件資源上運(yùn)行DeepSeek-R1滿血版，相比開源SGLang，可將TPS吞吐提升5倍，GPU使用成本降低80%。

對于不同的模型，火山引擎提供了多樣化的接入和使用方式，包括方舟MaaS平臺、機(jī)器學(xué)習(xí)平臺、AI云原生推理套件。

面向大模型推理的AI云原生推理套件ServingKit，能夠幫助企業(yè)實(shí)現(xiàn)從模型部署、推理到運(yùn)維的全鏈路提效。

在部署階段，鏡像下載和加載的加速服務(wù)，使得首次部署和擴(kuò)容階段能快速拉起業(yè)務(wù)進(jìn)行業(yè)務(wù)發(fā)展。Onion鏡像權(quán)重加速引擎可實(shí)現(xiàn)DeepSeek-R1滿血版模型109秒下載、40秒緩存預(yù)熱、13秒權(quán)重加載。

在推理階段，通過GPU算子加速器、APIG AI網(wǎng)關(guān)、VKE編排調(diào)度、KVCache緩存服務(wù)等能力升級，來優(yōu)化推理性能。其中算子優(yōu)化后，R1滿血版的TPS提升了2.4倍；智能路由可以TTFT降低60%；KVCache在長文本推理場景，KVCache命中率相比GPU Local提升了10倍。

在運(yùn)維階段，觀測平臺APM和VMP全面升級，支持推理業(yè)務(wù)無侵入式透明埋點(diǎn)，從資源層到推理業(yè)務(wù)層實(shí)現(xiàn)全鏈路、全場景的觀測指標(biāo)覆蓋。

火山引擎與英特爾合作，通過“云實(shí)例+鏡像”的方式，提供一個低門檻、高效率的大模型開發(fā)入場券，并將持續(xù)提升大模型部署效率、降低算力成本。

結(jié)語：從模型矩陣到智能體工具，推動AI應(yīng)用落地普及

根據(jù)火山引擎副總裁張鑫的分享，企業(yè)應(yīng)在AI落地過程中走好業(yè)務(wù)價值、模型基建、智能體應(yīng)用三段旅程。業(yè)務(wù)價值可分階段實(shí)現(xiàn)，首先是達(dá)成戰(zhàn)略共識（-1→0），然后選擇技術(shù)成熟度高、數(shù)據(jù)就緒度高、業(yè)務(wù)價值明顯的場景進(jìn)行場景驗(yàn)證（0→1），在此過程中逐漸構(gòu)建自己的AI能力中心和沉淀企業(yè)知識庫，為后續(xù)實(shí)現(xiàn)擴(kuò)量復(fù)制（1→N）、價值重構(gòu)（N→∞）打好基礎(chǔ)。

在整段旅程中，企業(yè)要構(gòu)建的核心競爭力，來源于結(jié)合AI做到極致的產(chǎn)品體驗(yàn)設(shè)計，沉淀企業(yè)獨(dú)有的領(lǐng)域知識庫甚至專業(yè)模型，打造面向AI的人才組織和文化。

技術(shù)落地的過程遠(yuǎn)不止引入一個大模型那么簡單，而是包含多個不同維度，涉及模型選擇、效果評估、數(shù)據(jù)知識工程、算力準(zhǔn)備、開發(fā)平臺搭建、模型接入、效果評估、模型基建的落地旅程、數(shù)據(jù)知識工程、算力準(zhǔn)備、開發(fā)平臺搭建、模型接入、效果調(diào)優(yōu)、性能安全測試等環(huán)節(jié)。

火山引擎計劃以更全面的模型矩陣、更豐富的智能體工具，幫助企業(yè)打通從業(yè)務(wù)到智能體的應(yīng)用鏈路，進(jìn)一步推動AI普及，希望與更多企業(yè)一起將AI科技落地的方式從以前的手工編寫“Hello World”代碼變成更輕松的對Agent Say “Hi”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.