大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2025 多模態大一統:斯坦福 x 復旦符號主義建模生成式任務

0
分享至



共同第一作者包括:陳家棋,斯坦福大學訪問學者,復旦大學碩士,研究方向為 LLM Agent和大一統模型;朱小燁,華南理工大學本科,研究方向為 LLM Agent、LLM 和強化學習;王越,康奈爾大學本科,研究方向為 LLM Agent、多模態語言模型。指導老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能內容創作蓬勃發展的今天,跨模態生成技術正在重塑藝術創作和視覺表達的邊界。人們對需求也日趨復雜和多樣,譬如將靜態照片轉化為動態視頻并疊加環境音效,打造沉浸式的多感官體驗。然而,現有生成系統大多受限于訓練數據的覆蓋范圍,或是因復雜的多模型協調而效率低下,難以滿足這些日益增長的創意需求。



問題背景



圖 1用于 Any-to-Any 生成任務的一種符號化描述方法。

「將叢林的狂野生長與古老廢墟的神秘感融合成一個全新的場景,一定會令人驚嘆,」你的藝術家朋友沉思道。「如果還能把這張照片轉換成視頻,再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢幻般的感官體驗。」這些日益復雜、跨模態的創作需求指向了一個根本性挑戰:如何設計一個統一模型,能夠根據自然語言指令,無縫處理任意輸入與輸出模態組合的生成任務?這樣的任務就是該研究關注的「Any-to-Any」生成任務,如圖 2 所示。



圖 2 Any-to-Any 生成任務

當前 Any-to-Any 生成任務的方法主要分為隱式神經建模和智能體方法。隱式神經建模需要大量數據訓練,雖然能處理常見任務,但對新場景適應能力差且生成過程不可控;智能體方法雖然功能靈活但結構復雜,運行不穩定且效率較低。此外,如果人類設計師用 PS 合成圖像時,需要先背誦所有濾鏡組合公式才能操作,還有創意可言嗎?當前許多方法陷入了這種「知識依賴陷阱」——而真正的 Any-to-Any 生成,應該像兒童搭積木:不需要理解木塊分子結構,只需知道它們如何拼接。

于是,研究團隊設想構建一個框架:聚焦于統一的任務表示和語言模型友好的接口,從而實現直接的任務指定。使系統能夠真正理解并執行用戶以自然語言描述的任意生成需求,同時保持執行過程的可控性和可干預性。這一設想從根本上改變了傳統生成模型的實現范式,為構建真正意義上的 Any-to-Any 生成系統提供了新的技術路線。

基于符號化表征的生成任務描述框架

框架設計的核心思路在于對生成任務本質的解構:任何復雜的多模態生成過程,本質上都可以拆解為「做什么」(函數)、「怎么做」(參數)和「執行順序」(拓撲)三個要素。基于這樣的見解,研究提出了 -Language,這是一種正式表示方法,系統地捕捉生成任務的這三個基本組成部分。此外,研究還介紹了一種無需訓練的推理引擎,它利用預訓練的語言模型作為基礎,從輸入指令和指定的關鍵函數中得出符號表示。







圖 3 語法風格比較。

  • 基于預訓練語言模型的符號化流程推斷為使方法靈活而穩健地適應生成任務的多樣性和復雜性,該研究將高層次的任務描述轉化為可執行的符號化流程。如圖 4 所示,提出利用語言模型 (LM) 作為推理引擎,從輸入指令和指定的關鍵函數中得出符號表示。



圖 4 利用語言模型 (LM) 生成符號化表示。

通過三階段處理實現這一目標:組件推斷階段由語言模型解析任務描述,識別所需的函數 (F) 和參數 (Φ);拓撲構建階段基于輸入輸出關系,建立函數間的數據流連接 (T);迭代優化階段通過錯誤反饋循環 (R) 持續修正流程,直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語言描述到可執行工作流程的轉換過程,從而實現了跨模態和跨任務類型的任意轉換。



圖 5 推理和執行的演示。

實驗結果

在實驗中,該研究構建了一個包含 120 個真實世界生成案例的數據集,涵蓋 12 個任務類別,并通過用戶研究和可執行性評估驗證了方法的有效性。

  • 跨模態生成質量評估(用戶研究)

針對不同模態轉換任務進行了系統的用戶評估,以驗證該方法在真實場景下的生成質量。實驗結果顯示,在文本到圖像任務中,該方法對 Show-o 的勝率達 94%;在圖像轉視頻任務中,對商業系統 Gen-3 的勝率達 67%;文本到音頻任務中,對齊度和質量勝率分別達 100% 和 98%。



  • 復雜工作流執行測試(ComfyBench 基準)

為評估方法處理復雜任務的能力,采用包含多步驟工作流的 ComfyBench 進行測試。實驗結果顯示,總體成功率 43%,顯著優于次優方法(32.5%),在復雜任務(如包含 11 個組件的「模型合并」)上表現突出。



  • 消融實驗

消融實驗證實,兩階段推理架構(組件推斷 + 拓撲構建)是系統性能的核心,移除該設計將導致任務完成率下降 35%。



  • 對比實驗:符號化 v.s. 代理化方法

選取了當前最先進的代理框架 GenAgent 作為基線,在相同任務集上進行對比測試。實驗數據顯示,在編譯階段,該方法達到 98% 的通過率,相比代理方法的 84% 顯著提升 ($p \< 0.001$);執行成功率方面,該方法 87% 的表現遠超代理方法的 63%。



  • 表示方法本質研究

針對「神經表示 v.s. 符號表示」這一核心問題,研究設計了控制變量實驗:在相同計算資源下,符號表示的內存占用僅為神經表示的 1/5。任務修改效率測試顯示,修改符號化流程平均耗時 23 秒,而神經方法需要重新訓練(平均 4.2 小時);但在端到端推理速度上,神經方法快 1.8 倍,這揭示了符號方法在實時性上的 trade-off。



  • 顯式流程編輯與錯誤分析

通過對 120 個失敗案例的歸因分析發現,28% 的錯誤源于參數范圍越界,主要體現在跨模態任務中的單位轉換問題;22% 屬于模態不匹配錯誤,多發生在未明確指定輸入輸出類型的場景中;15% 由于函數缺失導致,這反映了現有函數庫仍需擴展。





總結

該研究提出的符號化生成任務描述語言及配套推理引擎,為多模態任務提供了一種無需專門訓練的全新高效解決方案。通過利用預訓練大語言模型將自然語言指令直接轉化為符號化工作流,該方法成功實現了 12 類跨模態生成任務的靈活合成。實驗證明,該框架不僅在生成內容質量上媲美現有的先進統一模型,更在效率、可編輯性和可中斷性等方面展現出顯著優勢。符號化任務表示方法或許能為提升生成式 AI 能力提供一條經濟高效且可擴展的技術路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太洗腦了,全紅嬋把自己的抖音簡介改成了如何呢又能怎

太洗腦了,全紅嬋把自己的抖音簡介改成了如何呢又能怎

懂球帝
2025-06-13 23:56:46
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

明鏡pro
2025-06-14 07:49:02
臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

大笑江湖史
2025-06-14 07:54:53
29歲女子商場遭挾持被捅數刀,靠假體躲過致命一擊!警方:嫌疑人已自殺,案件已結

29歲女子商場遭挾持被捅數刀,靠假體躲過致命一擊!警方:嫌疑人已自殺,案件已結

魯中晨報
2025-06-14 07:26:02
央行:為保持銀行體系流動性充裕,2025年6月16日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展4000億元買斷式逆回購操作,期限為6個月...

央行:為保持銀行體系流動性充裕,2025年6月16日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展4000億元買斷式逆回購操作,期限為6個月...

財聯社
2025-06-13 17:04:11
粉絲母親生病,李維剛按700一頭幫收走160只羊,才知吃草羊沒人要

粉絲母親生病,李維剛按700一頭幫收走160只羊,才知吃草羊沒人要

鋭娛之樂
2025-06-13 13:47:24
買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

毯叔盤錢
2025-06-14 09:17:59
伊朗彈道導彈傾瀉而下,特拉維夫天空火光沖天

伊朗彈道導彈傾瀉而下,特拉維夫天空火光沖天

華人生活網
2025-06-14 03:57:48
網傳五糧液10萬噸基地被堵門!此前有報道稱,該項目調減6000多萬

網傳五糧液10萬噸基地被堵門!此前有報道稱,該項目調減6000多萬

火山詩話
2025-06-14 08:15:51
25名學者學術不端,被集中通報批評

25名學者學術不端,被集中通報批評

極目新聞
2025-06-14 08:35:18
北京多所高校禁用這一品牌充電寶?旗艦店專員回應

北京多所高校禁用這一品牌充電寶?旗艦店專員回應

第一財經資訊
2025-06-14 11:38:18
全部下架!內地頂流奶茶入港一夜翻車?細菌超標,網友:屎尿水

全部下架!內地頂流奶茶入港一夜翻車?細菌超標,網友:屎尿水

史行途
2025-06-13 13:05:08
梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

界史
2025-06-14 10:07:54
伊朗兩噸戰斗部高超音速鉆地彈剛剛試射,會用來空襲以色列核基地么

伊朗兩噸戰斗部高超音速鉆地彈剛剛試射,會用來空襲以色列核基地么

文雅筆墨
2025-06-13 23:06:44
上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上觀新聞
2025-06-14 11:57:34
世界是個巨大的湘雅二醫院,我們都是被標了價格的羅帥宇

世界是個巨大的湘雅二醫院,我們都是被標了價格的羅帥宇

李宇琛
2025-06-13 21:24:13
伊朗發動“真實諾言-3”行動:對以發射數百枚導彈,已致1死50傷,“擊落2架以戰機”!伊最高領袖:將徹底摧毀以色列政權!普京表態

伊朗發動“真實諾言-3”行動:對以發射數百枚導彈,已致1死50傷,“擊落2架以戰機”!伊最高領袖:將徹底摧毀以色列政權!普京表態

每日經濟新聞
2025-06-14 08:37:11
哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

每日經濟新聞
2025-06-14 06:41:13
羅帥宇案,已經不僅僅是醫院的問題了

羅帥宇案,已經不僅僅是醫院的問題了

Mr王的飯后茶
2025-06-13 19:05:44
2025-06-14 13:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
健康
親子
教育
軍事航空

家居要聞

森林幾何 極簡灰調原木風

呼吸科專家破解呼吸道九大謠言!

親子要聞

寶寶害怕吃藥怎么辦?爸爸傳授的冷靜

教育要聞

老師表面喜歡,實則“內心反感”的4種學生,地位還不如倒數差生

軍事要聞

伊朗多名將領、核科學家遇襲身亡 身份披露

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人综合在线视频| 国产农村妇女毛片精品久久| 久久99国产精品尤物| 亚洲欧美色一区二区三区| 亚洲精品一线二线三线无人区| 99精品国产一区二区三区a片| 护士奶头又白又大又好摸视频| 日本一区二区三区爆乳| 亚洲色婷婷一区二区三区| 五十六十日本老熟妇乱| 成av免费大片黄在线观看| 欧洲美女熟乱av| 大屁股熟女白浆一区二区| 亚洲精品字幕在线观看| 国产成人一区二区三区影院动漫| 天堂无码人妻精品一区二区三区| 国产精品9999久久久久仙踪林| 日韩精品少妇无码受不了| 国产成人拍拍拍高潮尖叫| 国产超碰97人人做人人爱| 超级碰97直线国产免费公开| 中文国产成人精品久久app| 国产偷国产偷精品高清尤物| 九九影院午夜理论片少妇| 无码国产精品一区二区高潮| 成人午夜免费无码福利片| 国产在线 | 中文| 51精品国产人成在线观看| 18精品久久久无码午夜福利| 欧美牲交a欧美牲交aⅴ久久| 欧美最猛黑人xxxx黑人猛交| 麻豆成人精品国产免费| 亚洲av中文无码乱人伦在线播放| 夜夜爽77777妓女免费看| 欧美亚洲精品一区二区| 亚洲成av人片无码天堂下载| 成人妇女免费播放久久久| 中文字幕一精品亚洲无线一区| 中文字幕丰满孑伦无码专区| 欧美zozo另类特级| 国产亚洲精品第一综合不卡|