大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

人大聯合值得買科技在CVPR 2025提全新圖像到有聲視頻生成框架

0
分享至




本文介紹工作由中國人民大學高瓴人工智能學院宋睿華團隊、李崇軒、許洪騰與值得買科技 AI 團隊共同完成。第一作者王希華是人大高瓴博士生(導師:宋睿華),他的研究興趣主要在多模態生成,之前提出利用音頻布局(audio layout)為視頻生成同步聲音的TiVA模型,已發表在MM 2024。宋睿華的團隊主要研究方向為多模態理解、生成與交互。

想象一下:只需一張靜態圖片,系統就能自動生成一段「動態的、有聲音的」的短視頻,畫面中的人或物做出自然動作變化的同時,也發出對應的聲音——比如小雞抬頭打鳴、手指按下快門并伴隨咔嚓聲,這正是「圖像轉有聲視頻(Image-to-Sounding-Video, I2SV)」的目標。

近日,來自中國人民大學高瓴人工智能學院與值得買科技 AI 團隊在 CVPR 2025 會議上發表了一項新工作,首次提出了一種從靜態圖像直接生成同步音視頻內容的生成框架。其核心設計 JointDiT(Joint Diffusion Transformer)框架實現了圖像 → 動態視頻 + 聲音的高質量聯合生成。



  • 論文標題:Animate and Sound an Image
  • 項目主頁:https://anonymoushub4ai.github.io/JointDiT

為什么圖像轉有聲視頻是「AI 多模態生成」的新藍海?

人類對世界的感知本質上是多模態的。視覺與聽覺作為最主要的感官通道,通常以協同互補的方式構建起完整的認知體驗——枝葉搖曳伴隨沙沙風聲,浪花飛濺伴隨潮汐轟鳴,這些視聽融合的場景不僅豐富了感官感受,也承載了我們對物理世界深層次的理解。

盡管近年來生成模型在單一模態的內容合成上已取得長足進展,如生成高保真的視頻畫面或自然的音頻片段,但視覺與聽覺這對天然耦合的模態,長期以來卻被拆分為兩條相對獨立的研究路徑,缺乏統一的建模機制。

最近,谷歌在其視頻生成模型 Veo 3 中引入了同步音頻的功能,讓視頻生成真正邁入「有聲時代」,成為行業關注的亮點。與這一趨勢不謀而合,本文首次提出并系統定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務:讓靜態圖像「動」起來的同時,生成與之語義匹配、時間同步的音頻內容。

雖然當前已有技術能夠分別實現從圖像生成視頻或音頻,但將兩者「拼接」在一起往往難以自然融合,常見的問題包括語義錯位與節奏失調:比如視頻中的小狗并未張嘴,卻配上了汪汪的叫聲;又或是吠叫的動作剛發生,聲音卻慢半拍甚至不協調。





圖像生成有聲視頻示例:上:圖生視頻(SVD)+ 圖生音頻(Im2Wav),下:本工作 JointDiT

因此,如何從一張圖片出發,生成同時具備視覺動態性與聽覺一致性的完整「視聽視頻」,成為多模態生成領域亟待突破的關鍵挑戰。

JointDiT:實現圖像 → 同步音視頻的聯合生成

任務定義:這項研究把圖像轉有聲視頻任務(I2SV)定義為:以靜態圖像作為輸入條件(并看作輸出視頻首幀),生成一個語義匹配、時序同步的「視頻 + 音頻」(有聲視頻)片段。

解決方案:論文提出了一種全新架構 JointDiT,探討了如何利用兩個強大的單模態預訓練擴散模型(一個視頻生成器,一個音頻生成器),在其上構建統一的聯合生成框架實現多模態協同生成。

其主要設計包括:

分解與重組預訓練模型,實現聯合生成框架

為了構建高效的圖像轉聲音視頻模型,JointDiT 采用了「重組 + 協同」的創新思路:首先,作者對預訓練的音頻和視頻擴散模型進行層級解構,將每個模型劃分為三大模塊:輸入層(負責模態嵌入)、專家層(模態內部理解與壓縮)、輸出層(解碼生成)。隨后,在兩個模態的專家層之間引入聯合注意力機制與前向模塊,形成核心的「Joint Block」,實現音視頻間的深層交互。最終,通過共享 Joint Block、獨立輸入輸出層的設計,JointDiT 在保持模態差異處理能力的同時,實現了真正協同的多模態生成,創新性地實現了從一張圖片直接生成同步音視頻內容。



引入感知式聯合注意力,精準建模跨模態互動

傳統的在全序列(音視頻序列)上應用自注意力機制(Full Attention)難以處理視頻與音頻在時間、空間、頻率維度上的異構差異。JointDiT 專為此設計了感知式聯合注意力機制(Perceiver Joint Attention),使用模態特定的 Query-Key-Value 映射,實現對視頻幀與音頻序列之間的細粒度互動建模,有效提升同步與語義一致性。

聯合引導機制,兼顧條件控制與模態協同

傳統的無分類器引導(classifier-free guidance, CFG)技術主要用于強化生成結果對條件的響應,同時抑制低質量輸出。但在多模態生成中,單純的條件對齊并不足以保障音視頻之間的深度協同。為此,JointDiT 提出聯合無分類器引導(JointCFG)及其增強版 JointCFG*,在保留圖像條件引導對齊的同時,強化了模型對跨模態之間交互的關注,進而提升了音視頻之間的語義一致性與時間同步性。該策略不僅優化了生成質量,還顯著增強了視頻的動態表現力。



實驗結果如何?高質量、高一致性!





研究團隊在三個標準數據集(AVSync15、Landscape 和 GreatestHits)上進行了大量測試,從視頻質量、音頻質量、同步性和語義一致性四個維度全面評估。

結果顯示,JointDiT 在視頻質量與音頻自然度方面均實現顯著提升,FVD、FAD 等核心指標全面優于基于 pipeline 組合的多階段方法。音視頻同步性表現優異,在自動評價指標上與當前最強的音頻驅動視頻生成模型持平。語義匹配也更為精準,視頻畫面與聲音的「含義」更加契合。

相比之下,諸如 CogVideoX、HunyuanVideo 等文本驅動的大模型,雖然具備強大的生成能力,但由于依賴圖片生成文本描述(caption)作為中介,過程中伴隨大量視覺信號丟失,導致最終畫面和輸入圖片匹配度(如 FVD、IB-IV 指標)表現不如直接采用圖像生成音視頻的 JointDiT。事實表明,直接建模圖像到音視頻的統一路徑,能更有效保留原始視覺信息,生成結果更加真實一致。



在用戶主觀打分測試中,JointDiT 在「視頻質量」、「音頻質量」、「語義一致性」、「同步性」與「整體效果」五項評分中均排名第一,領先第二名近 20%。

一張圖生成動態有聲視頻,背后竟有這么多玄機?

我們以四個生成案例為例(輸入圖像均作為視頻首幀):

案例 1:手指演奏畫面中是一根手指搭在吹奏的小號上,生成的視頻中指頭輕微顫動,音頻同步響起清脆的撥弦音,仿佛看見了真實演奏。



案例 2:棍擊物體輸入圖像中,一只手正握著棍子對準物體。JointDiT 生成的視頻中,棍子精準敲擊目標,畫面同步傳來清脆的敲擊聲,聲音的質感還根據被敲物體的材質發生變化,真實自然,打擊感十足。



案例 3:保齡球擊瓶靜態圖中是一顆保齡球朝瓶子方向滾動。生成視頻中,保齡球沿軌道前行,撞擊瓶子時發出「砰」的撞擊聲,瓶子傾倒時伴隨一連串碰撞與倒地聲,整個過程視聽同步、節奏自然,細節豐富,極具臨場感。



案例 4:閃電雷鳴輸入圖像為烏云密布的天空。JointDiT 生成的視頻中,一道閃電劃破長空,緊接著傳來低沉有力的雷鳴聲,電光與聲響之間保留自然的時間延遲,模擬真實物理世界中的視聽順序,帶來逼真的沉浸式體驗。



結語與展望

JointDiT 的提出,不僅是一次生成技術的突破,更彰顯了 AI 向多模態統一建模演進的趨勢。它不僅可應用于娛樂內容創作、影視制作等實際場景,也為多模態通用模型乃至「世界模型」的研究提供了新的思路與啟發。接下來,研究團隊計劃將 JointDiT 擴展至圖像、文本、音頻、視頻四模態的聯合建模,為構建更通用、更智能的多模態生成系統奠定基礎。

未來,或許我們只需一張照片、一段文字,就能完整聽到看到它講述的故事。

如需了解更多技術細節與案例演示,請訪問官方 Demo 頁,論文、代碼和模型將近期公開,敬請期待!

文中視頻鏈接:https://www.jiqizhixin.com/articles/2025-05-29

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中共中央批準:陳杰任上海市委常委

中共中央批準:陳杰任上海市委常委

政知新媒體
2025-06-13 22:13:08
山西省委副秘書長、省委新聞發言人梁克昌履新!

山西省委副秘書長、省委新聞發言人梁克昌履新!

太原全接觸
2025-06-14 09:51:39
阿里巴巴門口雕塑:一個畏畏縮縮的中年男人,提著一個公文包……

阿里巴巴門口雕塑:一個畏畏縮縮的中年男人,提著一個公文包……

翻開歷史和現實
2025-06-07 10:12:32
后半生最舒服的生活方式,就三個字!(此文無價)

后半生最舒服的生活方式,就三個字!(此文無價)

深度報
2025-06-13 23:21:32
魯懷安成功預測過大S命理,又告訴大家:未來這4個國家不要去

魯懷安成功預測過大S命理,又告訴大家:未來這4個國家不要去

魔都姐姐雜談
2025-06-11 11:27:02
徹查湘雅實習醫生墜亡事件,平息公眾疑慮 | 新京報快評

徹查湘雅實習醫生墜亡事件,平息公眾疑慮 | 新京報快評

新京報評論
2025-06-13 15:16:07
北京今天午后雨勢將再度增強,雨下到半夜前后

北京今天午后雨勢將再度增強,雨下到半夜前后

新京報
2025-06-14 13:11:14
館長暴怒甩證!怒懟整個綠媒!12小時300萬臺灣青年覺醒潮!

館長暴怒甩證!怒懟整個綠媒!12小時300萬臺灣青年覺醒潮!

小嵩
2025-06-13 09:02:52
賣老鼠藥的也跑來造車!2025最魔幻新勢力,全網都看傻了

賣老鼠藥的也跑來造車!2025最魔幻新勢力,全網都看傻了

深藍財經
2025-06-11 19:27:21
亞冠:日本94-93黎巴嫩獲得冠軍,蒙古第三,浙江第八,韓國墊底

亞冠:日本94-93黎巴嫩獲得冠軍,蒙古第三,浙江第八,韓國墊底

漫川舟船
2025-06-14 05:41:59
七折的卡宴能否挽救保時捷“腰斬”的在華銷量?

七折的卡宴能否挽救保時捷“腰斬”的在華銷量?

界面新聞
2025-06-13 19:01:05
哈利伯頓:去客場戰斗48分鐘是個挑戰,我已迫不及待迎接G5

哈利伯頓:去客場戰斗48分鐘是個挑戰,我已迫不及待迎接G5

雷速體育
2025-06-14 14:08:25
全國人大常委會法工委副主任武增已任司法部黨組成員

全國人大常委會法工委副主任武增已任司法部黨組成員

澎湃新聞
2025-06-13 19:14:29
只有三人是非賣品!廣東全隊任北控挑選,或“5換1”交易陳國豪?

只有三人是非賣品!廣東全隊任北控挑選,或“5換1”交易陳國豪?

緋雨兒
2025-06-14 11:06:52
首次!駐港國安公署與國安處聯手行動

首次!駐港國安公署與國安處聯手行動

環球時報新聞
2025-06-14 10:14:17
阿里P9年入433萬!晉升如登天,生存更如履薄冰?

阿里P9年入433萬!晉升如登天,生存更如履薄冰?

互聯網早讀課
2025-06-14 08:08:29
男孩嫌爺爺寒酸不讓出席畢業禮,軍樂響起全場沸騰,他卻無法淡定

男孩嫌爺爺寒酸不讓出席畢業禮,軍樂響起全場沸騰,他卻無法淡定

無名講堂
2025-06-10 17:17:20
為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

三農老歷
2025-06-08 09:26:54
張雪峰隱退真實原因曝光,家長曬志愿卡,網友:他終究是個商人!

張雪峰隱退真實原因曝光,家長曬志愿卡,網友:他終究是個商人!

知曉科普
2025-06-14 08:35:09
百元出頭的歐洲頂級爆款跑鞋!很輕!很軟!很彈!

百元出頭的歐洲頂級爆款跑鞋!很輕!很軟!很彈!

柚子說球
2025-06-13 12:14:41
2025-06-14 14:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
旅游
親子
教育
數碼

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

每天做好四個訓練,教你如何做好孩子的前庭訓練

教育要聞

小學數學競賽題,班級上一半以上的同學不會做

數碼要聞

蘋果現正銷售翻新的 M4 MacBook Air 機型

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲熟少妇在线播放999| 亚洲午夜精品久久久久久人妖| 亚洲和欧洲一码二码区别7777| 男女做爰猛烈吃奶啪啪喷水网站| 黑人巨大av无码专区| 最大胆裸体人体牲交免费| 伊人久久大香线蕉av综合| 人与禽交av在线播放| 欧洲熟妇色xxxx欧美老妇软件| 久天啪天天久久99久久| 94久久国产乱子伦精品免费| 免费观看又色又爽又湿的视频| 无遮挡边摸边吃奶边做视频免费| 中文天堂国产最新| 午夜寂寞视频无码专区| 欧美最爽乱婬视频免费看| 四川丰满肥嫩肥BBBBB| 中文字幕一区二区三区乱码| 国产精品点击进入在线影院高清| 亚洲日韩乱码中文字幕| 吃奶呻吟打开双腿做受动态图| 日韩成人一区二区三区在线观看| 精品国偷自产在线视频九色| 无码人妻一区二区三区免费视频| 亚洲成av人片在线观看无码不卡| 亚洲图女揄拍自拍区| 国产成人vr精品a视频| 亚洲 暴爽 av人人爽日日碰| 色综合天天综合网国产成人网| 鲁丝久久久精品av论理电影网| 综合无码一区二区三区四区五区| 精品夜夜澡人妻无码av蜜桃| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 免费看无码午夜福利片| 亚洲成a∨人片在线观看不卡| 亚洲人成色99999在线观看| 97久久精品亚洲中文字幕无码| 亚洲精品国产av成拍色拍个| 国产suv精品一区二区四| 欧美黑人粗大猛烈18p| 欧美 日韩 亚洲 在线|