智東西AI前瞻(公眾號:zhidxcomAI)
作者 江宇
編輯 漠影
智東西AI前瞻5月28日消息,今日,騰訊混元重磅發(fā)布并開源了其最新的語音數(shù)字人模型——HunyuanVideo-Avatar。該模型由騰訊混元視頻大模型(HunyuanVideo)及騰訊音樂天琴實驗室MuseV技術聯(lián)合研發(fā),在AI視頻生成領域?qū)崿F(xiàn)了“一張照片、一段音頻即可生成高質(zhì)量唱歌或說話視頻”的突破。
據(jù)官方介紹,HunyuanVideo-Avatar模型的核心亮點在于其高效的生成能力和出色的口型同步效果。它不僅能根據(jù)輸入的音頻精準驅(qū)動人物面部表情和唇形,還能保持視頻中人物身份和形象的穩(wěn)定性。
一、音樂情感與唇形同步,實現(xiàn)高保真數(shù)字人
HunyuanVideo-Avatar模型支持頭肩、半身與全身多種景別,以及多風格、多物種與雙人場景,為視頻創(chuàng)作者提供了前所未有的創(chuàng)作自由。
用戶只需上傳人物圖像與音頻,模型即可自動理解圖片與音頻內(nèi)容,例如人物所處的環(huán)境、音頻所蘊含的情感等,并生成包含自然表情、唇形同步及全身動作的視頻,讓靜態(tài)的人物圖像“活”起來。
例如,上傳一張女孩盤坐在森林的,身前是一團篝火的照片與一段歌曲,模型會理解到“一個女孩在森林空地上唱歌,她身前是一堆熊熊燃燒的篝火,火苗歡快跳躍,橘紅色的火光映照在她身上,為畫面增添了溫暖的氛圍”。
為了實現(xiàn)這一突破,HunyuanVideo-Avatar模型采用了多項創(chuàng)新技術,使其能夠生成更自然、生動的數(shù)字人視頻:
- 角色圖像注入模塊:這一模塊解決了在生成視頻時,如何既保持人物形象的高度一致性,又能讓人物動作流暢自然的問題。它通過一種新穎的方式將人物圖像的特征注入到模型中,避免了傳統(tǒng)方法中可能出現(xiàn)的“僵硬”或不連貫的動作,從而顯著提升了視頻的整體質(zhì)量。
- 音頻情感模塊(AEM):該模塊能夠識別音頻中包含的情感信息,并將其精確地體現(xiàn)在數(shù)字人物的面部表情上。這意味著,如果音頻表達的是“高興”,數(shù)字人就能展現(xiàn)出相應的快樂表情,極大增強了視頻的真實感和感染力。
- 面部感知音頻適配器(FAA):針對多人物對話場景,該模塊能夠“識別”并“鎖定”音頻所對應的具體人物面部區(qū)域。通過這種“面部掩碼”技術,模型可以獨立驅(qū)動不同人物的唇形和表情,確保多人對話時,每個角色都能根據(jù)自己的音頻進行精準、自然的表達,避免了不同人物之間動作互相影響的問題。
HunyuanVideo-Avatar模型提供了便捷的操作流程,用戶無需專業(yè)技能即可進行數(shù)字人視頻的創(chuàng)作。
用戶可在騰訊混元官網(wǎng)上體驗該模型的單主體功能,當前主要支持對單個數(shù)字人進行視頻生成,整個操作流程非常簡單。
上傳一張清晰的人物照片和一段不超過14秒的音頻,稍作等待,一段數(shù)字人視頻就生成了。
值得注意的是,對于本地部署,這類AI視頻生成模型通常對顯卡有一定要求,推薦使用具備較高顯存的GPU。此外,本地部署沒有視頻時長限制,但生成時長與顯卡性能呈線性關系,即更長的視頻生成需要更強的顯卡支持。
目前,在線網(wǎng)頁版支持生成最長14秒的數(shù)字人視頻。
二、多項指標表現(xiàn)出色,達到行業(yè)領先水平
綜合研究團隊在論文中公布的實驗結(jié)果,騰訊混元HunyuanVideo-Avatar模型在多項關鍵指標上展現(xiàn)了卓越性能。
在主體一致性、音畫同步方面,HunyuanVideo-Avatar效果超越開閉源方案,處在業(yè)內(nèi)頂尖水平;在畫面動態(tài)、肢體自然度方面,效果超越開源方案,和其他閉源方案處在同一水平。
▲來自技術報告(https://arxiv.org/pdf/2505.20156)
具體來看,在音畫同步(Sync-C)和身份保持(IP)方面,HunyuanVideo-Avatar在CelebV-HQ和HDTF數(shù)據(jù)集上的音畫同步指標分別為4.92和5.30,優(yōu)于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等現(xiàn)有方法。
在全身測試集上,該模型在音畫同步方面達到5.56,也超過了Hallo3、Fantasy和字節(jié)跳動旗下的OmniHuman-1。
用戶研究結(jié)果進一步表明,在身份保持(IP)和唇語同步(LS)方面,HunyuanVideo-Avatar均獲得最高評分(IP 4.84,LS 4.65),超越了Hallo3、Fantasy和字節(jié)跳動旗下的OmniHuman-1。
在畫面動態(tài)(MD)和肢體自然度(FBN)方面,根據(jù)消融研究(Ablation Study)的結(jié)果,HunyuanVideo-Avatar在畫面動態(tài)上達到了4.127,在VQ(視頻質(zhì)量)上達到4.16,優(yōu)于其他兩種注入模塊方式。
在用戶研究中,HunyuanVideo-Avatar在肢體自然度方面得分3.88,雖然略低于字節(jié)跳動OmniHuman-1的4.18,但仍優(yōu)于Hallo3和Fantasy。
這表明該模型在保持人物動態(tài)自然度方面,已達到與領先閉源方案相近的水平,并超越了其他開源方案。
相較于傳統(tǒng)工具僅支持頭部驅(qū)動,HunyuanVideo-Avatar模型還支持半身或全身場景,顯著提升了視頻的真實感和表現(xiàn)力。
此外,該模型還支持多風格、多物種與多人場景,能夠生成包括賽博朋克、2D動漫、中國水墨畫,以及機器人、動物等多種風格的視頻,拓展了數(shù)字人技術的應用范圍。
三、賦能垂直應用,豐富內(nèi)容生態(tài)
HunyuanVideo-Avatar模型適用于短視頻創(chuàng)作、電商、廣告等多種應用場景。
它可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產(chǎn)品介紹視頻或多人互動廣告,有效降低制作成本,提高生產(chǎn)效率。
目前,HunyuanVideo-Avatar技術已在騰訊音樂的聽歌陪伴、長音頻播客以及唱歌MV等多個場景中得到應用:
- 在QQ音樂中,用戶在收聽“AI力宏”歌曲時,播放器上會實時同步顯示生動可愛的AI力宏形象。
- 在酷狗音樂的長音頻繪本功能中,AI生成的虛擬人形象將“開口說話”,為用戶講述童話故事。
- 在全民K歌中,用戶可以通過上傳自己的照片,一鍵生成專屬的唱歌MV。
HunyuanVideo-Avatar模型的發(fā)布與開源,為數(shù)字人技術領域注入了新的活力。它通過簡化數(shù)字人視頻內(nèi)容的生成流程,展現(xiàn)了拓展數(shù)字內(nèi)容創(chuàng)作邊界的潛力。
隨著此類技術的不斷發(fā)展和應用,數(shù)字人有望在未來的社會生產(chǎn)和日常生活中扮演日益重要的角色,為多個領域帶來新的可能性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.