新智元報道
編輯:犀牛 桃子
【新智元導讀】3D生成模型高光時刻來臨!DreamTech聯手南大、復旦、牛津發布的Direct3D-S2登頂HuggingFace熱榜。僅用8塊GPU訓練,效果超閉源模型,直指影視級精細度。
HuggingFace是全球最大的開源大模型社區,匯集了來自世界各地的上百個開源大模型。
其趨勢榜(HuggingFace Trending)展示了各類開源大模型在全球開發者中的受歡迎程度,DeepSeek、Qwen等大模型就因曾登頂HuggingFace榜單而獲得了全球開發者的關注與熱議。可以說,這是當前最具權威性的榜單之一。
最近一周,由DreamTech推出的Direct3D-S2 3D大模型登頂HuggingFace 3D modeling應用趨勢榜,并在涵蓋文本、圖像和視頻的綜合榜單上躍居至第4位。
這個大模型不僅贏得了海外知名AI精選博主AK (@_akhaliq) 的推薦,還在全球3D及AI領域的開發者和愛好者中引起了廣泛關注。
Direct3D-S2僅需8張GPU訓練,生成效果遠超數百張GPU訓練的閉源商用模型,訓練效率提升近20倍,相比現有的大模型,token吞吐量從4K提升到256K,直接提高64倍,目標直指影視級別高精細度3D模型生成。
許多開發者表示Direct3D-S2就是「最強開源3D大模型」,直呼「3D生成的概念神」。
為什么一個3D大模型能在AI行業引起如此高的關注度呢?
從DreamTech團隊發布的論文中,我們或許能找到答案。Direct3D-S2所實現的突破性進展,不僅提升了3D模型的精度與效率,也開啟了新的應用場景和技術可能性。
這不僅是對技術邊界的探索,也是其在AI領域創新能力的一次重要展示。
論文地址:https://arxiv.org/pdf/2505.17412
從游戲角色、電影特效,到VR體驗和3D打印產品,背后都離不開一個關鍵技術——3D建模。它就是數字世界的基礎手藝,但傳統建模過程復雜又耗時。
AI正在改變這一切。近年來,越來越多的公司開始用來替代人工建模,AI不僅更快,效果也越來越逼真。微軟、Meta、騰訊、字節跳動等行業巨頭,以及眾多創新企業紛紛發力,推出了各種AI 3D生成工具,掀起了一場技術熱潮。
而在所有探索中,如何讓AI生成的3D模型更清晰、更精細,已經成為大家最關心的問題之一。
為什么高分辨率的3D生成
如此具有挑戰性?
現在AI已經能輕松生成高清的圖片和視頻了,但為什么利用AI進行高質量的3D建模卻仍舊這么難?這背后有兩個關鍵原因。
3D數據比2D復雜得多。圖像和視頻只是平面信息,而3D模型要完整地表達一個物體在空間中的形狀,它的細節是「立方級」的復雜度。也就是說,分辨率越高,需要處理的token數量會呈立方倍增長。比如,把分辨率從128提升到256,token數量的差別不是2倍,而是23=8倍。
AI模型本身的計算壓力也很大。目前主流的AI架構Transformer在處理大量細節時會變得特別吃力,Transoform核心的Attention(注意力)機制的運算復雜度是隨著數據token數量呈平方增長的。這意味著,當你想要更精細的模型時,算力需求幾乎是指數爆炸式上升。
舉個例子:即使是分辨率為256級的3D生成任務,通常也需要動用32至64塊高端GPU進行訓練。
而如果要生成1024級分辨率甚至影視級別超高精細度的3D任務,則需要幾千甚至上萬塊GPU訓練。這種訓練方式成本高昂,技術挑戰也非常大。
如何在有限的資源下實現高質量的3D生成,已經成為整個行業都在攻克的核心難題。
DreamTech聯合南京大學、牛津大學提出了Direct3D-S2,解決了高分辨率3D生成的瓶頸問題。
空間稀疏注意力機制
在Direct3D-S2中,DreamTech團隊提出了一項核心創新——空間稀疏注意力機制(Spatial Sparse Attention, SSA)。
這一機制專為解決當前Diffusion Transformer(DiT)在處理高分辨率3D生成時效率低、精細度差的問題而設計,堪稱3D生成領域的效率引擎。
優點一:支持超大規模體素生成
通過自適應3D空間分塊策略,SSA可以讓模型只關注真正重要的體素區域,避免大量冗余計算。
即使面對10243的超高分辨率,模型也能輕松處理數十萬級tokens,token吞吐量提高64倍!
優點二:保留幾何一致性
在大幅提高效率的同時,SSA并沒有犧牲質量。
它基于空間幾何連續性概率分布對tokens進行智能分塊,確保局部結構完整、表面平滑自然,避免了傳統方法中常見的「斷裂」或「扭曲」現象。
稀疏SDF VAE以及稀疏DiT
除了SSA注意力機制的創新,Direct3D-S2還引入了適配SSA的全新架構,包括稀疏SDF VAE和稀疏DiT,實現了從輸入到輸出的全流程效率提升。
端到端稀疏SDF自編碼器
Direct3D-S2首次將3D生成表征統一到SDF(符號距離函數)體素場中,無需依賴傳統的點云、多視角圖像或隱式空間等復雜轉換過程。
簡化了訓練流程,將模型訓練的穩定性和訓練速度提升到極致。
多分辨率支持+稀疏條件機制
Direct3D-S2支持基于3D幾何空間的multi-scale訓練與推理,僅用8塊A100 GPU,2天即可完成訓練,整體效率提升4倍以上。
同時,借助稀疏條件機制,模型能聚焦于前景物體的關鍵區域,實現更高效的交叉注意力計算,從而顯著增強細節生成能力。
細節更豐富、結構更精準
在3D生成領域,細節決定成敗。
Direct3D-S2在生成質量上的突破,正是體現在它對復雜幾何結構和精細紋理的出色還原能力上。
在多項關鍵指標對比中,Direct3D-S2全面超越當前主流開源3D生成模型,在所有數值評測中全部領先。
無論是細節豐富程度、幾何精度、表面光滑度,還是整體結構的一致性,Direct3D-S2都展現出顯著優勢。
不僅如此,在由數十位藝術家與開發者參與的盲測評估中,Direct3D-S2也在「圖像一致性」與「幾何質量」兩個核心維度上獲得最高評分。
這意味著,不僅數據亮眼,實際效果也真正能打動專業人士。
與當前流行的開源3D生成大模型對比,Direct3D-S2在細節和精細度表現上超越了全部的開源3D大模型。
盡管只使用8張A100顯卡和公開數據集訓練,Direct3D-S2在生成的模型細節上甚至超過了目前市面上幾乎全部的閉源商用模型。
換句話說,Direct3D-S2不僅是目前最強的開源3D生成大模型之一,更是首個在質量和實用性上真正接近工業級應用的開源方案。
擁抱開源,賦能全球開發者
DreamTech始終秉持「技術共享」的理念,已將Direct3D-S2全面開源,并采用最寬松的 MIT License協議,允許自由用于商業用途,堪稱業界良心,這一舉措贏得了行業的廣泛贊譽。
為了讓全球開發者更方便地體驗與使用Direct3D-S2,DreamTech提供了多個開放入口:
·GitHub項目地址(開源代碼):
https://github.com/DreamTechAI/Direct3D-S2
·技術詳情與論文訪問:
https://www.neural4d.com/research/direct3d-s2/
·HuggingFace在線體驗Demo:
https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo
此外,DreamTech官網還提供更強版本模型及一系列實用功能,供用戶免費使用,助力開發者、藝術家和企業快速上手與落地應用。
·DreamTech官網入口:
www.neural4d.com
創新無邊界,Direct3D-S2不僅是一次技術突破,更是推動3D生成普及化的重要一步。
團隊介紹
DreamTech深耕于3D及4D AI技術領域,致力于用創新的產品和服務提升全球AIGC創作者及消費者的使用體驗,公司的愿景是利用先進的AI技術打造與真實世界無縫對接、實時互動的時空智能體驗,并通過模擬真實世界的復雜性和多樣性實現通用人工智能(AGI)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.