新智元報道
編輯:編輯部 YZNH
【新智元導讀】剛剛,AI頂流春晚智源大會來了!深度學習和強化學習兩大巨頭齊聚,圖靈獎得主、頂尖專家出席,2025 AI未來的發展路徑,在一場場精彩的思想碰撞中被清晰解碼,硬核指數已經超標。
就在剛剛,一年一度「AI內行春晚」——智源大會正式開幕!
這場科技圈最不容錯過的、硬核十足的AI頂級盛會,依舊星光熠熠、干貨滿滿。
這屆大會,迎來了四位圖靈獎得主坐鎮,匯聚了DeepMind、Linux、華為、阿里等全球科技巨頭,還有MIT、斯坦福、清華、北大等20+海內外頂尖學府研究人員齊聚一堂。
他們一同分享了硬核技術突破,更深入探討了AI前沿與未來走向,兼具深度與啟發。
智源研究院再度發力,重磅推出了「悟界」系列大模型,開啟了通向物理AGI的全新篇章。
從多模態基礎模型到具身智能大腦,從宏觀到微觀,一共四大核心成果正式亮相。
現場演示中,機器人能從琳瑯滿目貨架上,精準拿取酸奶、果凍,不會弄亂其他商品。
更有趣的是,宇樹機器人閃亮登場,帶來了一場令人熱血沸騰的拳擊表演。
而將大會推向高潮的,無疑就是圖靈獎得主Yoshua Bengio、Richard Sutton等AI大佬的精彩演講。
準備好,超硬核的思想盛宴來了!
Yoshua Bengio
5年后AI超越人類,科學家AI救場
最先作開場報告的,是圖靈獎得主、深度學習領域的奠基人之一——Yoshua Bengio。
此次,Bengio教授的報告題目為《Avoiding Catastrophic Risks from Uncontrolled AI Agency》(避免未受監管的人工智能機構帶來的災難性風險)。
一上來,教授就一針見血地指出,AI的規劃能力正在指數級遞增。AI能完成的任務持續時間每七個月就會翻一番,這么算下來,五年后就可以達到人類水平。
然而,我們雖然會訓練這些系統,但卻不知道該如何控制它們。
那么當AI變得比人類更聰明時,如果它們更傾向于自己的存在而不是人類,我們如何面對這種風險?
研究表明,過去六個月里,已經有一些AI顯示出具有自我保護行為,撒謊甚至是欺騙、勒索人類。
左右滑動查看
Bengio教授說,如果我們最終創造出與人類競爭的AGI,那將是非常糟糕的。
我們該怎么辦?
雖然AI的性能可能很強,Bengio教授表示,但我們可以確保它們沒有不良意圖,保證它們是誠實的。
Bengio教授現在的研究項目就在嘗試構建只有智能而沒有自我和目標的AI。
目的是讓AI有用但不會威脅到我們,確保AI會遵循我們的道德指令。
他將其稱之為「科學家AI」(Scientist AI)。
Bengio教授現場講解了這種新的AI推理方法:通過構建類似數學證明的結構化假設圖來提高推理能力。
AI不再只是模仿人類文本,而是通過分析這些陳述的邏輯一致性和概率來尋找解釋,生成更可靠的結論。
最后,Bengio教授呼吁國家、企業之間要攜手合作,共同應對AI的安全風險。
Richard Sutton
AI「體驗時代」來臨
這次大會,還請來了2024 ACM圖靈獎得主Richard Sutton,爆火博文「苦澀的教訓」原作大佬。
演講中,Richard教授分享了自己對AI未來深刻洞見,正如演講題目所言——
AI正從「人類數據時代」,邁入「體驗時代」。
他指出,當前AI訓練主要依賴于互聯網上,人類生成的數據,如文本、圖像,并通過人類微調來優化。
在「人類數據時代」,AI在模仿人類行為和預測人類意圖方面,取得了巨大的成功,比如ChatGPT。
然而,這一策略正接近極限。高質量人類數據幾乎被耗盡,而生成全新知識需要超越模仿,走向與世界的直接互動。
這時,「體驗時代」成為AI發展的下一個階段。
Richard Sutton強調,AI應像人類和動物一樣,從第一人稱的經驗中學習。
無論是嬰兒通過玩耍探索世界,還是足球運動員、動物在環境中學習決策, 這些經驗數據全部來自與環境中的「實時互動」。
這種數據是動態的、不斷增長的,能夠隨著AI能力提升不斷改善,比如AlphaGo通過對弈下出了「第37步」、AlphaProof在數學奧賽中拿下大獎。
因此,Richard認為,未來的AI——智能體,需要通過與世界直接交互,去獲取經驗數據,從而實現真正的智能突破。
與悲觀派Bengio不同的是,Richard大會直言,「我不擔心安全,也不擔心失業,超級智能體和超級智能能夠增強人類的創造,這是世界轉變和發展的一部分」。
而當下,人類已經進入使用強化學習的全新「體驗時代」,要發揮AI超能力,還需要更好的深度學習算法。
π聯創兼CEO
構建物理智能
接下來登場的,便是曾任谷歌大腦資深研究科學家兼機器人操控主管、現任Physical Intelligence聯合創始人兼CEO的Karol Hausman。
他的演講主題為「構建物理智能」。
要知道,早先的機器人一旦遇到環境上的變化,就會無法應對;但如今,機器人開始變得更加絲滑,能跳流暢的舞蹈,還能靈活應對非結構化的環境。
所以,究竟發生了什么?
答案顯而易見:AI出現了。
而其中最重要的,就是視覺語言動作模型。
首先,我們可以采用預先在網絡上訓練好的視覺語言模型,它對世界如何運作已經有了高水平理解,并且能將其中一些含義轉移到機器人的動作上。
比如,Robotics Transformer 2從沒見過霉霉的照片,卻能完成「給霉霉遞可樂」的這個動作。
原因正是因為,它從互聯網的預訓練中獲得了知識,然后將知識轉化,連接到機器人,讓其真正實現了理解。
其次,除了互聯網之外,我們還可以把各種來源的數據都整合到一起。
為此,團隊訓練了一個模型,來控制任何機器人執行任何任務。
經過5個月的研發后,機器人就已經能從烘干機取出衣物、放進籃子里、疊起來。
可以看出來,下面這項疊衣服的任務非常艱巨,很棘手。需要做出很多種不同動作,才能正確抓住襯衫的角。
甚至,這個系統足夠強大,我們可以隨時可以中斷它,而不影響任務。這并沒有經過專門訓練。
這個過程中真正發揮作用的,就是預訓練和后訓練的內部模型。
下面所展示的就是他們和星辰智能的合作,讓機器人學會了煮咖啡。
在泛化上,他們成功實現了讓機器人在從未見過的環境里工作。
在開始打掃之前,機器人從沒見過這間房間,卻能在全新環境中打掃、做家務。
Hausman相信,如果真的成功解決了物理智能的問題,我們絕不會止步于人形機器人。那時,我們將經歷機器人的寒武紀大爆發。
當然,雖然π展現了一些物理智能的火花,但還不是物理智能,仍處于早期階段。
不過,就如同我們剛開始使用電的時候,需要花費很多力氣才能馴服它。如果我們能解決物理智能的問題,勞動力就將唾手可得。
「悟界」系列大模型,邁向物理AGI
大會重中之重,便是智源研究院一系列的重磅發布。
過去的一年,實踐證明智源在2024年對大模型技術路線預判的正確性:
大模型正從大語言模型——原生多模態模型——世界模型逐漸演進。
過去四年,智源研究院繼續圍繞這一趨勢展開布局,并在今天重磅推出全新「悟界」系列大模型。
2021年,「悟道」大模型誕生,正式開啟了中國大模型時代。而今天「悟界」大模型的出世,標志著AI從數字世界邁向了物理世界。
具體來說,「悟界」系列大模型共包含四款模型:
· 原生多模態世界模型Emu3
· 全球首個腦科學多模態通用基礎模型見微Brainμ
· 具身大腦RoboBrain 2.0
· 全原子微觀生命模型OpenComplex2
從微觀生命體到具身智能體,「悟界」系列大模型試圖揭示生命機理本質規律,構建人工智能與物理世界的交互基座。
原生多模態世界模型Emu3
去年10月,智源首次發布了Emu3,完全統一了多模態學習,統一了圖像、視頻、文本,統一了生成和理解。
Emu3之所以如此強大,得益于其背后的框架。
它基于下一個token預測統一多模態學習,原生支持自回歸訓練和推理,無需擴散模型,也無需組合式架構復雜性。
通過整合多模態數據,Emu3構建出了對物理世界的感知理解能力,為具身智能和現實交互奠定基礎。
它支持多模態輸入、多模態輸出的端到端映射,驗證了自回歸框架在多模態領域的普適性與先進性,為跨模態交互提供了強大的技術基座。
值得一提的是,Emu3已面向AI社區開源。
在這個統一框架下,過去半年多時間中,智源將其擴展到更多的模態領域。
最具典型代表的,便是擴展到「腦信號」模態。
由此,全球首個腦科學多模態通用基礎模型「見微Brainμ」誕生了。
全球首個腦科學多模態通用基礎模型見微Brainμ
Brainμ基于Emu3架構,引入腦信號這一新的模態數據,實現了單一模型完成多種神經科學任務的大一統。
具體來說,它將fMRI、EEG、雙光子等信號統一token化,實現了多模態腦信號與文本、圖像等模態的多項映射。
見微Brainμ以單一模型可以完成多種神經科學的下游任務。
通過整合多個大型公開數據集和多個合作實驗室的高質量神經科學數據,Brainμ可以支持從基礎研究到臨床研究等不同的方向,有望成為腦科學的「AlphaFold」模型。
作為跨任務、跨模態、多物種、跨個體的基礎通用模型,Brainμ可以同步處理多類編解碼任務,兼容多種動物模型(包括小鼠、狨猴、獼猴)與人類數據,實現科學數據注釋、交互式科學結論解讀等。
在自動化睡眠分型、感官信號重建與多種腦疾病診斷等任務中,刷新SOTA表現。
Brainμ也可以支持拓展腦機接口應用,首次在便攜式消費級腦電系統上重建感覺信號。
智源正在與國內前沿的基礎神經科學實驗室、腦疾病研究團隊和腦機接口團隊深入合作,包括北京生命科學研究所、清華大學、北京大學、復旦大學與強腦科技BrainCO,拓展Brainμ的科學與工業應用。
不論是Emu3,還是見微Brainμ,都代表著智源在多模態基礎模型領域的探索。
而這些成果,皆是為了讓AI能夠真正看到、感知、理解這個世界,并與世界進行交互,從而推動具身智能的發展。
全球最強開源具身大腦
不過,具身智能也面臨諸多挑戰,甚至陷入了「循環悖論」。
而具身智能大模型不好用、不通用、不易用,成為了核心痛點。
為此,智源提前布局,在今年3月發布了首次發布跨本體具身大小腦協作框架RoboOS 1.0以及具身大腦RoboBrain 1.0。
時隔3個月,全新升級后的RoboOS 2.0和RoboBrain 2.0官宣上線。
現場演示中,全新具身大腦加持的機器人本體,為小姐姐制作了一款漢堡和飲料套餐。
即便是在制作過程中,遇到了刁難——「我不要西紅柿\我要這個」,機器人也能立馬理解,并做出下一步規劃。
而且,它還貼心考慮到小姐姐減肥需求,主動推薦了無糖可樂。最后機器人還幫忙打掃餐桌,全程操作非常絲滑。
· RoboOS 2.0
相較于RoboOS 1.0,新版本在多方面得到了升級,提供全球首個具身智能SaaS平臺,支持無服務器一站式輕量化機器人本體部署的開源框架。
而且,RoboOS 2.0還將支持MCP,打造全球首個具身智能的應用商店。
在這個框架下,全新小腦技能的注冊代碼量,僅需1.0版本的十分之一。
同時,RoboOS 2.0推理鏈路效率大幅提升30%,平均延遲響應時間將至3ms,端云通信效率提升27倍。
除此之外,RoboOS 2.0在功能上還新增了業內首創多本體時空記憶場景圖(Scene Graph)共享機制,同時引入多粒度任務監控模塊。
· RoboBrain 2.0
具身大腦RoboBrain 2.0,是目前全球最強開源具身大腦大模型。
在空間感知/推理與多任務規劃上,RoboBrain 2.0超越主流大模型,刷新SOTA。
相較于1.0,全新具身大腦模型進一步擴展了多本體-環境動態建模的多機協同規劃能力。
如今,RoboBrain 2.0可實時構建出包含本體定位的場景圖(Scene Graph),任務規劃準確率較上一代飆升至74%。
在空間智能方面,2.0版本在原有物體級可操作區域(Objective Affordance)感知與操作軌跡(Trajectory)生成能力的基礎上,實現了17%的性能提升。
更令人振奮的是,RoboBrain 2.0將「可操作區域」從物體級擴展至空間級,從而在復雜環境中執行更靈活、高效的操作。
除了在感知能力上突破,它還新增了兩大核心能力:閉環反饋和深度思考。
同初代框架模型一樣,RoboOS 2.0和RoboBrain 2.0所有代碼、權重、數據、評測集全部開源。
全原子微觀生命模型OpenComplex2
大會現場還發布了OpenComplex2,實現了生物分子研究從靜態結構預測到動態構象分布建模的重大突破。
OpenComplex2能夠表征生物分子系統的連續演化能量景觀,在原子層面捕捉分子相互作用及平衡構象分布,為探索微觀構象波動與宏觀生物功能的跨尺度關聯提供了全新的研究視角。
它基于FloydNetwork圖擴散框架以及多尺度原子精度表示兩大關鍵技術創新,能夠更加真實地還原生物分子的構象多樣性與動態特性。
這使得在建模過程中可以兼顧關鍵的局部結構細節與全局構象變化,為揭示生物功能提供更加全面的基礎結構。
OpenComplex2突破了靜態結構預測的瓶頸。
2024年,在第16屆蛋白質結構預測關鍵評估競賽CASP16(Critical Assessment of protein Structure Prediction)中,成功預測了蛋白質T1200/T1300的空間構象分布(定性上與實驗數據一致),成為23支參賽隊伍中唯一取得該突破的團隊。
OpenComplex2將加速從基礎分子機制研究到藥物設計等下游應用的發展。
結合AI精準預測和高通量實驗驗證,有望大幅縮短生物醫藥研發時間,降低成本,提高成果轉化率,助力產業高質量創新。
可以看出,從「悟道」到「悟界」,智源研究院始終走在技術路線探索的前沿,積極構建開源開放的技術生態。
而在未來,智源研究院還將持續解構物理世界與智能本質的深層關聯,在AGI的征途中刻下新的坐標。
最后,智源大會開幕式今天圓滿結束,留給與會者和網絡上的觀眾們無盡的收獲和思考。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.