李飛飛押注的世界模型領(lǐng)域,迎來(lái)兩位自動(dòng)駕駛大牛創(chuàng)業(yè)新成果!
無(wú)需任何游戲引擎,AI能以40毫秒/幀想象并實(shí)時(shí)生成視頻。
40毫秒/幀啥概念?
人類眨一次眼都需要100~400毫秒,所以現(xiàn)在AI幾乎可以一瞬間創(chuàng)造視頻了。
而且無(wú)需高端顯卡,玩家可以實(shí)時(shí)觀看,并與AI生成的世界交互了。
就像是在探索一個(gè)平行宇宙的感覺~
而除了產(chǎn)品迅速引人關(guān)注,更值得說(shuō)道的還是其背后研發(fā)公司。
兩位聯(lián)合創(chuàng)始人Oliver Cameron和Jeff Hawke均在自動(dòng)駕駛領(lǐng)域有著深厚從業(yè)背景,雖然公司成立不到2年,但一亮相就獲得了資本青睞。
迄今為止,Odyssey已從EQT Ventures、谷歌GV和Air Street Capital等投資機(jī)構(gòu)籌集了2700萬(wàn)美元(約合人民幣1.9億),皮克斯創(chuàng)始人/圖靈獎(jiǎng)得主Ed Catmull還是其董事會(huì)成員。
目前Odyssey發(fā)布即免費(fèi)可用,網(wǎng)友們已經(jīng)第一時(shí)間涌入服務(wù)器(官網(wǎng)始終顯示排隊(duì)中)。
那么,新玩家Odyssey究竟有哪些亮點(diǎn)呢?
世界模型≠視頻模型
一上來(lái),Odyssey就在最新官方博客中解釋:世界模型≠視頻模型。
他們認(rèn)為,乍一看世界模型好像是視頻生成模型的完美應(yīng)用,但后者的架構(gòu)、參數(shù)和數(shù)據(jù)集實(shí)際上并不適用于前者。
為此他們還提供了一個(gè)對(duì)比表格:
背后所反映的,其實(shí)是二者工作原理的不同。
視頻模型通過(guò)構(gòu)建結(jié)構(gòu)化嵌入一次性生成固定幀,適合視頻剪輯(中間無(wú)需更改)但不適合交互;
而世界模型則能夠根據(jù)當(dāng)前狀態(tài)和用戶動(dòng)作靈活預(yù)測(cè)下一個(gè)狀態(tài),支持實(shí)時(shí)交互,這對(duì)于交互式視頻至關(guān)重要。
以上差異也代表著世界模型的不同發(fā)展階段。
早期階段,大多數(shù)關(guān)于世界模型的研究主要集中在:從類似《我的世界》、《雷神之錘》這樣的游戲中學(xué)習(xí)像素和動(dòng)作。
由于局限于游戲范圍內(nèi),這為世界模型可能實(shí)現(xiàn)的功能劃定了一個(gè)“已知低上限”。
而Odyssey相信:
- 從幾十年的真實(shí)生活視頻中學(xué)習(xí)像素和動(dòng)作有望提升這一上限。
由于真實(shí)世界的視頻具有更豐富的視覺信息,以及全方位/不受限制的動(dòng)作類型,因此世界模型能超越傳統(tǒng)游戲邏輯,提升模型的上限。
不過(guò)Odyssey也承認(rèn),從開放式真實(shí)視頻中學(xué)習(xí)相當(dāng)困難,比如視頻內(nèi)容嘈雜多樣、動(dòng)作連續(xù)且不可預(yù)測(cè)等等。
他們表示,與語(yǔ)言、圖像或視頻模型相比,世界模型目前還處于起步階段。
當(dāng)中最大的挑戰(zhàn)是自回歸建模,即根據(jù)先前狀態(tài)預(yù)測(cè)未來(lái)狀態(tài)。由于模型生成的輸出會(huì)反饋到模型的上下文中,因此會(huì)影響后續(xù)的預(yù)測(cè)。
在語(yǔ)言模型中,由于狀態(tài)空間相對(duì)有限,這種反饋問(wèn)題不大。但在世界模型中,狀態(tài)空間要復(fù)雜得多,這可能導(dǎo)致模型的不穩(wěn)定性,因?yàn)槟P涂赡軙?huì)偏離其訓(xùn)練數(shù)據(jù)的分布范圍。
尤其對(duì)于實(shí)時(shí)模型來(lái)說(shuō),這種不穩(wěn)定性更為明顯,因?yàn)樗鼈冊(cè)谔幚韽?fù)雜的潛在動(dòng)態(tài)時(shí)能力較弱。
針對(duì)上述問(wèn)題,Odyssey開發(fā)了一種窄分布模型(narrow distribution model)。
這種模型首先在廣泛的視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后在特定地點(diǎn)的密集視頻數(shù)據(jù)上進(jìn)行后訓(xùn)練。這種后訓(xùn)練方法雖然會(huì)犧牲一些模型的通用性,但可以提高模型的穩(wěn)定性和自回歸生成的持久性。
與此同時(shí),為了提高模型的泛化能力,Odyssey爆料他們正在開發(fā)下一代世界模型。
雖然Odyssey自稱當(dāng)前這個(gè)還只是早期預(yù)覽版,“可能相對(duì)粗糙”,但網(wǎng)友的第一波實(shí)測(cè)已經(jīng)證明了其潛力。
提供實(shí)測(cè)的網(wǎng)友表示,對(duì)任何想要體驗(yàn)的人來(lái)說(shuō),這很酷!
而且,隨著更大規(guī)模的算力集群支持,Odyssey的視頻傳輸速度還會(huì)提升。
據(jù)悉,預(yù)覽版當(dāng)前由美國(guó)和歐盟的H100 GPU集群提供算力支持,傳輸速度為30 FPS,能輸出5分鐘甚至更長(zhǎng)時(shí)間的連貫視頻。
30 FPS啥概念?
游戲中這一配置仍處于入門階段,屬于相對(duì)能“流暢運(yùn)行”的范疇,一些3A大作可能要求會(huì)更高。
不過(guò),鑒于用戶當(dāng)前能免費(fèi)體驗(yàn)(官方稱每小時(shí)體驗(yàn)成本為1~2美元),還要啥自行車(doge)。
由兩位自動(dòng)駕駛大牛創(chuàng)立
Odyssey成立于2023年,他們創(chuàng)建之初就鐵了心要做世界模型。
這不僅是因?yàn)樗麄儗⑹澜缒P妥鳛橄乱粋€(gè)AI前沿,更在于團(tuán)隊(duì)的“自動(dòng)駕駛血統(tǒng)”在這方面擁有天然優(yōu)勢(shì)。
Odyssey官方博客中曾經(jīng)寫道:
- 事實(shí)上,我們90%以上的技術(shù)人員的大部分職業(yè)生涯都是在Cruise、Wayve、Waymo和特斯拉等公司從事自動(dòng)駕駛汽車的開發(fā)工作。這種經(jīng)歷讓我們對(duì)構(gòu)建世界的模型的問(wèn)題有了獨(dú)特的見解。
聯(lián)創(chuàng)兼CEO Oliver Cameron,十幾年職業(yè)生涯都奉獻(xiàn)給了自動(dòng)駕駛。
- 2013~2017年,任Udacity實(shí)驗(yàn)室(脫胎于斯坦福)產(chǎn)品與工程副總裁,領(lǐng)導(dǎo)200余人合力打造了一輛開源自動(dòng)駕駛汽車;
- 2017~2021年,聯(lián)合創(chuàng)辦了明星自動(dòng)駕駛公司Voyage,該公司后被通用旗下的自動(dòng)駕駛子公司Cruise收購(gòu);
- 2021~2023年,跟隨Voyage加入Cruise任產(chǎn)品副總裁。
- 2023年至今,從自動(dòng)駕駛轉(zhuǎn)投世界模型。
而且,至今他還是無(wú)人駕駛飛行器Skyways的董事會(huì)成員。
聯(lián)創(chuàng)兼CTO Jeff Hawke,創(chuàng)辦Odyssey前在另一家明星自動(dòng)駕駛公司W(wǎng)ayve干了5年。
任職Wayve技術(shù)副總裁時(shí)期,帶領(lǐng)團(tuán)隊(duì)打造了業(yè)界首個(gè)用于公共道路自動(dòng)駕駛汽車的學(xué)習(xí)型駕駛員系統(tǒng),即利用深度學(xué)習(xí)和計(jì)算機(jī)視覺進(jìn)行駕駛學(xué)習(xí)。
而在Wayve之前,他的研究更多和“機(jī)器人”掛鉤。
從2008年到2017年,什么叉車機(jī)器人、醫(yī)療機(jī)器人等,通通都研究了個(gè)遍,后來(lái)還去了牛津機(jī)器人研究所讀博。
以上二位這次也親自參與了打造Odyssey預(yù)覽版,其余技術(shù)人員的名單如下:
最后,除了Odyssey這家公司,目前已經(jīng)有超過(guò)10家車企和自動(dòng)駕駛公司提出了世界模型的概念,其中包括特斯拉、蔚來(lái)、理想、地平線、商湯、元戎啟行、Momenta等。
可以預(yù)見,仍處于起步階段的世界模型,或許就是下一個(gè)兵家必爭(zhēng)之地。
而且自動(dòng)駕駛車企,已經(jīng)成為孕育世界模型的天然溫床。
那么,你看好這家公司嗎?
在線體驗(yàn):
https://experience.odyssey.world/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.