人工智能四波浪潮:感知式AI——生成式AI——代理式AI——物理式AI;生成式AI目前的階段,計(jì)算所需的tokens和資源比最初預(yù)期的多100倍;
數(shù)據(jù)中心基建:到2028年底,數(shù)據(jù)中心基礎(chǔ)設(shè)施的資本支出將超過(guò)1萬(wàn)億美元;
Blackwell芯片:Blackwell已全面投入生產(chǎn),將輕松過(guò)渡到升級(jí)版(Blackwell Ultra);
新款A(yù)I電腦:擁有高達(dá)1000 TOPS的AI算力的迷你電腦DGX Spark和20000 TOPS的工作站DGX Station;
Dynamo:發(fā)布了用于加速和擴(kuò)展 AI 工廠中AI推理模型的開(kāi)源軟件NVIDIA Dynamo;
機(jī)器人:與Google DeepMind和迪士尼合作開(kāi)發(fā)名為Newton的機(jī)器人平臺(tái),展示靈動(dòng)的“Blue”的機(jī)器人 原型;
智能駕駛:通用汽車(chē)將使用英偉達(dá)的計(jì)算平臺(tái)(包括Omniverse和Cosmos)構(gòu)建定制AI系統(tǒng),以優(yōu)化通用汽車(chē)的工廠規(guī)劃和機(jī)器人技術(shù); 6G網(wǎng)絡(luò):英偉達(dá)將與 T-Mobile、Mitre、思科、ODC和Booz Allen Hamilton合作開(kāi)發(fā)AI原生6G無(wú)線網(wǎng)絡(luò)的硬件、軟件和架構(gòu)。
歡迎來(lái)到GTC!這是一個(gè)了不起的一年,我們想在NVIDIA做到這一點(diǎn),所以通過(guò)人工智能的魔力,我們將帶你到NVIDIA的總部。你覺(jué)得怎么樣?這里是我們工作的地方。
這是一個(gè)了不起的一年,我們有很多令人難以置信的事情要討論,我想讓你知道,我在這里沒(méi)有安全網(wǎng),沒(méi)有腳本,沒(méi)有提詞器,我有很多內(nèi)容要提及,所以讓我們開(kāi)始吧。
首先,我想感謝所有贊助商,所有參與這個(gè)會(huì)議的了不起的人,幾乎每個(gè)行業(yè)都有代表,醫(yī)療在這里,交通,零售,計(jì)算機(jī)行業(yè),整個(gè)計(jì)算機(jī)行業(yè)都在這里,所以看到你們所有人真的很棒,謝謝你們的贊助。
GTC始于GeForce,今天我?guī)?lái)了一塊GeForce 5090。難以置信,我們研究GeForce25年后的今天,GeForce在全球都賣(mài)光了,這是90,Blackwell一代,和4090相比,你看它的體積小了30%,散熱效提高高了30%,性能令人難以置信。GeForce將Cuda帶到了世界,Cuda使AI成為可能,現(xiàn)在AI又回來(lái)對(duì)計(jì)算機(jī)圖形帶來(lái)了革命。
你看到的是實(shí)時(shí)計(jì)算機(jī)圖形,對(duì)每個(gè)像素100%路徑追蹤渲染,人工智能預(yù)測(cè)另外15%,想一想,每一個(gè)我們數(shù)學(xué)渲染的像素,人工智能推斷另外15%,它必須以如此高的精度做到這一點(diǎn),圖像看起來(lái)是正確的,并且在時(shí)間上準(zhǔn)確,這意味著從一幀到另一幀,無(wú)論是向前還是向后必須保持時(shí)間穩(wěn)定,令人難以置信,人工智能取得了非凡的進(jìn)步,現(xiàn)在才10年。
人工智能的四個(gè)階段
我們談?wù)揂I的時(shí)間比這稍長(zhǎng),但AI真正進(jìn)入世界意識(shí)大約是十年前,開(kāi)始于感知AI,計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別,然后是生成式AI。
感知式AI——生成式AI——代理式AI——物理式AI
過(guò)去5年我們主要關(guān)注生成式AI,教AI如何從一種模式翻譯到另一種模式,文本到圖像,圖像到文本,文本到視頻,氨基酸到蛋白質(zhì),元素到化學(xué)品,我們可以用AI生成內(nèi)容的所有不同方式。
生成式AI從根本上改變了計(jì)算方式,從檢索計(jì)算模型,我們現(xiàn)在有生成計(jì)算模型,過(guò)去我們幾乎所做的一切都是提前創(chuàng)建內(nèi)容,存儲(chǔ)多個(gè)版本,然后在使用的時(shí)刻獲取我們認(rèn)為合適的版本。
過(guò)去三年發(fā)生了重大突破,人工智能取得了根本性的進(jìn)步,我們稱之為代理式人工智能。這種AI意味著我們將會(huì)有一個(gè)具有代理權(quán)限的AI,它能夠感知并理解環(huán)境的上下文。更重要的是,它能夠推理如何回答或解決問(wèn)題,并能夠計(jì)劃行動(dòng)。它能夠計(jì)劃并采取行動(dòng)。
它能夠使用工具,因?yàn)樗F(xiàn)在理解多模態(tài)信息。它可以訪問(wèn)一個(gè)網(wǎng)站,查看網(wǎng)站的格式、文字和視頻,甚至播放視頻。從該網(wǎng)站學(xué)習(xí)的內(nèi)容,理解之后,再回來(lái)利用這些信息,用這些新獲得的知識(shí)來(lái)完成它的工作。
這就是有能動(dòng)性的人工智能。當(dāng)然,有能動(dòng)性的人工智能的基礎(chǔ)是非常新的推理能力。
當(dāng)然,下一波浪潮已經(jīng)開(kāi)始。我們今天將討論這一點(diǎn)——由物理人工智能賦能的機(jī)器人技術(shù)。能夠理解物理世界的人工智能。它理解摩擦和慣性、因果關(guān)系、物體恒常性等概念。因此,理解物理世界、三維世界的能力將開(kāi)啟我們稱之為物理人工智能的新時(shí)代,并將促進(jìn)機(jī)器人技術(shù)的發(fā)展。
這每一個(gè)階段,每一波浪潮,都為我們所有人開(kāi)啟了新的市場(chǎng)機(jī)會(huì)。它為GTC帶來(lái)了更多新的伙伴。因此,GTC現(xiàn)在濟(jì)濟(jì)一堂。要在GTC容納更多人,我們必須在圣荷塞擴(kuò)展。我們正在努力實(shí)現(xiàn)這一點(diǎn)。我們有很多土地可以利用。我們必須擴(kuò)展圣荷塞,以便能夠舉辦GTC。在這里站著時(shí),我希望你們都能看到我所看到的。我們正處于一個(gè)體育場(chǎng)的中間。
去年是我們首次恢復(fù)現(xiàn)場(chǎng)舉辦這一活動(dòng),它就像一場(chǎng)搖滾音樂(lè)會(huì)。GTC被形容為人工智能的伍德斯托克(注:世界上最著名的系列性搖滾音樂(lè)節(jié)之一),今年被形容為人工智能的超級(jí)碗。唯一的不同是,所有人在這個(gè)超級(jí)碗中都是贏家。所以每一年,參與的人數(shù)都在增加,因?yàn)槿斯ぶ悄苣軌驗(yàn)楦嘈袠I(yè)和公司解決更有趣的問(wèn)題。
預(yù)訓(xùn)練擴(kuò)展——后訓(xùn)練擴(kuò)展——測(cè)試-時(shí)間擴(kuò)展
今年,我們將討論很多關(guān)于有能動(dòng)性的人工智能和物理人工智能的內(nèi)容。從根本上說(shuō),推動(dòng)每一波每一階段人工智能的三個(gè)基本問(wèn)題是:
第一,你如何解決數(shù)據(jù)問(wèn)題?這個(gè)問(wèn)題重要的原因是因?yàn)槿斯ぶ悄苁且环N數(shù)據(jù)驅(qū)動(dòng)的計(jì)算機(jī)科學(xué)方法。它需要數(shù)據(jù)來(lái)學(xué)習(xí),需要數(shù)字經(jīng)驗(yàn)來(lái)學(xué)習(xí),從中獲取知識(shí),并獲得數(shù)字經(jīng)驗(yàn)。你如何解決數(shù)據(jù)問(wèn)題?
第二,你如何解決訓(xùn)練問(wèn)題?而且是在沒(méi)有人參與的情況下。有人參與的原因根本上是一個(gè)挑戰(zhàn),因?yàn)槲覀冎挥杏邢薜臅r(shí)間,而我們希望人工智能能夠以超越人類的速率、實(shí)時(shí)的速率學(xué)習(xí),并能夠以人類無(wú)法跟上的規(guī)模進(jìn)行學(xué)習(xí)。因此第二個(gè)問(wèn)題是,如何訓(xùn)練模型?
第三,如何實(shí)現(xiàn)規(guī)模化?你如何創(chuàng)造、如何找到一個(gè)算法,只要你提供更多的資源,無(wú)論資源是什么,人工智能就會(huì)變得更聰明?這就是擴(kuò)展法則(Scaling Law)那么,在過(guò)去一年里,幾乎全世界都誤判了這一點(diǎn)。人工智能的計(jì)算需求、規(guī)模法則更加彈性,實(shí)際上是超加速的。由于有能動(dòng)的人工智能,推理的結(jié)果,我們目前所需的計(jì)算量,比去年這個(gè)時(shí)候我們認(rèn)為的多得多,容易達(dá)到100倍。
讓我們推理一下為什么這是真的。首先,從AI能做什么開(kāi)始,我從后往前推導(dǎo)。代理AI的基礎(chǔ)是推理,我們現(xiàn)在有了可以推理的AI。推理從根本上說(shuō)是將問(wèn)題一步步分解,也許它會(huì)用幾種不同的方法處理一個(gè)問(wèn)題,然后選擇最佳答案;也許它會(huì)以多種方式解決同一個(gè)問(wèn)題,確保答案一致;或者在得出答案后,將答案代入方程——比如二次方程——以確認(rèn)答案確實(shí)正確,而不是一次性直接吐出答案。還記得兩年前我們開(kāi)始使用ChatGPT時(shí),盡管它是個(gè)奇跡,許多復(fù)雜問(wèn)題和簡(jiǎn)單問(wèn)題它都答不對(duì),這是可以理解的。
它基于預(yù)訓(xùn)練數(shù)據(jù)一次性回答,無(wú)論從其他經(jīng)驗(yàn)中學(xué)到了什么,它就一次性吐出來(lái),像個(gè)預(yù)言家。現(xiàn)在我們有了可以一步步推理的AI,使用一種叫做“思維鏈”(Chain of Thought)的技術(shù),通過(guò)最佳答案一致性檢查、多種不同的路徑規(guī)劃和一系列技術(shù),我們現(xiàn)在有了可以分解問(wèn)題、一步步推理的AI。
你可以想象,因此我們生成的Token數(shù)量大幅增加。AI的基本技術(shù)仍然是生成下一個(gè)Token、預(yù)測(cè)下一個(gè)Token,只是現(xiàn)在下一個(gè)Token構(gòu)成了第一步,然后在生成第一步后,下一個(gè)Token又進(jìn)入AI的輸入,生成第二步、第三步、第四步。所以不是簡(jiǎn)單地生成一個(gè)Token或一個(gè)詞接著下一個(gè),它生成一系列代表推理步驟的詞語(yǔ)。因此生成的Token數(shù)量大幅增加,我馬上會(huì)展示給你看,輕松達(dá)到100倍以上。100倍更多意味著什么?
它可以生成100倍更多的Token,正如我之前解釋的那樣,你可以看到這種情況;或者模型變得更復(fù)雜,它生成10倍更多的Token。為了讓模型保持響應(yīng)性和互動(dòng)性,讓我們不至于失去耐心等待它思考,我們現(xiàn)在必須計(jì)算快10倍。所以10倍Token、10倍速度,我們必須做的計(jì)算量輕松達(dá)到100倍。在接下來(lái)的演講中你會(huì)看到,我們?yōu)橥评恚↖nference)所做的計(jì)算量比過(guò)去高得多。
那么問(wèn)題來(lái)了,我們?nèi)绾谓藺I做到我剛才描述的事情,如何執(zhí)行這個(gè)思維鏈?一種方法是你必須教AI如何推理。正如我之前提到的,在訓(xùn)練中有兩個(gè)基本問(wèn)題需要解決:數(shù)據(jù)從哪里來(lái)?如何不讓它受限于人類參與?我們能提供的數(shù)據(jù)和人類演示是有限的。所以這是過(guò)去幾年的重大突破——強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning),可驗(yàn)證的結(jié)果。基本上是AI的強(qiáng)化學(xué)習(xí),當(dāng)它嘗試一步步解決問(wèn)題時(shí),我們?nèi)祟悮v史上已經(jīng)解決了很多問(wèn)題,我們知道答案。
我們知道如何解二次方程,知道如何解畢達(dá)哥拉斯定理,知道直角三角形的規(guī)則,知道許多數(shù)學(xué)、幾何、邏輯和科學(xué)的規(guī)則。我們有拼圖游戲,可以給它約束條件,比如數(shù)獨(dú)這樣的問(wèn)題,諸如此類。我們有數(shù)百個(gè)這樣的問(wèn)題領(lǐng)域,可以生成數(shù)百萬(wàn)個(gè)不同的例子,給AI數(shù)百次機(jī)會(huì)一步步解決,我們使用強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)它,當(dāng)它做得越來(lái)越好時(shí)。
因此,你拿數(shù)百個(gè)不同的主題、數(shù)百萬(wàn)個(gè)不同的例子、每次嘗試數(shù)百次,每次嘗試生成數(shù)萬(wàn)Token,把這些加起來(lái),我們談?wù)摰氖菙?shù)萬(wàn)億、數(shù)萬(wàn)億Token來(lái)訓(xùn)練那個(gè)模型。現(xiàn)在有了強(qiáng)化學(xué)習(xí),我們有能力生成大量Token——合成數(shù)據(jù)生成,基本上用機(jī)器人方法教AI。這兩者的結(jié)合,給行業(yè)帶來(lái)了巨大的計(jì)算挑戰(zhàn),你可以看到行業(yè)正在做出回應(yīng)。
我接下來(lái)要展示的是Hopper,來(lái)自四大CSP(云服務(wù)提供商)的出貨量。這四大CSP是指擁有公共云的那些——亞馬遜、Azure、GCP和OCI,不包括AI公司,不包括所有初創(chuàng)公司,不包括企業(yè),還有很多沒(méi)包括在內(nèi),只是這四個(gè),給你一個(gè)對(duì)比感,Hopper的巔峰年與Blackwell的第一年。
你可以看出,AI確實(shí)在經(jīng)歷一個(gè)拐點(diǎn),它變得更有用,因?yàn)樗斆鳎梢酝评恚桓嗳耸褂谩D隳芸闯鰜?lái)它被更多人使用,因?yàn)楝F(xiàn)在你用ChatGPT時(shí),似乎要等的時(shí)間越來(lái)越長(zhǎng),這是好事,說(shuō)明很多人用得很有效。訓(xùn)練這些模型和推理這些模型所需的計(jì)算量增長(zhǎng)得太驚人了。所以僅在一年內(nèi),Blackwell剛開(kāi)始出貨,僅在一年內(nèi),你可以看到AI基礎(chǔ)設(shè)施的驚人增長(zhǎng)。
這在整個(gè)計(jì)算領(lǐng)域都有體現(xiàn)
我們現(xiàn)在看到,紫色是分析師的預(yù)測(cè),關(guān)于未來(lái)全球數(shù)據(jù)中心的資本支出增加,包括CSP和企業(yè)等等,到2030年底。我之前說(shuō)過(guò),我預(yù)計(jì)數(shù)據(jù)中心的建設(shè)將達(dá)到一萬(wàn)億美元,我相當(dāng)確定我們很快就會(huì)達(dá)到這個(gè)數(shù)字。
有兩個(gè)動(dòng)態(tài)同時(shí)發(fā)生。第一個(gè)動(dòng)態(tài)是,這種增長(zhǎng)的絕大部分可能是加速的,意思是我們?cè)缇椭劳ㄓ糜?jì)算已經(jīng)走到盡頭,我們需要一種新的計(jì)算方法。世界正在經(jīng)歷從手寫(xiě)軟件運(yùn)行在通用計(jì)算機(jī)上,到機(jī)器學(xué)習(xí)軟件運(yùn)行在加速器和GPU上的平臺(tái)轉(zhuǎn)變。這種計(jì)算方式此時(shí)此刻已經(jīng)過(guò)了臨界點(diǎn),我們現(xiàn)在看到拐點(diǎn)發(fā)生在全球數(shù)據(jù)中心的建設(shè)中。所以第一件事是計(jì)算方式的轉(zhuǎn)變。
第二是人們?cè)絹?lái)越認(rèn)識(shí)到,未來(lái)軟件需要資本投資。這是一個(gè)非常大的想法。過(guò)去我們編寫(xiě)軟件并在計(jì)算機(jī)上運(yùn)行,未來(lái)計(jì)算機(jī)將為軟件生成Token。所以計(jì)算機(jī)變成了Token生成器,從基于檢索的計(jì)算到基于生成的計(jì)算,從過(guò)去建設(shè)數(shù)據(jù)中心的老方法,到建設(shè)這些基礎(chǔ)設(shè)施的新方法。
我稱它們?yōu)锳I工廠,它們是AI工廠,因?yàn)樗鼈冎挥幸粋€(gè)工作——生成這些不可思議的Token,然后我們將這些Token重組為音樂(lè)、文字、視頻、研究、化學(xué)物質(zhì)或蛋白質(zhì),重組為各種不同類型的信息。所以世界正在經(jīng)歷一場(chǎng)變革,不僅是數(shù)據(jù)中心建設(shè)數(shù)量的變革,還有建設(shè)方式的變革。
英偉達(dá)CUDA的應(yīng)用庫(kù)
數(shù)據(jù)中心里的一切都將被加速,但并非所有都是AI。我想在這點(diǎn)上說(shuō)幾句。這個(gè)幻燈片是我最喜歡的,原因在于,所有這些年來(lái)參加GTC的人,你們一直在聽(tīng)我講這些庫(kù)(Libraries)。這實(shí)際上就是GTC的全部?jī)?nèi)容,這一頁(yè)幻燈片。
事實(shí)上,很久以前,20年前,這是我們唯一的一頁(yè)幻燈片,一個(gè)庫(kù)接一個(gè)庫(kù)接一個(gè)庫(kù)。你不能僅僅加速軟件,就像我們需要一個(gè)AI框架來(lái)創(chuàng)建AI一樣,我們加速了AI框架,你需要物理學(xué)、生物學(xué)、多物理學(xué)的框架,還有量子物理學(xué),你需要各種庫(kù)和框架,我們稱之為CUDA X庫(kù),每個(gè)科學(xué)領(lǐng)域的加速框架。
所以第一個(gè)很不可思議,這是CuPy Numeric,NumPy是全球下載量第一的Python庫(kù),最常用的Python庫(kù),去年下載了4億次。Cu Litho是計(jì)算和CuPy Numeric,是NumPy的零改動(dòng)加速替代品。所以如果你們中有誰(shuí)在使用NumPy,試試CuPy Numeric,你會(huì)愛(ài)上它的。
Cu Litho,一個(gè)計(jì)算光刻庫(kù),在過(guò)去四年里,我們現(xiàn)在已經(jīng)接管了整個(gè)計(jì)算光刻過(guò)程,這是晶圓廠里的第二工廠,有一個(gè)制造晶圓的工廠,還有一個(gè)制造信息的工廠來(lái)制造晶圓。未來(lái)每個(gè)行業(yè)、每個(gè)公司有工廠的,都將有兩個(gè)工廠:一個(gè)是他們制造東西的工廠,一個(gè)是數(shù)學(xué)的工廠,AI的工廠——汽車(chē)工廠,汽車(chē)的AI工廠;智能音箱工廠,智能音箱的AI工廠。所以Cu Litho是我們的計(jì)算光刻技術(shù)。
臺(tái)積電、三星、ASML是我們的合作伙伴,Synopsys(注:新思科技,一家美國(guó)電子設(shè)計(jì)自動(dòng)化公司,專注于芯片設(shè)計(jì)和驗(yàn)證、芯片知識(shí)產(chǎn)權(quán)和計(jì)算機(jī)安全)、Mentor(注:明導(dǎo)國(guó)際,一家從事電子設(shè)計(jì)自動(dòng)化的跨國(guó)公司),全方位的驚人支持。我認(rèn)為這現(xiàn)在到了臨界點(diǎn),再過(guò)五年,每一個(gè)掩模、每一個(gè)光刻,都將在NVIDIA CUDA上處理。
ARIEL是我們的5G庫(kù),將GPU變成5G無(wú)線電,為什么不呢?信號(hào)處理是我們非常擅長(zhǎng)的,一旦做到這一點(diǎn),我們可以在上面疊加AI,AI for RAN(無(wú)線接入網(wǎng)),或者我們稱之為AI RAN,下一代無(wú)線電網(wǎng)絡(luò),將深度嵌入AI。為什么我們受限于信息理論的限制?因?yàn)轭l譜信息只有那么多,如果我們加入AI,就不會(huì)了。
CUOPT,數(shù)值或數(shù)學(xué)優(yōu)化,幾乎每個(gè)行業(yè)都在用這個(gè),當(dāng)你規(guī)劃座位和航班、庫(kù)存和客戶、工人和工廠、司機(jī)和乘客等等,我們有多個(gè)約束條件、一大堆變量,你在優(yōu)化時(shí)間、利潤(rùn)、服務(wù)質(zhì)量、資源使用,無(wú)論是什么。NVIDIA用它來(lái)管理我們的供應(yīng)鏈,CuOpt是一個(gè)不可思議的庫(kù),它將需要數(shù)小時(shí)的事情變成幾秒鐘。這之所以是大突破,是因?yàn)槲覀儸F(xiàn)在可以探索更大的空間。
我們宣布將CuOpt開(kāi)源,幾乎每個(gè)人都在用,Gurobi(注:一家開(kāi)發(fā)用于計(jì)算最優(yōu)解軟件的公司)、IBM CPLEX或FICO(注:公司使用預(yù)測(cè)分析技術(shù)幫助企業(yè)在整個(gè)組織和客戶生命周期中實(shí)現(xiàn)決策的自動(dòng)化),我們與這三家都在合作,行業(yè)對(duì)此非常興奮,我們即將把這個(gè)行業(yè)加速得天翻地覆。
PARABRICKS用于基因測(cè)序和基因分析。
MONAI是世界領(lǐng)先的醫(yī)學(xué)影像庫(kù)。
Earth-2多物理學(xué),用于超高分辨率預(yù)測(cè)局部天.
Cu Quantum和CUDA Q,我們將在GTC舉辦首個(gè)量子日,我們與生態(tài)系統(tǒng)中幾乎所有人合作,要么幫助他們研究量子架構(gòu)、量子算法,要么構(gòu)建經(jīng)典加速量子異構(gòu)架構(gòu),所以那里有非常激動(dòng)人心的工作。
Cu Equivariance和Cu Tensor用于張量收縮,量子化學(xué)。當(dāng)然是這個(gè)世界聞名的技術(shù)棧。
人們以為只有一個(gè)軟件叫CUDA,但實(shí)際上在CUDA之上,有一大堆庫(kù),集成到生態(tài)系統(tǒng)的各個(gè)部分、軟件和基礎(chǔ)設(shè)施中,以實(shí)現(xiàn)AI。
我今天要宣布一個(gè)新的,Cu DSS,我們的稀疏求解器,對(duì)CAE(計(jì)算機(jī)輔助工程)非常重要,這是去年發(fā)生的最重要的事情之一,與Cadence(注:電子設(shè)計(jì)自動(dòng)化軟件與工程服務(wù)廠商)、Synopsys、Ansys(注:研發(fā)CAE或多物理場(chǎng)工程仿真軟件)等合作,還有所有系統(tǒng)公司,我們現(xiàn)在幾乎讓每一個(gè)重要的EDA和CAE庫(kù)得以加速。
令人驚訝的是,NVIDIA以前一直在用通用計(jì)算機(jī),運(yùn)行軟件超級(jí)慢,為其他人設(shè)計(jì)加速計(jì)算機(jī),原因是我們以前沒(méi)有針對(duì)AIDA優(yōu)化的軟件。所以現(xiàn)在我們整個(gè)行業(yè)將得到超級(jí)加速,隨著我們轉(zhuǎn)向加速計(jì)算。
CuDF,一個(gè)用于結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)框架,我們現(xiàn)在為Spark和Pandas提供了加速替代品,太不可思議了。
然后我們有WARP,一個(gè)在Python中運(yùn)行的物理庫(kù),用于CUDA的物理庫(kù),我們有一個(gè)大公告,我先按下不表。
這只是使加速計(jì)算成為可能的部分庫(kù)樣本,不僅僅是CUDA,我們?yōu)镃UDA感到非常驕傲,但如果沒(méi)有CUDA以及我們龐大的安裝基礎(chǔ),這些庫(kù)對(duì)使用它們的開(kāi)發(fā)者毫無(wú)用處。
對(duì)所有使用它們的開(kāi)發(fā)者來(lái)說(shuō),你們用它因?yàn)橐皇撬芙o你驚人的加速,能給你驚人的擴(kuò)展,二是因?yàn)镃UDA的安裝基礎(chǔ)現(xiàn)在無(wú)處不在,它在每個(gè)云端,每個(gè)數(shù)據(jù)中心,全球每一家計(jì)算機(jī)公司都有,它真的無(wú)處不在。
因此,通過(guò)使用這些庫(kù)之一,你的軟件,你了不起的軟件,可以觸達(dá)所有人。所以我們現(xiàn)在達(dá)到了加速計(jì)算的臨界點(diǎn),CUDA讓這一切成為可能,而你們所有人,這就是GTC的意義所在,生態(tài)系統(tǒng),你們所有人讓這一切成為可能。
自2006年以來(lái),600萬(wàn)開(kāi)發(fā)者,來(lái)自200多個(gè)國(guó)家,使用了CUDA并改變了計(jì)算,擁有超過(guò)900個(gè)CUDA X庫(kù)和AI模型。你們?cè)诩铀倏茖W(xué),重塑行業(yè),賦予機(jī)器看見(jiàn)、學(xué)習(xí)和推理的能力。現(xiàn)在,NVIDIA Blackwell比第一代CUDA GPU快5萬(wàn)倍,這些數(shù)量級(jí)的速度和規(guī)模提升,正在縮小仿真與實(shí)時(shí)數(shù)字孿生之間的差距。對(duì)你們來(lái)說(shuō),這只是開(kāi)始,我們迫不及待想看到你們接下來(lái)做什么。
我愛(ài)我們所做的事,我更愛(ài)你們用它做的事。在我33年做這件事的過(guò)程中,最觸動(dòng)我的一件事是一位科學(xué)家對(duì)我說(shuō):“黃仁勛,因?yàn)槟愕墓ぷ鳎夷茉谟猩晖瓿晌耶吷墓ぷ鳌!比绻@都不能觸動(dòng)你,那你一定是僵尸。
所以這一切都是關(guān)于你們,謝謝大家。
好了,我們要談?wù)凙I,但你知道,AI起源于云端,它起源于云端是有原因的,因?yàn)槭聦?shí)證明AI需要基礎(chǔ)設(shè)施。它是機(jī)器學(xué)習(xí),如果科學(xué)說(shuō)的是機(jī)器學(xué)習(xí),那你就需要一臺(tái)機(jī)器來(lái)做科學(xué)。所以機(jī)器學(xué)習(xí)需要基礎(chǔ)設(shè)施,而云端數(shù)據(jù)中心有基礎(chǔ)設(shè)施,它們還有卓越的計(jì)算機(jī)科學(xué)、卓越的研究,AI在云端起飛的完美條件,在CSP(云服務(wù)提供商)中。
但AI不會(huì)僅限于此,AI將無(wú)處不在,我們將以多種不同的方式談?wù)揂I。云服務(wù)提供商當(dāng)然喜歡我們的尖端技術(shù),他們喜歡我們有全棧,因?yàn)檎缥抑敖忉尩模铀儆?jì)算不僅僅是芯片,不僅僅是芯片加庫(kù),編程模型是芯片,編程模型,還有上面的一大堆軟件,整個(gè)堆棧極其復(fù)雜。每一層,每一個(gè)庫(kù),本質(zhì)上就像SQL,你知道SQL在存儲(chǔ)計(jì)算中,是IBM帶來(lái)的計(jì)算大革命,SQL只是一個(gè)庫(kù)。
想象一下,我剛給你展示了一大堆,而在AI的情況下還有更多。所以這個(gè)堆棧很復(fù)雜。他們還喜歡這樣一個(gè)事實(shí),CSP喜歡NVIDIA CUDA開(kāi)發(fā)者是他們的客戶,因?yàn)闅w根結(jié)底,我們是為全世界建設(shè)基礎(chǔ)設(shè)施的。所以豐富的開(kāi)發(fā)者生態(tài)系統(tǒng)非常有價(jià)值,非常非常受重視。
現(xiàn)在我們要將AI帶到世界其他地方,世界其他地方有不同的系統(tǒng)配置、不同的運(yùn)行環(huán)境、特定領(lǐng)域的庫(kù)差異、使用差異。所以AI在轉(zhuǎn)向企業(yè)、轉(zhuǎn)向制造業(yè)、轉(zhuǎn)向機(jī)器人技術(shù)、自動(dòng)駕駛汽車(chē),甚至是開(kāi)始做GPU云的公司時(shí),有大約20家公司在NVIDIA時(shí)代開(kāi)始的,他們只做一件事——托管GPU,他們稱自己為GPU云。
我們的一位偉大合作伙伴CoreWeave正在上市過(guò)程中,我們?yōu)樗麄兏械椒浅r湴痢K訥PU云有他們自己的需求,但我超級(jí)興奮的一個(gè)領(lǐng)域是邊緣(Edge)。今天我們宣布,思科、NVIDIA、T-Mobile——全球最大的電信公司——Cerebras、ODC,將為美國(guó)的無(wú)線電網(wǎng)絡(luò)建設(shè)一個(gè)全棧。這將是第二個(gè)堆棧,所以這個(gè)當(dāng)前堆棧,我們今天宣布的,將把AI帶入邊緣。
記住,每年全球在無(wú)線電網(wǎng)絡(luò)上的資本投資,以及為通信準(zhǔn)備的所有數(shù)據(jù)中心,高達(dá)一千億美元。我毫不懷疑,未來(lái)這些都將被加速計(jì)算和AI融合。AI將做得更好,更好地適應(yīng)無(wú)線電信號(hào),大規(guī)模MIMO適應(yīng)不斷變化的環(huán)境和流量條件。當(dāng)然,我們會(huì)用強(qiáng)化學(xué)習(xí)來(lái)做到這一點(diǎn),當(dāng)然,MIMO本質(zhì)上是一個(gè)巨大的無(wú)線電機(jī)器人,當(dāng)然是的。所以我們當(dāng)然會(huì)提供這些能力,當(dāng)然,AI可以革命化通信。
你知道,當(dāng)我打電話回家時(shí),不需要多說(shuō)幾句話,因?yàn)槲移拮又牢以谀睦锕ぷ鳎抢锏那闆r如何,對(duì)話從昨天繼續(xù),她有點(diǎn)記得我喜歡什么不喜歡什么,常常幾句話就傳達(dá)了很多。原因在于上下文和人類的先驗(yàn)知識(shí)。將這些能力結(jié)合起來(lái),可以革命化通信。看看它對(duì)視頻處理做了什么,看看我之前描述的3D圖形,所以我們當(dāng)然也會(huì)為邊緣做同樣的事情。我對(duì)我們今天宣布的消息超級(jí)興奮,T-Mobile、思科、NVIDIA、Cerebras、ODC,將要建設(shè)一個(gè)全棧。
汽車(chē)行業(yè)與智能駕駛
AI將進(jìn)入每個(gè)行業(yè),這是AI最早進(jìn)入的行業(yè)之一——自動(dòng)駕駛汽車(chē)。當(dāng)我看到AlexNet的那一刻,我們已經(jīng)研究計(jì)算機(jī)視覺(jué)很久了,看到AlexNet的那一刻是如此激動(dòng)人心,它促使我們決定全力投入開(kāi)發(fā)自動(dòng)駕駛汽車(chē)。所以我們現(xiàn)在已經(jīng)研發(fā)自動(dòng)駕駛汽車(chē)超過(guò)十年,我們構(gòu)建的技術(shù)幾乎被每一家自動(dòng)駕駛汽車(chē)公司使用。數(shù)據(jù)中心,比如特斯拉在數(shù)據(jù)中心用了很多NVIDIA GPU;可能是數(shù)據(jù)中心或車(chē)內(nèi),Waymo和Wave在數(shù)據(jù)中心和車(chē)內(nèi)都用了NVIDIA計(jì)算機(jī);可能只是車(chē)內(nèi),這種情況很少,但有時(shí)只是車(chē)內(nèi),或者他們還用了我們所有的軟件。
我們與汽車(chē)行業(yè)合作,無(wú)論汽車(chē)行業(yè)希望我們?nèi)绾魏献鳎覀儤?gòu)建了所有三種計(jì)算機(jī)——訓(xùn)練計(jì)算機(jī)、仿真計(jì)算機(jī)和機(jī)器人計(jì)算機(jī),自動(dòng)駕駛汽車(chē)計(jì)算機(jī),上面所有的軟件堆棧,模型和算法,就像我展示的所有其他行業(yè)一樣。
所以今天我超級(jí)興奮地宣布,通用汽車(chē)(GM)選擇NVIDIA與他們合作,打造他們未來(lái)的自動(dòng)駕駛車(chē)隊(duì)。自動(dòng)駕駛汽車(chē)的時(shí)代已經(jīng)到來(lái),我們期待與GM一起打造AI,在三個(gè)領(lǐng)域:制造的AI,讓他們革命化制造方式;企業(yè)的AI,讓他們革命化工作方式,設(shè)計(jì)汽車(chē)和仿真汽車(chē);還有車(chē)內(nèi)的AI。
所以為GM打造AI基礎(chǔ)設(shè)施,與GM合作,與GM一起構(gòu)建他們的AI,我對(duì)此超級(jí)興奮。我非常驕傲的一個(gè)領(lǐng)域,但很少受到關(guān)注的是安全,汽車(chē)安全。在我們公司里這叫做Halos,Halos安全。安全需要從硅片到系統(tǒng)到系統(tǒng)軟件的技術(shù),算法、方法論,一切從多樣性到確保多樣性、監(jiān)控和透明性、可解釋性,所有這些不同的理念,必須深深植根于你開(kāi)發(fā)系統(tǒng)和軟件的每一個(gè)部分。
我相信我們是全球第一家,每一行代碼都經(jīng)過(guò)安全評(píng)估的公司,700萬(wàn)行代碼經(jīng)過(guò)安全評(píng)估。我們的芯片、我們的系統(tǒng)、我們的系統(tǒng)軟件和我們的算法,都由第三方安全評(píng)估,他們逐行檢查代碼,確保設(shè)計(jì)時(shí)考慮了多樣性、透明性和可解釋性。我們還擁有超過(guò)一千項(xiàng)專利,在這次GTC期間,我真的鼓勵(lì)你們?nèi)⒓親alos研討會(huì),這樣你們可以看到所有匯聚在一起的東西,確保未來(lái)的汽車(chē)既安全又自主。所以這是我非常驕傲的事情,它很少受到關(guān)注,所以這次我想多花點(diǎn)時(shí)間談?wù)勥@個(gè)。
好了,NVIDIA Halos,你們都見(jiàn)過(guò)汽車(chē)自己開(kāi),Waymo的機(jī)器人出租車(chē)很不可思議,但我們制作了一個(gè)視頻,與你們分享我們用來(lái)解決數(shù)據(jù)和訓(xùn)練問(wèn)題的一些技術(shù),以及多樣性,這樣我們就可以用AI的魔力去創(chuàng)造AI。讓我們來(lái)看看。
NVIDIA正在為自動(dòng)駕駛(AV)加速AI開(kāi)發(fā),使用Omniverse和Cosmos。Cosmos的預(yù)測(cè)和推理能力支持端到端可訓(xùn)練的AI優(yōu)先AV系統(tǒng),采用新的開(kāi)發(fā)方法——模型蒸餾(Model Distillation)、閉環(huán)訓(xùn)練(Closed-Loop Training)和合成數(shù)據(jù)生成。首先,模型蒸餾,作為策略模型,Cosmos的駕駛知識(shí)從一個(gè)較慢的智能老師,轉(zhuǎn)移到一個(gè)更小、更快的學(xué)生模型,在車(chē)內(nèi)進(jìn)行推理。老師的策略模型展示了最佳軌跡,學(xué)生模型通過(guò)迭代學(xué)習(xí),直到它的表現(xiàn)幾乎與老師一樣。
蒸餾過(guò)程啟動(dòng)了一個(gè)策略模型,但復(fù)雜場(chǎng)景需要進(jìn)一步調(diào)整。閉環(huán)訓(xùn)練使策略模型得以微調(diào),日志數(shù)據(jù)被轉(zhuǎn)化為3D場(chǎng)景,在基于物理的仿真中使用Omniverse進(jìn)行閉環(huán)駕駛。神經(jīng)重建,這些場(chǎng)景的變體被創(chuàng)建,測(cè)試模型的軌跡生成能力。
Cosmos行為評(píng)估器隨后可以評(píng)分生成的駕駛行為,衡量模型性能。新生成的場(chǎng)景及其評(píng)估,為閉環(huán)訓(xùn)練創(chuàng)建了大型數(shù)據(jù)集,幫助AV更穩(wěn)健地導(dǎo)航復(fù)雜場(chǎng)景。最后,3D合成數(shù)據(jù)生成,增強(qiáng)AV對(duì)多樣環(huán)境的適應(yīng)性。從日志數(shù)據(jù)中,Omniverse通過(guò)融合地圖和圖像,構(gòu)建詳細(xì)的4D駕駛環(huán)境,生成真實(shí)世界的數(shù)字孿生,包括分割以指導(dǎo)Cosmos,通過(guò)分類每個(gè)像素。Cosmos然后通過(guò)生成準(zhǔn)確多樣的場(chǎng)景,擴(kuò)展訓(xùn)練數(shù)據(jù),縮小仿真與現(xiàn)實(shí)的差距。Omniverse和Cosmos使AV能夠?qū)W習(xí)、適應(yīng)和智能駕駛,推進(jìn)更安全的移動(dòng)性。
NVIDIA是做這件事的完美公司,天哪,那是我們的使命,用AI重新創(chuàng)造AI。我們展示給你們的技術(shù),與你們正在享受的、帶你們進(jìn)入數(shù)字孿生的技術(shù)非常相似,我們稱之為NVIDIA。
數(shù)據(jù)中心與AI工廠
好了,讓我們談?wù)剶?shù)據(jù)中心。Blackwell已全面投產(chǎn),這就是它的樣子,太不可思議了,你知道,對(duì)于我們這些人來(lái)說(shuō),這是一道美麗的風(fēng)景,你們同意嗎?怎么能不美呢?
這是一件大事,因?yàn)槲覀冊(cè)谟?jì)算機(jī)架構(gòu)上做出了根本性的轉(zhuǎn)變。我想讓你們知道,事實(shí)上,我在三年前向你們展示過(guò)這個(gè)的一個(gè)版本,當(dāng)時(shí)叫Grace Hopper,系統(tǒng)叫Ranger。Ranger系統(tǒng)大約是屏幕寬度的一半,那是世界上第一個(gè)NVLink 32。
三年前我們展示了Ranger的運(yùn)行,它太大了,但想法完全正確。我們?cè)噲D解決的是擴(kuò)展(Scale Up)的問(wèn)題。分布式計(jì)算是用很多不同的計(jì)算機(jī)一起解決一個(gè)非常大的問(wèn)題,但擴(kuò)展起來(lái)(Scale Up)比擴(kuò)展出去(Scale Out)更重要,兩者都很重要,但你得先擴(kuò)展起來(lái)再擴(kuò)展出去。擴(kuò)展起來(lái)非常難,沒(méi)有簡(jiǎn)單的答案。你不會(huì)拿一堆普通計(jì)算機(jī),連接成一個(gè)大網(wǎng)絡(luò),用Hadoop(分布式存儲(chǔ))做存儲(chǔ)計(jì)算。Hadoop是一個(gè)革命性的想法,我們知道它使超大規(guī)模數(shù)據(jù)中心能夠解決巨型問(wèn)題,用現(xiàn)成的計(jì)算機(jī)。然而,我們?cè)噲D解決的問(wèn)題太復(fù)雜了,那樣擴(kuò)展會(huì)耗費(fèi)太多電力、太多能源,深度學(xué)習(xí)永遠(yuǎn)不會(huì)發(fā)生。所以我們必須先擴(kuò)展起來(lái)。
這就是我們擴(kuò)展的方式。我不會(huì)舉起這個(gè),它有70磅,這是上一代系統(tǒng)架構(gòu),叫HGX。它徹底改變了我們所知的計(jì)算,徹底改變了人工智能。這是8個(gè)GPU,每個(gè)都像這樣。這是一個(gè)Blackwell封裝,里面有兩個(gè)Blackwell GPU,一個(gè)Blackwell封裝里兩個(gè)Blackwell GPU。
下面有八個(gè)這樣的。它連接到我們稱之為NVLink 8的東西,然后連接到一個(gè)CPU架,上面有雙CPU,通過(guò)PCI Express連接,然后很多這樣的東西通過(guò)Infiniband連接,變成了一個(gè)AI超級(jí)計(jì)算機(jī)。這是過(guò)去的方式,這是我們開(kāi)始的方式。
這是我們?cè)跀U(kuò)展出去之前擴(kuò)展到的程度,但我們想進(jìn)一步擴(kuò)展。我告訴過(guò)你們,Ranger把這個(gè)系統(tǒng)擴(kuò)展了四倍,所以我們有了NVLink 32,但系統(tǒng)太大了,所以我們必須做一些相當(dāng)了不起的事情,重新設(shè)計(jì)NVLink的工作方式和擴(kuò)展的方式。第一件事我們說(shuō),NVLink交換機(jī)嵌在主板上,我們需要解耦NVLink系統(tǒng),把它拿出來(lái)。這就是NVLink系統(tǒng),這是一個(gè)NVLink交換機(jī),這是世界上性能最高的交換機(jī),它讓每個(gè)GPU都能同時(shí)以全帶寬與每個(gè)GPU通信。
所以這是NVLink交換機(jī),我們解耦了它,拿出來(lái),放在機(jī)箱中央。這里有18個(gè)這樣的交換機(jī),分成9個(gè)不同的架子,我們稱之為交換機(jī)托盤(pán)。
然后交換機(jī)被解耦,計(jì)算部分現(xiàn)在在這里,相當(dāng)于這兩個(gè)東西的計(jì)算能力。令人驚訝的是,這完全是液冷的,通過(guò)液冷,我們可以將所有這些計(jì)算節(jié)點(diǎn)壓縮到一個(gè)機(jī)架中。
這是整個(gè)行業(yè)的大變革,你們?cè)趫?chǎng)的觀眾,我知道你們有多少人,我要感謝你們促成了這個(gè)從集成NVLink到解耦NVLink、從風(fēng)冷到液冷、從每臺(tái)計(jì)算機(jī)大約6萬(wàn)個(gè)零件到每個(gè)機(jī)架60萬(wàn)個(gè)零件的根本性轉(zhuǎn)變。120千瓦完全液冷,結(jié)果我們有了一臺(tái)一億億次浮點(diǎn)運(yùn)算(Exaflops)的計(jì)算機(jī),在一個(gè)機(jī)架里,這不是很不可思議嗎
所以這是計(jì)算節(jié)點(diǎn),這就是計(jì)算節(jié)點(diǎn),現(xiàn)在它能裝進(jìn)一個(gè)這樣的機(jī)架里。我們有3000磅,5000根電纜,大約2英里長(zhǎng),太不可思議的電子設(shè)備了,60萬(wàn)個(gè)零件,我想這相當(dāng)于20輛汽車(chē)的零件,集成成一臺(tái)超級(jí)計(jì)算機(jī)。我們的目標(biāo)是做到這個(gè),我們的目標(biāo)是擴(kuò)展,這就是它現(xiàn)在的樣子。
我們本質(zhì)上想造這個(gè)芯片,只是理論極限做不到,工藝技術(shù)也做不到。它有130萬(wàn)億個(gè)晶體管,其中20萬(wàn)億用于計(jì)算,所以你無(wú)法在短期內(nèi)合理地造出來(lái)。解決這個(gè)問(wèn)題的辦法就是像我描述的那樣解耦,變成Grace Blackwell NVLink 72機(jī)架,結(jié)果我們完成了世界上最極端的擴(kuò)展。
這里可能的計(jì)算量,內(nèi)存帶寬570太字節(jié)每秒,這臺(tái)機(jī)器里的一切現(xiàn)在都是以萬(wàn)億為單位,你有一億億次浮點(diǎn)運(yùn)算,也就是每秒一百萬(wàn)萬(wàn)億次浮點(diǎn)運(yùn)算。我們之所以想這樣做,是為了解決一個(gè)極端問(wèn)題,這個(gè)問(wèn)題很多人誤以為很簡(jiǎn)單,實(shí)際上它是終極的極端計(jì)算問(wèn)題,叫推理(Inference)。原因很簡(jiǎn)單,推理是工廠的Token生成,工廠是產(chǎn)生收入和利潤(rùn)的,或者不產(chǎn)生,所以這個(gè)工廠必須以極高的效率、極高的性能建造,因?yàn)檫@個(gè)工廠的一切直接影響你的服務(wù)質(zhì)量、你的收入和你的盈利能力。
讓我教你們?cè)趺纯催@個(gè)圖表。基本上有兩個(gè)軸,X軸是每秒Token數(shù),當(dāng)你用ChatGPT聊天,輸入提示后出來(lái)的是Token,這些Token被重新格式化為單詞,你知道,一個(gè)詞不止一個(gè)Token。比如“th”可以用于“the”、“them”、“theory”、“theatrics”等等,所以“th”是一個(gè)Token的例子,它們把這些Token重新格式化為單詞。
我們已經(jīng)確定,如果你想讓AI更聰明,你得生成一大堆Token,這些Token是推理Token、一致性檢查T(mén)oken、想出一堆點(diǎn)子然后選出最好的那些點(diǎn)子的Token,這些Token可能是自我懷疑,可能是它能做的最好工作,所以它自己跟自己對(duì)話,就像我們自己跟自己對(duì)話一樣。所以你生成的Token越多,你的AI就越聰明。
但如果你回答問(wèn)題花太長(zhǎng)時(shí)間,客戶就不會(huì)回來(lái),這跟網(wǎng)頁(yè)搜索沒(méi)什么區(qū)別,在它給出聰明答案之前能等的時(shí)間是有限的。所以你有兩個(gè)互相抗衡的維度,你想生成一大堆Token,但你想盡可能快地做到。因此,你的Token速率很重要,你希望每個(gè)用戶的每秒Token數(shù)盡可能快。
然而,在計(jì)算機(jī)科學(xué)和工廠里,延遲(響應(yīng)時(shí)間)和吞吐量之間有根本性的張力。原因很簡(jiǎn)單,如果你是大批量業(yè)務(wù),你會(huì)批量處理,叫批處理(Batching),你把很多客戶需求批量起來(lái),制造某個(gè)版本供大家以后消費(fèi)。然而,從他們批量制造到你消費(fèi)的時(shí)間可能很長(zhǎng)。所以計(jì)算機(jī)科學(xué)沒(méi)什么不同,AI工廠生成Token也沒(méi)什么不同,你有兩個(gè)根本性的張力。一方面,你希望客戶的服務(wù)質(zhì)量盡可能好,智能AI要超級(jí)快;另一方面,你試圖讓數(shù)據(jù)中心為盡可能多的人生產(chǎn)Token,以最大化你的收入。
完美的答案是右上角,理想情況下,這個(gè)曲線的形狀是一個(gè)正方形,你可以為每個(gè)人快速生成Token,直到工廠的極限。但沒(méi)有工廠能做到,所以它可能是某種曲線,你的目標(biāo)是最大化曲線下的面積,也就是X和Y的乘積,你推得越遠(yuǎn),越可能意味著你建的工廠越好。
結(jié)果是,整個(gè)工廠的每秒Token數(shù)和響應(yīng)時(shí)間的每秒Token數(shù),一個(gè)需要巨大的計(jì)算量(Flops),另一個(gè)維度需要巨大的帶寬和計(jì)算量,所以這是一個(gè)很難解決的問(wèn)題。好的答案是你得有很多計(jì)算量、很多帶寬、很多內(nèi)存,很多一切,這是最好的起點(diǎn),這就是為什么這是一臺(tái)偉大的計(jì)算機(jī)。你能得到的最多計(jì)算量、最多內(nèi)存、最多帶寬開(kāi)始,當(dāng)然還有最好的架構(gòu)、最好的能效,你得有一個(gè)編程模型,讓你能在這一切上運(yùn)行軟件,所以你能做到這個(gè)。
現(xiàn)在讓我們看一個(gè)演示,給你們一個(gè)我說(shuō)的直觀感覺(jué),請(qǐng)播放。
傳統(tǒng)大型語(yǔ)言模型(LLM)捕獲基礎(chǔ)知識(shí),而推理模型用思維Token幫助解決復(fù)雜問(wèn)題。這里一個(gè)提示要求在婚禮餐桌周?chē)才抛唬瑫r(shí)遵守傳統(tǒng)、上鏡角度和家族紛爭(zhēng)等約束。傳統(tǒng)LLM用不到500個(gè)Token快速回答,但安排客人時(shí)出錯(cuò),而推理模型用超過(guò)8000個(gè)Token思考,得出了正確答案,需要一個(gè)牧師來(lái)維持和平。
好的,正如你們所知,如果有300人的婚禮派對(duì),你要為每個(gè)人找到完美——或者說(shuō)最優(yōu)——的座位安排,這是一個(gè)只有AI能解決的問(wèn)題。所以這是CuOpt解決不了的問(wèn)題之一。
你看到的是,我們給它一個(gè)需要推理的問(wèn)題,你看到R1開(kāi)始推理,嘗試各種不同場(chǎng)景,然后回來(lái)測(cè)試自己的答案,它問(wèn)自己做得對(duì)不對(duì)。與此同時(shí),上一代語(yǔ)言模型一次性回答,用了439個(gè)Token,很快,很有效,但錯(cuò)了,所以是439個(gè)浪費(fèi)的Token。另一方面,為了推理這個(gè)問(wèn)題——這其實(shí)是一個(gè)很簡(jiǎn)單的問(wèn)題,你知道,我們?cè)偌訋讉€(gè)更難的變量,它就變得很難推理了——用了8000個(gè),幾乎9000個(gè)Token,需要更多計(jì)算,因?yàn)槟P透鼜?fù)雜。
所以這是一個(gè)維度,在我展示一些結(jié)果前,讓我再解釋一下。如果你們看Blackwell,看Blackwell系統(tǒng),現(xiàn)在是擴(kuò)展的NVLink 72,第一件事是我們得拿這個(gè)模型,這個(gè)模型不小,你知道,在R1的情況下,人們認(rèn)為R1很小,但它有6800億個(gè)參數(shù),下一代模型可能是萬(wàn)億級(jí)參數(shù)。你解決這個(gè)問(wèn)題的方法是,把這些萬(wàn)億級(jí)參數(shù)分布到整個(gè)GPU系統(tǒng)上。你可以用張量并行(Tensor Parallel),把模型的一層分布到多個(gè)GPU上;你可以拿管道的一部分,叫管道并行(Pipeline Parallel),放到多個(gè)GPU上;你可以把不同的專家分布到不同GPU上,我們叫專家并行(Expert Parallel)。
管道并行、張量并行和專家并行的組合,數(shù)量太多了,取決于模型、取決于工作負(fù)載、取決于情況,你得調(diào)整計(jì)算機(jī)的配置,才能從中獲得最大吞吐量。有時(shí)你優(yōu)化低延遲,有時(shí)你優(yōu)化吞吐量,所以你得做一些飛行中的批處理(Inflight Batching),很多不同的批處理和聚合工作的技術(shù)。所以這些AI工廠的軟件、操作系統(tǒng),太復(fù)雜了。
一個(gè)觀察是,像NVLink 72這樣同構(gòu)架構(gòu)的好處是,每個(gè)GPU都能做我剛描述的所有事。我們觀察到,這些推理模型有幾個(gè)計(jì)算階段。一個(gè)階段是思考,當(dāng)你思考時(shí),你不會(huì)產(chǎn)生很多Token,你產(chǎn)生的Token可能是自己消耗的,你在思考,可能在閱讀,消化信息,這些信息可能是PDF、網(wǎng)站,你甚至可能在看視頻,以超線性速率吸收所有這些,然后你用這些信息制定答案,制定計(jì)劃好的答案。所以這個(gè)消化信息、上下文處理的過(guò)程,需要大量計(jì)算量(Flops)。另一方面,下一階段叫解碼(Decode),第一部分我們叫預(yù)填充(Prefill)。
解碼階段需要浮點(diǎn)運(yùn)算,但需要巨大的帶寬。這很容易計(jì)算,你知道,如果一個(gè)模型有幾萬(wàn)億參數(shù),那就需要幾太字節(jié)每秒,我提到過(guò)576太字節(jié)每秒,從HBM內(nèi)存拉模型進(jìn)來(lái),生成一個(gè)Token就需要幾太字節(jié)每秒。原因它生成一個(gè)Token是因?yàn)椋涀。@些大型語(yǔ)言模型是在預(yù)測(cè)下一個(gè)Token,所以說(shuō)下一個(gè)Token,不是預(yù)測(cè)每個(gè)Token,是預(yù)測(cè)下一個(gè)Token。
現(xiàn)在我們有各種新技術(shù),比如推測(cè)解碼(Speculative Decoding)等等,讓它更快,但在最后分析中,你是在預(yù)測(cè)下一個(gè)Token。所以你拉進(jìn)整個(gè)模型和上下文,我們叫它KV緩存(KV Cache),然后生成一個(gè)Token,再把這個(gè)Token放回我們的大腦,生成下一個(gè)Token,每一次都這樣,我們輸入萬(wàn)億參數(shù),生成一個(gè)Token,再輸入萬(wàn)億參數(shù),生成另一個(gè)Token,再輸入萬(wàn)億參數(shù),生成另一個(gè)Token。注意那個(gè)演示,我們生成了8600個(gè)Token,所以萬(wàn)億字節(jié)的信息被輸入我們的GPU,一次生成一個(gè)Token。
這從根本上就是你想要NVLink的原因,NVLink讓我們能把所有這些GPU變成一個(gè)巨大的GPU,終極擴(kuò)展(Scale Up)。第二件事是,現(xiàn)在一切都在NVLink上,我可以把預(yù)填充和解碼分開(kāi),我可以決定用更多GPU做預(yù)填充,少做解碼,因?yàn)槲以诖罅克伎迹以谧龃硇怨ぷ鳎ˋgentic Work),我在讀很多信息,做深入研究。注意在深入研究時(shí),你知道,之前我聽(tīng)Michael講他做研究,我也一樣,我們?yōu)锳I寫(xiě)很長(zhǎng)的研究項(xiàng)目,我愛(ài)做這個(gè),因?yàn)槲乙呀?jīng)付出了成本,我就是愛(ài)讓我們的GPU工作,沒(méi)什么比這更讓我開(kāi)心。所以我寫(xiě)好,它就去做所有這些研究,去了94個(gè)不同網(wǎng)站,讀了所有這些,我在讀這些信息,它制定答案,寫(xiě)報(bào)告,太不可思議了。
在這整個(gè)過(guò)程中,預(yù)填充超級(jí)忙,但它其實(shí)沒(méi)生成多少Token。另一方面,當(dāng)你跟聊天機(jī)器人聊天,幾百萬(wàn)人在做同樣的事,它是Token生成很重的,很解碼重。所以取決于工作負(fù)載,我們可能決定把更多GPU放進(jìn)解碼,取決于工作負(fù)載放更多GPU進(jìn)預(yù)填充。這個(gè)動(dòng)態(tài)操作真的很復(fù)雜,所以我剛描述了管道并行(Pipeline Parallel)、張量并行(Tensor Parallel)、專家并行(Expert Parallel)、飛行中批處理(Inflight Batching)、解耦推理工作負(fù)載管理,然后我得拿這個(gè)叫KV緩存的東西,路由到正確的GPU,通過(guò)所有內(nèi)存層次管理它,這塊軟件太復(fù)雜了。
所以今天我們宣布NVIDIA Dynamo。它本質(zhì)上是AI工廠的操作系統(tǒng)。過(guò)去我們運(yùn)行數(shù)據(jù)中心的方式,我們的操作系統(tǒng)是像VMware這樣的東西,我們會(huì)編排,我們?nèi)匀贿@樣做,你知道,我們是大用戶,編排一大堆運(yùn)行在我們企業(yè)IT上的不同企業(yè)應(yīng)用。但未來(lái),應(yīng)用不是企業(yè)IT,而是代理(Agents),操作系統(tǒng)不是像VMware這樣的東西,而是像Dynamo這樣的東西,這個(gè)操作系統(tǒng)運(yùn)行在不是數(shù)據(jù)中心,而是一個(gè)AI工廠之上。
我們叫它Dynamo是有原因的,你知道,發(fā)電機(jī)(Dynamo)是上一次工業(yè)革命的第一個(gè)工具,能源的工業(yè)革命,水進(jìn)來(lái),電出來(lái),太棒了,你知道,水進(jìn)來(lái),你點(diǎn)火變成蒸汽,出來(lái)的是這個(gè)無(wú)形但非常有價(jià)值的東西,花了80年才變成交流電,但Dynamo是這一切的起點(diǎn)。所以我們決定把這個(gè)操作系統(tǒng),這個(gè)極其復(fù)雜的軟件,叫NVIDIA Dynamo,它是開(kāi)源的,它是開(kāi)源的,我們很高興有這么多合作伙伴跟我們一起做這個(gè)。我最喜歡的合作伙伴之一,我很愛(ài)他們,因?yàn)樗麄兊母锩怨ぷ鳎惨驗(yàn)锳ran是個(gè)很棒的人,但Perplexity是我們?cè)谶@個(gè)過(guò)程中的偉大合作伙伴。所以總之,真的真的很棒。
現(xiàn)在我們得等到我們把這些基礎(chǔ)設(shè)施都擴(kuò)展起來(lái),但與此同時(shí),我們做了很多非常深入的仿真,我們有超級(jí)計(jì)算機(jī)在仿真我們的超級(jí)計(jì)算機(jī),這很有道理。我現(xiàn)在要展示我剛說(shuō)的所有東西的好處,記住那個(gè)工廠圖表,X軸是每秒Token吞吐量,抱歉,Y軸是工廠的每秒Token吞吐量,X軸是用戶體驗(yàn)的每秒Token數(shù),你想要超級(jí)聰明的AI,你想生產(chǎn)一大堆這樣的AI。
這是Hopper,這是Hopper,它能為每個(gè)用戶每秒生產(chǎn)大約100個(gè)Token,100個(gè),這是8個(gè)GPU,用Infiniband連接,我把它標(biāo)準(zhǔn)化為每兆瓦每秒Token數(shù),所以這是一個(gè)一兆瓦的數(shù)據(jù)中心,不算很大的AI工廠,但總之一兆瓦。它能為每個(gè)用戶生產(chǎn)100個(gè)Token每秒,能在這個(gè)水平生產(chǎn),不管是多少,10萬(wàn)個(gè)Token每秒,對(duì)于那個(gè)一兆瓦數(shù)據(jù)中心,或者如果超級(jí)批處理,客戶愿意等很長(zhǎng)時(shí)間,它能生產(chǎn)大約250萬(wàn)個(gè)Token每秒,250萬(wàn)個(gè)Token每秒,對(duì)于那個(gè)AI工廠。
明白了嗎?好的,因?yàn)槟阒溃看蜧TC都有入場(chǎng)費(fèi),你們知道,就像被數(shù)學(xué)折磨一樣,只有在NVIDIA你才會(huì)被數(shù)學(xué)折磨。所以Hopper你得到250萬(wàn),那250萬(wàn)是什么,怎么翻譯那250萬(wàn)?記住,ChatGPT大概是每百萬(wàn)Token10美元,我認(rèn)為10美元每百萬(wàn)Token大概在這兒。每秒25萬(wàn)美元每工廠,然后一年有3100萬(wàn)秒,轉(zhuǎn)化成一兆瓦數(shù)據(jù)中心的收入。
所以這是你的目標(biāo),一方面你希望你的Token速率盡可能快,這樣你能做出很聰明的AI,如果有聰明的AI,人們會(huì)付你更多錢(qián);另一方面,AI越聰明,你能生產(chǎn)的量就越少,很合理的權(quán)衡,這是我們想彎曲的曲線。
我現(xiàn)在展示給你們的是世界上最快的計(jì)算機(jī)Hopper,它徹底改變了一切。所以我們?cè)趺醋屗茫康谝患挛覀兡贸鯞lackwell,帶NVLink 8,同一個(gè)Blackwell,同一個(gè)計(jì)算節(jié)點(diǎn),帶NVLink 8,用FP8,所以Blackwell就是更快,更大,更多晶體管,更多一切。但我們想做的更多,所以我們引入了一種新精度,不完全是4位浮點(diǎn)那么簡(jiǎn)單,但用4位浮點(diǎn)我們可以量化模型,用更少能量做同樣的事,結(jié)果當(dāng)你用更少能量做同樣的事,你能做更多,因?yàn)橛涀∫粋€(gè)大想法是,未來(lái)每個(gè)數(shù)據(jù)中心都將受限于電力,你的收入受限于電力,你能根據(jù)你有的電力算出你的收入會(huì)是多少,這跟很多其他行業(yè)沒(méi)什么不同。所以我們現(xiàn)在是受限于電力的行業(yè),我們的收入跟這有關(guān)。
基于這個(gè),你得確保你有盡可能最高效的計(jì)算架構(gòu)。
接下來(lái)我們用NVLink 72擴(kuò)展,明白了嗎?看看NVLink 72 FP4的區(qū)別,然后因?yàn)槲覀兊募軜?gòu)整合得太緊密了,現(xiàn)在我們加上Dynamo,Dynamo能把它再推進(jìn)一步,你們跟得上嗎?所以Dynamo也幫Hopper,但Dynamo對(duì)Blackwell的幫助簡(jiǎn)直太不可思議了。
所以現(xiàn)在注意我放的那兩個(gè)閃亮的部分,那大概是你的最大質(zhì)量點(diǎn)(Max Q),你知道,那可能是你運(yùn)行工廠操作的地方,你在試圖找到最大吞吐量和AI最大質(zhì)量之間的平衡,最聰明的AI,最多的AI,這兩個(gè)XY交點(diǎn)真的是在優(yōu)化的東西,如果你看這兩個(gè)方塊下面,Blackwell比Hopper好太多了。記住這不是同芯片,這是同功率,這是終極摩爾定律(Moore's Law),過(guò)去摩爾定律一直是這樣的,現(xiàn)在我們?cè)谶@兒,一代25倍,同功率,不是同芯片,不是同晶體管,不是同任何東西,同功率,終極限制,數(shù)據(jù)中心能獲得的能源只有那么多,所以在同功率下,Blackwell是25倍。
現(xiàn)在這兒有個(gè)彩虹,太不可思議了,那是好玩的部分,看看所有不同配置,每個(gè)在帕累托前沿(Pareto Frontier)下面,我們叫它帕累托前沿,下面有幾百萬(wàn)個(gè)點(diǎn),我們可以配置數(shù)據(jù)中心去做,我們可以并行、分片工作,用很多不同的方式,我們找到了最優(yōu)答案,就是帕累托前沿,每個(gè)因?yàn)轭伾嬖V你它是不同配置,這就是為什么這個(gè)圖像很清楚地說(shuō),你想要一個(gè)盡可能同質(zhì)可替換的可編程架構(gòu),因?yàn)楣ぷ髫?fù)載在整個(gè)前沿變化太大了。
所以這是輸入序列長(zhǎng)度,這是一種常見(jiàn)的測(cè)試案例,這個(gè)測(cè)試案例你可以相對(duì)容易地基準(zhǔn)測(cè)試,輸入是1000個(gè)Token,輸出是2000個(gè),注意之前我們剛展示的演示,輸出很簡(jiǎn)單是9000,對(duì),8000,所以顯然這不代表那一個(gè)聊天,這個(gè)更具代表性,這就是你知道,目標(biāo)是為下一代工作負(fù)載建下一代計(jì)算機(jī)。所以這兒有個(gè)推理模型的例子,在推理模型中,Blackwell的性能是Hopper的40倍,太驚人了。
你知道,我之前說(shuō)過(guò),有人問(wèn)我為什么這么說(shuō),我說(shuō)過(guò),當(dāng)Blackwell開(kāi)始大量出貨,你沒(méi)法把Hopper送出去,這就是我的意思,這很合理。如果有人還在想買(mǎi)Hopper(上一代芯片),別害怕,我是說(shuō),沒(méi)事,但我可是首席收入破壞者(Chief Revenue Destroyer),我的銷售團(tuán)隊(duì)在說(shuō),哦不,別這么說(shuō)。有些情況下Hopper是沒(méi)問(wèn)題的,這是我能對(duì)Hopper說(shuō)的最好話,有些情況下你是沒(méi)問(wèn)題的,但情況不多。所以這就是我的觀點(diǎn),當(dāng)技術(shù)發(fā)展這么快,你在建這些東西,它們是工廠,你得投資在正確的版本上。
為了給你一個(gè)視角,這是一個(gè)100兆瓦工廠的樣子,這個(gè)100兆瓦工廠,基于Hopper,你有4.5萬(wàn)個(gè)GPU,1400個(gè)機(jī)架,它生產(chǎn)3億個(gè)Token每秒。然后這是Blackwell的樣子,你有8.5萬(wàn)個(gè)。所以總之,你買(mǎi)得越多,你省得越多,比這更好,現(xiàn)在是你買(mǎi)得越多,你賺得越多,你知道。
所以總之,記住一切都在AI工廠的背景下,雖然我們談芯片,你總是從擴(kuò)展開(kāi)始,我們談芯片,但你總是從擴(kuò)展開(kāi)始,全力擴(kuò)展,你能擴(kuò)展到最大。我現(xiàn)在想給你們展示AI工廠的樣子,但AI工廠太復(fù)雜了,我剛給你們一個(gè)機(jī)架的例子,它有60萬(wàn)個(gè)零件,重3000磅,現(xiàn)在你得拿這個(gè)跟一大堆其他連接起來(lái),所以我們開(kāi)始建我們說(shuō)的每個(gè)數(shù)據(jù)中心的數(shù)字孿生,在你建數(shù)據(jù)中心前,你得先建數(shù)字孿生。讓我們看看這個(gè),太美了。
全世界在競(jìng)相建造最先進(jìn)的大型AI工廠,啟動(dòng)一個(gè)AI千兆工廠是工程上的非凡壯舉,需要數(shù)萬(wàn)名工人,從供應(yīng)商、建筑師、承包商和工程師,建造、運(yùn)輸、組裝近50億個(gè)組件和超過(guò)20萬(wàn)英里的光纖,幾乎是從地球到月球的距離。NVIDIA Omniverse的AI工廠數(shù)字孿生藍(lán)圖讓我們能在物理建設(shè)開(kāi)始前設(shè)計(jì)和優(yōu)化這些AI工廠。
在這兒,NVIDIA工程師用藍(lán)圖規(guī)劃一個(gè)1吉瓦的AI工廠,整合最新的NVIDIA DGX超級(jí)POD的3D和布局?jǐn)?shù)據(jù),以及來(lái)自Vertiv和施耐德電氣的先進(jìn)電源和冷卻系統(tǒng),以及NVIDIA Air優(yōu)化的拓?fù)浣Y(jié)構(gòu),一個(gè)用于模擬網(wǎng)絡(luò)邏輯、布局和協(xié)議的框架。這工作傳統(tǒng)上是在孤島中完成,Omniverse藍(lán)圖讓我們的工程團(tuán)隊(duì)能并行協(xié)作,讓我們探索各種配置,以最大化總擁有成本(TCO)和電源使用效率。
NVIDIA用Cadence Reality數(shù)字孿生,由CUDA和Omniverse庫(kù)加速,模擬空氣和液體冷卻系統(tǒng),施耐德電氣用EAP,一個(gè)模擬電源塊效率和可靠性的應(yīng)用。實(shí)時(shí)仿真讓我們能迭代和運(yùn)行大規(guī)模假設(shè)場(chǎng)景,從幾小時(shí)變成幾秒。我們用數(shù)字孿生向大群團(tuán)隊(duì)和供應(yīng)商傳達(dá)指令,減少執(zhí)行錯(cuò)誤,加速啟動(dòng)時(shí)間,規(guī)劃改造或升級(jí)時(shí),我們能輕松測(cè)試和模擬成本和停機(jī)時(shí)間,確保面向未來(lái)的AI工廠。
好了,我得講快一點(diǎn),因?yàn)槲野l(fā)現(xiàn)我有很多要告訴你們,如果我講得太快,不是因?yàn)槲也魂P(guān)心你們,只是我有很多信息要講。好的,首先我們的路線圖,我們現(xiàn)在Blackwell已全面投產(chǎn),全球的計(jì)算機(jī)公司在大規(guī)模提升這些不可思議的機(jī)器,我非常非常高興,也非常感激你們所有人努力過(guò)渡到這個(gè)新架構(gòu)。
現(xiàn)在今年下半年我們將輕松過(guò)渡到升級(jí),所以我們有Blackwell Ultra NVLink 72,你知道,它有1.5倍更多的浮點(diǎn)運(yùn)算,它有新的注意力指令,1.5倍更多內(nèi)存,所有這些內(nèi)存對(duì)KV緩存之類的東西有用,你知道,2倍更多帶寬,網(wǎng)絡(luò)帶寬。所以現(xiàn)在我們有了同樣架構(gòu),我們會(huì)優(yōu)雅地滑向那個(gè),叫Blackwell Ultra。
所以這是今年下半年的事。現(xiàn)在我們這么做的原因。
我們?cè)诮ˋI工廠和AI基礎(chǔ)設(shè)施,這需要幾年的規(guī)劃,這不是買(mǎi)筆記本電腦那樣可自由支配的開(kāi)支,這是我們得計(jì)劃的開(kāi)支。所以我們得計(jì)劃好土地和電力,我們得準(zhǔn)備好資本支出,我們得有工程團(tuán)隊(duì),我們得提前兩三年布局,這就是為什么我提前兩三年給你們看我們的路線圖,這樣我們不會(huì)在五月突然說(shuō),嘿,你知道,再過(guò)一個(gè)月我們會(huì)推出這個(gè)不可思議的新系統(tǒng),我馬上會(huì)給你們一個(gè)例子,所以我們多年規(guī)劃這個(gè)。
一年后,以一位天文學(xué)家命名,她的名字是Vera Rubin,她發(fā)現(xiàn)了暗物質(zhì)。Vera Rubin太不可思議了,因?yàn)镃PU是新的,是Grace兩倍的性能,有更多內(nèi)存、更多帶寬,然而只是一個(gè)50瓦的小CPU,真的很不可思議。Rubin全新的GPU CX9,全新的網(wǎng)絡(luò)SmartNIC,NVLink 6,全新的NVLink,全新的HBM4內(nèi)存,基本上一切都是新的,除了機(jī)箱,這樣我們能在一個(gè)方向上冒很多險(xiǎn),不冒基礎(chǔ)設(shè)施相關(guān)的其他風(fēng)險(xiǎn)。所以Vera Rubin NVLink 144是明年下半年的事。
現(xiàn)在我犯了一個(gè)錯(cuò)誤,所以我需要你們做這個(gè)調(diào)整,我們只做這一次,Blackwell其實(shí)是一個(gè)芯片里兩個(gè)GPU,我們叫那個(gè)芯片一個(gè)GPU,這是錯(cuò)的,原因是它搞亂了所有NVLink命名之類的東西。所以往前走,當(dāng)我說(shuō)NVLink 144,只是說(shuō)它連到144個(gè)GPU,每個(gè)GPU是一個(gè)GPU芯片,可能組裝在某個(gè)封裝里,組裝方式可能不時(shí)變化。所以每個(gè)GPU芯片是一個(gè)GPU,每個(gè)NVLink連到GPU,所以Vera Rubin NVLink 144,然后這為后年下半年鋪路,我們叫Rubin Ultra。
我知道這個(gè)是你們?cè)撜f(shuō)“哇”的地方。所以這是Vera Rubin,Rubin Ultra,27年下半年,它是NVLink 576,極端擴(kuò)展,每個(gè)機(jī)架600千瓦,250萬(wàn)個(gè)零件,顯然有很多GPU,一切都翻倍,所以14倍更多浮點(diǎn)運(yùn)算,15億億次浮點(diǎn)運(yùn)算(Exaflops),不是我之前提到的一億億次,是15億億次擴(kuò)展浮點(diǎn)運(yùn)算,它是300,哦,4.6PB,所以每秒4600太字節(jié)擴(kuò)展帶寬,我不是說(shuō)聚合,我是說(shuō)擴(kuò)展帶寬,當(dāng)然有很多全新的NVLink交換機(jī)和CX9。
注意,16個(gè)站點(diǎn),4個(gè)GPU一個(gè)封裝,超大的NVLink,我給你們一個(gè)視角,這就是它的樣子。現(xiàn)在這會(huì)很好玩,所以你們現(xiàn)在正在提升Grace Blackwell,我不是想讓它看起來(lái)像筆記本電腦,但我們走吧。所以這就是Grace Blackwell的樣子,這就是Rubin的樣子,ISO維度,所以這是另一種說(shuō)法,在你擴(kuò)展出去前,你得先擴(kuò)展起來(lái),明白了嗎?在你擴(kuò)展出去前先擴(kuò)展起來(lái),然后用我馬上要展示的驚人技術(shù)擴(kuò)展出去。
所以先擴(kuò)展起來(lái),現(xiàn)在這給你們一個(gè)我們前進(jìn)速度的感覺(jué),這是擴(kuò)展浮點(diǎn)運(yùn)算量,Hopper是1倍,Blackwell是68倍,Rubin是900倍擴(kuò)展浮點(diǎn)運(yùn)算,然后如果我把它變成你的總擁有成本(TCO),就是上面的電力除以下面的曲線下的面積,我跟你們說(shuō)的那個(gè)方塊,基本上是浮點(diǎn)運(yùn)算乘以帶寬。所以你判斷AI工廠進(jìn)步的一個(gè)很簡(jiǎn)單直覺(jué)檢查是瓦特除以這些數(shù)字,你可以看到Rubin會(huì)把成本大幅降低。所以這是NVIDIA的路線圖,很簡(jiǎn)單,每年一次,每年一次,像鐘表一樣,每年一次。
InfiniBand網(wǎng)絡(luò)
我們?cè)趺磾U(kuò)展?我們引入了,我們準(zhǔn)備擴(kuò)展出去,擴(kuò)展起來(lái)是NVLink,我們的擴(kuò)展網(wǎng)絡(luò)是Infiniband和Spectrum X,大多數(shù)人很驚訝我們進(jìn)入了以太網(wǎng)世界,我們決定做以太網(wǎng)的原因是,如果我們能幫以太網(wǎng)變得像Infiniband,有Infiniband的品質(zhì),那么網(wǎng)絡(luò)本身對(duì)大家用和管理會(huì)容易很多。所以我們決定投資Spectrum,我們叫它Spectrum X,我們給它帶來(lái)了擁塞控制、低延遲和我們計(jì)算結(jié)構(gòu)(Computing Fabric)的一部分軟件的屬性,結(jié)果我們讓Spectrum X性能超高,我們用Spectrum X擴(kuò)展了有史以來(lái)最大的單一GPU集群,一個(gè)巨型集群,那就是Colossus。所以還有很多其他例子,Spectrum X無(wú)疑是我們的大成功。
我很興奮的一個(gè)領(lǐng)域是最大的企業(yè)網(wǎng)絡(luò)公司把Spectrum X整合進(jìn)他們的產(chǎn)品線,這樣他們能幫世界上的企業(yè)變成AI公司。我們有10萬(wàn)個(gè),用CX8,CX7,現(xiàn)在CX8來(lái)了,CX9來(lái)了,在Rubin的時(shí)間框架里,我們想把GPU數(shù)量擴(kuò)展到幾十萬(wàn)。現(xiàn)在把GPU擴(kuò)展到幾十萬(wàn)的挑戰(zhàn)是,擴(kuò)展起來(lái)和擴(kuò)展出去的連接是銅線,我們得盡可能用銅線,你知道,大概一兩米,這是非常好的連接性,很低很高的可靠性,很好地節(jié)能,很低的成本,所以我們盡可能在擴(kuò)展起來(lái)時(shí)用銅線,但在擴(kuò)展出去時(shí),數(shù)據(jù)中心現(xiàn)在有體育場(chǎng)那么大,我們需要一些長(zhǎng)距離的東西,這就是硅光子(Silicon Photonics)進(jìn)來(lái)的地方。
硅光子的挑戰(zhàn)是,收發(fā)器從電到光子要消耗很多能量,要通過(guò)一個(gè)CIS,經(jīng)過(guò)一個(gè)收發(fā)器,一個(gè)CERIS幾個(gè)CIS,所以這些這些這些,我是一個(gè)人嗎?有人嗎?我的網(wǎng)絡(luò)團(tuán)隊(duì)怎么了?我能把這個(gè)拿上來(lái)嗎?是的,是的,把它拿上來(lái),這樣我能給人們展示我在說(shuō)什么。
好的,首先我們宣布NVIDIA的第一個(gè)共封裝(Co-Packaged)選擇硅光子系統(tǒng),這是世界上第一個(gè)每秒1.6太比特的CPO,我們要用的是一個(gè)叫微環(huán)諧振調(diào)制器(Micro Ring Resonator Modulator)的技術(shù),它完全是用我們?cè)谂_(tái)積電(TSMC)合作很久的這個(gè)不可思議的工藝技術(shù)建造的,我們跟一個(gè)巨大的技術(shù)提供商生態(tài)系統(tǒng)合作,發(fā)明了我要展示給你們的東西,這真的是瘋狂的技術(shù),太瘋狂太瘋狂的技術(shù)。
我們決定投資MRM的原因是,這樣我們能用MRM的驚人密度和功率準(zhǔn)備自己,比用于電信的Mach-Zehnder(莫桑德)更好密度和功率,當(dāng)你從一個(gè)數(shù)據(jù)中心到另一個(gè)數(shù)據(jù)中心,在電信里,甚至在我們用的收發(fā)器里,我們用Mach-Zehnder,因?yàn)槊芏纫蟛桓撸钡浆F(xiàn)在。所以如果你看看這些收發(fā)器,這是一個(gè)收發(fā)器的例子。
沒(méi)你想的那么簡(jiǎn)單,這些是亂七八糟的小東西。好的,這個(gè)在這兒,這個(gè)是30瓦,記住這個(gè),30瓦,如果你大批量購(gòu)買(mǎi),它是1000美元,這邊是插頭,這邊是電的,這邊是光的。光纖通過(guò)黃色的進(jìn)來(lái),你插進(jìn)交換機(jī),這邊是電的,有收發(fā)器、激光器,是個(gè)叫Mach-Zehnder的技術(shù),太不可思議了。
所以我們用這個(gè)從GPU到交換機(jī),到下一個(gè)交換機(jī),然后下一個(gè)交換機(jī),到GPU,比如這樣。所以這些,如果我們有10萬(wàn)個(gè)GPU,我們會(huì)有10萬(wàn)個(gè)這邊,然后另外10萬(wàn)個(gè),連接交換機(jī)到交換機(jī),然后另一邊分配到另一個(gè)NIC,如果我們有25萬(wàn)個(gè),我們加另一層交換機(jī),所以每個(gè)GPU,每個(gè)25萬(wàn)個(gè)GPU,每個(gè)GPU會(huì)有6個(gè)收發(fā)器,每個(gè)GPU會(huì)有6個(gè)這樣的插頭,這6個(gè)插頭會(huì)加每GPU180瓦,也就是每GPU6000美元。
所以問(wèn)題是,我們現(xiàn)在怎么擴(kuò)展到幾百萬(wàn)個(gè)GPU?因?yàn)槿绻覀冇幸话偃f(wàn)個(gè)GPU,乘以6,對(duì)吧,會(huì)是600萬(wàn)個(gè)收發(fā)器,乘以30瓦,180兆瓦的收發(fā)器,它們沒(méi)做任何數(shù)學(xué),只是移動(dòng)信號(hào)。所以問(wèn)題是,我們?cè)趺簇?fù)擔(dān)得起,正如我之前提到的,能源是我們最重要的商品,一切最終跟能源有關(guān),所以這會(huì)限制我們的收入,我們的客戶收入,減去180兆瓦的電力。所以這是我們做的驚人事情,我們發(fā)明了世界上第一個(gè)MRM微鏡。
這就是它的樣子,有個(gè)小的波導(dǎo),你看到那個(gè),波導(dǎo)連到一個(gè)環(huán),那個(gè)環(huán)諧振,控制波導(dǎo)的反射率,當(dāng)它繞過(guò)去,限制和調(diào)制能量,通過(guò)的光量,通過(guò)吸收關(guān)掉或通過(guò)打開(kāi),把光,這個(gè)直接連續(xù)的激光束,變成1和0,這就是奇跡。
這個(gè)技術(shù),然后光子IC跟電子IC堆疊,然后跟一堆微透鏡堆疊,然后跟這個(gè)叫光纖陣列的東西堆疊,這些東西都用臺(tái)積電的這個(gè)技術(shù)制造,用3D 技術(shù)封裝,跟所有這些技術(shù)提供商合作,我剛給你們看的那些名字一大堆,把它變成這個(gè)不可思議的機(jī)器。所以讓我們看看它的視頻。
這是個(gè)技術(shù)奇跡,它們變成這些交換機(jī)是Infiniband交換機(jī),硅片工作得太棒了,今年下半年我們會(huì)出貨這個(gè)硅光子交換機(jī),今年下半年,下一年下半年會(huì)出貨Spectrum X,因?yàn)镸RM選擇,因?yàn)檫^(guò)去5年我們冒的不可思議的技術(shù)風(fēng)險(xiǎn),申請(qǐng)了幾百個(gè)專利,我們授權(quán)給我們的合作伙伴,這樣我們都能造,現(xiàn)在我們能把硅光子跟共封裝選擇放進(jìn)我們的交換機(jī),沒(méi)有收發(fā)器,光纖直接進(jìn)我們的交換機(jī),基數(shù)(Radix)是512,這是512個(gè)端口,這用其他方式根本不可能。
所以這現(xiàn)在讓我們能擴(kuò)展到幾十萬(wàn)GPU,幾百萬(wàn)GPU,好處是,你想象這個(gè),在數(shù)據(jù)中心我們能省幾十兆瓦,幾十兆瓦,比如說(shuō)10兆瓦,哦,說(shuō)60兆瓦,60瓦,6兆瓦是10個(gè)Rubin Ultra機(jī)架,對(duì)吧,60那是很多,100個(gè)Rubin Ultra機(jī)架的電力,我們現(xiàn)在能部署到Rubin。
好的,這是我們的路線圖,每年一次,每年一次,每?jī)赡暌粋€(gè)新產(chǎn)品線,每年X倍增長(zhǎng),我們?cè)囍謮K冒硅片風(fēng)險(xiǎn)、網(wǎng)絡(luò)風(fēng)險(xiǎn)或系統(tǒng)機(jī)箱風(fēng)險(xiǎn),這樣我們能推動(dòng)行業(yè)前進(jìn),追求這些不可思議的技術(shù),Vera Rubin,我很感激她的外孫在這兒,這是我們表彰她、紀(jì)念她不可思議工作的機(jī)會(huì)。我們下一代會(huì)以費(fèi)曼(Feynman)命名。
企業(yè)計(jì)算
好了,NVIDIA的路線圖,讓我跟你們談?wù)勂髽I(yè)計(jì)算,這真的很重要,為了我們把AI帶到世界上的企業(yè),首先我們得去NVIDIA的另一部分,GAN Splats的美妙之處。為了把AI帶到企業(yè),退一步提醒你們自己,記住,AI和機(jī)器學(xué)習(xí)重塑了整個(gè)計(jì)算堆棧,處理器不同了,操作系統(tǒng)不同了,上面的應(yīng)用不同了,應(yīng)用的方式不同了,編排的方式不同了,運(yùn)行它們的方式不同了。讓我給你們一個(gè)例子,你訪問(wèn)數(shù)據(jù)的方式會(huì)跟過(guò)去根本不同,過(guò)去是精確檢索你想要的數(shù)據(jù),你讀它試著理解,未來(lái)我們會(huì)像用Perplexity一樣,不那樣檢索,我只問(wèn)Perplexity我想知道什么,問(wèn)它一個(gè)問(wèn)題,它會(huì)告訴你答案。
未來(lái)企業(yè)IT也是這樣工作的,我們會(huì)有AI代理,作為我們數(shù)字勞動(dòng)力的一部分,世界上有10億知識(shí)工作者,未來(lái)可能有100億數(shù)字工作者跟我們并肩工作,未來(lái)100%的軟件工程師,全球有3000萬(wàn),100%會(huì)是AI輔助的,我很確定,到今年底,NVIDIA 100%的軟件工程師會(huì)是AI輔助的。所以AI代理會(huì)無(wú)處不在,它們?cè)趺催\(yùn)行,企業(yè)運(yùn)行什么,我們?cè)趺催\(yùn)行,會(huì)根本不同,所以我們需要一個(gè)新的計(jì)算機(jī)系列——DGX 工作站。
這就是PC該有的樣子,20拍字節(jié)每秒浮點(diǎn)運(yùn)算(Petaflops),太不可思議了,72個(gè)CPU核心,芯片到芯片接口,HBM內(nèi)存,以防萬(wàn)一還有幾個(gè)PCI Express插槽給你的GeForce。所以這是DJX Station,DGX Spark和DGX Station,將由所有OEM提供,HP、Dell、Lenovo、Asus,將為全球的數(shù)據(jù)科學(xué)家和研究人員制造,這是AI時(shí)代的計(jì)算機(jī),計(jì)算機(jī)就該這樣,未來(lái)計(jì)算機(jī)會(huì)這樣運(yùn)行。
我們?yōu)槠髽I(yè)有一整套產(chǎn)品,從小到工作站的、服務(wù)器的,到超級(jí)計(jì)算機(jī)的,這些將由我們所有合作伙伴提供。
我們還將革命化計(jì)算堆棧的其余部分,記住計(jì)算有三大支柱,有計(jì)算,有網(wǎng)絡(luò),我之前提到的Spectrum X,去世界上的企業(yè),一個(gè)AI網(wǎng)絡(luò)。
第三個(gè)是存儲(chǔ),存儲(chǔ)得完全重塑,不是基于檢索的存儲(chǔ)系統(tǒng),將是基于語(yǔ)義的檢索系統(tǒng),基于語(yǔ)義的存儲(chǔ)系統(tǒng)。所以存儲(chǔ)系統(tǒng)得在后臺(tái)持續(xù)嵌入信息,把原始數(shù)據(jù)嵌入知識(shí),然后當(dāng)你訪問(wèn)時(shí),你不是檢索它,你跟它說(shuō)話,你問(wèn)它問(wèn)題,給它問(wèn)題。
我希望我們有個(gè)視頻的例子,但Box的Aaron甚至跟我們合作把它放云端,基本上是個(gè)超級(jí)智能存儲(chǔ)系統(tǒng),未來(lái)每個(gè)企業(yè)都會(huì)有這樣的東西,那是未來(lái)的企業(yè)存儲(chǔ),跟整個(gè)存儲(chǔ)行業(yè)合作,太棒的合作伙伴,DD、Dell、HP Enterprise、Hitachi、IBM、NetApp、Neonics、Pure Storage、Vast、W,基本上全球存儲(chǔ)行業(yè)將首次提供這個(gè)堆棧,你的存儲(chǔ)系統(tǒng)將用GPU加速。
所以你們可以看到,我們?cè)诟锩澜缙髽I(yè)的過(guò)程中,我們今天還宣布這個(gè)不可思議的模型,每個(gè)人都能運(yùn)行,所以我之前給你們展示了DeepSeek-R1,一個(gè)推理模型,跟LLaMA 3對(duì)比,一個(gè)非推理模型,顯然R1聰明多了。
但我們能做得更好,能讓它為任何公司準(zhǔn)備好企業(yè)使用,現(xiàn)在完全開(kāi)源,是我們叫NIMs的系統(tǒng)的一部分,你可以下載它,你可以在任何地方運(yùn)行,可以在DGX Spark上跑,可以在DGX Station上跑,可以在OEM造的任何服務(wù)器上跑,可以在云端跑,可以整合進(jìn)你的任何代理AI框架,我們跟全球公司合作,
我會(huì)快速翻過(guò)這些,仔細(xì)看,我有些很棒的合作伙伴在觀眾席,我想表彰,Accenture,Julie Sweet和她的團(tuán)隊(duì)在建他們的AI工廠和AI框架,AMDOS,全球最大的電信軟件公司,AT&T,John Stankey和他的團(tuán)隊(duì)在建AT&T AI系統(tǒng),代理系統(tǒng),Larry Fink和BlackRock團(tuán)隊(duì)在建他們的,Annie Roode,
未來(lái)我們不只雇ASIC設(shè)計(jì)師,我們會(huì)雇一大堆數(shù)字ASIC設(shè)計(jì)師,來(lái)自Anude,Cadence會(huì)幫我們?cè)O(shè)計(jì)芯片,所以Cadence在建他們的AI框架,你們可以看到,每一個(gè)里都有NVIDIA模型,NVIDIA NIMs和Vidia庫(kù)貫穿其中,所以你可以在本地運(yùn)行,在云端運(yùn)行,任何云端都可以。
Capital One,最先進(jìn)的金融服務(wù)公司之一,他們使用的技術(shù)全是NVIDIA。Deere,Jason和他的團(tuán)隊(duì);Enany,Janet和他的團(tuán)隊(duì);NASDAQ,Adena和她的團(tuán)隊(duì),他們都將NVIDIA技術(shù)整合進(jìn)他們的AI框架。然后是SAP,Christian和他的團(tuán)隊(duì);ServiceNow,Bill McDermott和他的團(tuán)隊(duì)。挺不錯(cuò)的吧?。
機(jī)器人
我們來(lái)談?wù)剻C(jī)器人,機(jī)器人時(shí)代已經(jīng)到來(lái)。
機(jī)器人有能與物理世界互動(dòng)的好處,能做數(shù)字信息做不到的事情。我們很清楚,世界正嚴(yán)重缺乏人力勞動(dòng),到這個(gè)十年末,世界將至少短缺5000萬(wàn)工人。我們很樂(lè)意每年付給他們每人5萬(wàn)美元請(qǐng)他們來(lái)工作,而未來(lái)可能會(huì)得付給機(jī)器人每年5萬(wàn)美元來(lái)工作,所以這會(huì)是一個(gè)非常非常大的行業(yè)。
有各種機(jī)器人系統(tǒng),你的基礎(chǔ)設(shè)施會(huì)變成機(jī)器人的,數(shù)十億攝像頭分布在倉(cāng)庫(kù)和工廠里,全球有1000萬(wàn)到2000萬(wàn)家工廠。我之前提到,每輛車(chē)已經(jīng)是一個(gè)機(jī)器人,現(xiàn)在我們?cè)诖蛟焱ㄓ脵C(jī)器人,讓我給你們展示我們是怎么做的。
一切移動(dòng)的東西都將變得自主,物理AI將體現(xiàn)在各行各業(yè)的各種機(jī)器人中。NVIDIA打造的三臺(tái)計(jì)算機(jī)啟用了一個(gè)機(jī)器人AI的持續(xù)循環(huán):仿真、訓(xùn)練、測(cè)試和現(xiàn)實(shí)世界的經(jīng)驗(yàn)。訓(xùn)練機(jī)器人需要海量數(shù)據(jù),互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)提供了常識(shí)和推理能力,但機(jī)器人需要行動(dòng)和控制數(shù)據(jù),這些數(shù)據(jù)的捕捉成本很高。利用基于NVIDIA Omniverse和Cosmos構(gòu)建的藍(lán)圖,開(kāi)發(fā)者能夠生成大量多樣的合成數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人策略。
首先,在Omniverse中,開(kāi)發(fā)者根據(jù)不同領(lǐng)域、機(jī)器人和任務(wù),聚合現(xiàn)實(shí)世界的傳感器數(shù)據(jù)或演示數(shù)據(jù),然后通過(guò)Omniverse調(diào)適Cosmos,將原始捕捉的數(shù)據(jù)放大為大量逼真且多樣化的數(shù)據(jù)。開(kāi)發(fā)者隨后使用Isaac Lab訓(xùn)練機(jī)器人策略,利用增強(qiáng)后的數(shù)據(jù)集,讓機(jī)器人通過(guò)模仿學(xué)習(xí)克隆行為,或者通過(guò)強(qiáng)化學(xué)習(xí)試錯(cuò)掌握新技能,并獲得AI反饋。在實(shí)驗(yàn)室里的練習(xí)與現(xiàn)實(shí)世界不同,新的策略需要在實(shí)地測(cè)試。
開(kāi)發(fā)者使用Omniverse進(jìn)行軟件和硬件在環(huán)測(cè)試,在數(shù)字孿生中仿真策略,結(jié)合現(xiàn)實(shí)世界的環(huán)境動(dòng)態(tài),運(yùn)用領(lǐng)域隨機(jī)化、物理反饋和高保真?zhèn)鞲衅鞣抡妗,F(xiàn)實(shí)世界的操作需要多個(gè)機(jī)器人協(xié)同工作,Mega——一個(gè)Omniverse藍(lán)圖——讓開(kāi)發(fā)者能夠大規(guī)模測(cè)試并訓(xùn)練策略艦隊(duì)。這里,F(xiàn)oxconn在虛擬的NVIDIA Blackwell生產(chǎn)設(shè)施中競(jìng)賽異構(gòu)機(jī)器人。當(dāng)機(jī)器人“大腦”執(zhí)行任務(wù)時(shí),它們通過(guò)傳感器仿真感知行動(dòng)結(jié)果,然后規(guī)劃下一步行動(dòng)。
Mega讓開(kāi)發(fā)者測(cè)試眾多機(jī)器人策略,使機(jī)器人作為一個(gè)系統(tǒng)協(xié)作運(yùn)行,無(wú)論是空間推理、導(dǎo)航、移動(dòng)性還是靈巧性,驚艷的東西就在仿真中誕生。 今天我們介紹NVIDIA Isaac Groot N1,Groot N1是人形機(jī)器人的通用基礎(chǔ)模型,建立在合成數(shù)據(jù)生成和仿真學(xué)習(xí)的基礎(chǔ)上。Groot N1擁有雙系統(tǒng)架構(gòu),快慢兼?zhèn)洌苋祟愓J(rèn)知處理原則啟發(fā):慢思考系統(tǒng)讓機(jī)器人感知和推理環(huán)境及指令,規(guī)劃正確的行動(dòng);快思考系統(tǒng)將計(jì)劃轉(zhuǎn)化為精確且連續(xù)的機(jī)器人動(dòng)作。
Groot N1的泛化能力讓機(jī)器人能夠輕松操作常見(jiàn)物體,協(xié)作執(zhí)行多步序列。通過(guò)這個(gè)合成數(shù)據(jù)生成和機(jī)器人學(xué)習(xí)的完整管道,人形機(jī)器人開(kāi)發(fā)者可以在全球多種環(huán)境、多種任務(wù)、多種形態(tài)下訓(xùn)練Groot N1。各行各業(yè)的開(kāi)發(fā)者利用NVIDIA的三臺(tái)計(jì)算機(jī),打造下一代具身AI。
物理AI和機(jī)器人技術(shù)發(fā)展得太快了,大家要關(guān)注這個(gè)領(lǐng)域,這很可能是最大的行業(yè)。
在其核心,我們面臨著我之前提到的同樣挑戰(zhàn),我們關(guān)注三個(gè)問(wèn)題,相當(dāng)系統(tǒng)化:
一是如何解決數(shù)據(jù)問(wèn)題,如何創(chuàng)造訓(xùn)練AI所需的數(shù)據(jù);
二是采用什么模型架構(gòu);
三是什么擴(kuò)展法則(Scaling Law),我們?nèi)绾螖U(kuò)展數(shù)據(jù)、計(jì)算或兩者,讓AI變得越來(lái)越聰明,我們?nèi)绾螖U(kuò)展。
這些根本性問(wèn)題在機(jī)器人領(lǐng)域同樣存在。在機(jī)器人領(lǐng)域,我們創(chuàng)建了一個(gè)叫Omniverse的系統(tǒng),這是我們的物理AI操作系統(tǒng),你們聽(tīng)我講Omniverse很久了。今天我們?yōu)樗砑恿藘身?xiàng)技術(shù),我要給你們展示兩件事。第一件是讓我們利用生成能力擴(kuò)展AI,生成模型能夠理解物理世界,我們稱之為Cosmos。
通過(guò)Omniverse調(diào)適Cosmos,Cosmos可以生成無(wú)限多的環(huán)境,讓我們創(chuàng)造有根有據(jù)、我們可控、但系統(tǒng)上無(wú)限的數(shù)據(jù)。所以你們看到Omniverse時(shí),我們用糖果色給你們展示了一個(gè)例子,我們完美控制場(chǎng)景中的機(jī)器人,而Cosmos能創(chuàng)造所有這些虛擬環(huán)境。
第二件事,正如我們之前所說(shuō),今天語(yǔ)言模型驚人擴(kuò)展能力之一是強(qiáng)化學(xué)習(xí),可驗(yàn)證的獎(jiǎng)勵(lì)。問(wèn)題在于,機(jī)器人中的可驗(yàn)證獎(jiǎng)勵(lì)是什么?我們很清楚,那就是物理定律,可驗(yàn)證的物理獎(jiǎng)勵(lì)。所以我們需要一個(gè)不可思議的物理引擎。
大多數(shù)物理引擎設(shè)計(jì)有各種用途,可能是為了大型機(jī)械,或者為虛擬世界、視頻游戲設(shè)計(jì),但我們需要一個(gè)專為非常細(xì)粒度的剛體和軟體設(shè)計(jì)的物理引擎,為訓(xùn)練觸覺(jué)反饋、精細(xì)運(yùn)動(dòng)技能和執(zhí)行器控制而設(shè)計(jì),需要GPU加速,讓這些虛擬世界能在超線性時(shí)間、超實(shí)時(shí)中運(yùn)行,超快地訓(xùn)練這些AI模型,并且需要無(wú)縫整合進(jìn)全球機(jī)器人學(xué)家使用的框架MuJoCo。
所以今天我們宣布一件特別的事情,這是DeepMind、Disney Research和NVIDIA三家公司的合作,我們稱之為Newton,讓我們來(lái)看看Newton。
告訴我那是不是很不可思議?嘿,Blue,你好嗎?你喜歡你的新物理引擎嗎?喜歡吧?我打賭我知道,觸覺(jué)反饋,剛體和軟體仿真,超實(shí)時(shí),你能想象嗎?你剛看到的是完全實(shí)時(shí)的仿真,這就是我們未來(lái)訓(xùn)練機(jī)器人的方式。順便說(shuō)一句,Blue里面有兩臺(tái)NVIDIA計(jì)算機(jī),看你多聰明,是的,你很聰明。
好的,嘿,Blue,聽(tīng)著,我們帶他們回家吧,結(jié)束這個(gè)主題演講,午飯時(shí)間到了,你準(zhǔn)備好了嗎?準(zhǔn)備好了,我們結(jié)束吧,我們還有一個(gè)宣布。就站在這兒,站在這兒,很好。(與機(jī)器人互動(dòng))
總結(jié)
好了,我們還有一個(gè)驚人消息,我告訴過(guò)你們我們的機(jī)器人進(jìn)展巨大,今天我們宣布Groot N1開(kāi)源了。我要感謝你們所有人來(lái)參加,讓我們總結(jié)一下。感謝你們參加GTC,我們談了幾件事:
一是Blackwell全面投產(chǎn),增長(zhǎng)不可思議,客戶需求不可思議,原因很充分,因?yàn)锳I正處在一個(gè)拐點(diǎn),我們?cè)贏I中需要做的計(jì)算量由于推理AI、訓(xùn)練推理AI系統(tǒng)及代理系統(tǒng)而大幅增加。
第二,Blackwell NVLink 72搭配Dynamo是Hopper 40倍的AI工廠性能,推理將是下一個(gè)十年最重要的工作負(fù)載之一,當(dāng)我們擴(kuò)展AI時(shí)。
第三,我們有每年的路線圖節(jié)奏,為你們鋪好了路,這樣你們可以規(guī)劃AI基礎(chǔ)設(shè)施。
然后我們有三種AI基礎(chǔ)設(shè)施:我們?cè)跇?gòu)建云端的AI基礎(chǔ)設(shè)施,企業(yè)的AI基礎(chǔ)設(shè)施,以及機(jī)器人的AI基礎(chǔ)設(shè)施。
謝謝大家,感謝所有讓這個(gè)視頻可能的合作伙伴,感謝所有讓這個(gè)視頻可能的人,祝你們GTC愉快,謝謝。嘿,Blue,我們回家吧,好樣的,小家伙。謝謝,我也愛(ài)你們,謝謝。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.