Z Highlights
- Oasis非常有趣,它是一種全新的體驗,讓我們能夠通過屏幕表達我們的想象力。我們的目標可以用一句話來概括:通過生成式AI將我們的想象與屏幕上的視覺內容相連接。
- 要達到實時視頻處理,必須對模型本身進行很多改變,還需要做很多系統層面的工作。這意味著必須編寫自己的CUDA內核,甚至可能需要從頭開始編寫一些系統組件。未來兩三年內,解決這個問題的正確方法可能是擁有兩個模型:一個是負責持有狀態的模型,另一個模型則將該狀態渲染成像素。
- 垂直整合通常能帶來兩個主要好處:一是降低成本,從而提高利潤率;二是加快行動速度,使企業能夠更迅速地響應市場變化。在人工智能領域,這兩點都非常重要,但我認為行動速度的重要性超過了成本降低。
- 我們認為用戶體驗(UX)已死,現在是生成式體驗(GX)的時代。基本上,我們將創造新的體驗,這些體驗將根據人類與計算機互動的自然方式生成,包括從角色AI到實時視頻模型等各種形式的生成體驗。這就是我們預見的未來。
Decart與Oasis
Shaun Maguire:大家好,我是Shaun Maguire,紅杉資本合伙人。今天,我的同事Sonya Huang和我將對Dean Leitersdorf進行一次采訪。Dean是一個才華橫溢的青年,他的成長經歷跨越了以色列和美國。他曾是以色列理工學院最年輕的博士畢業生,年僅23歲,直到他的弟弟在21歲時獲得了博士學位,打破了這一紀錄。
Dean所創立的公司Decart致力于創造令人愉悅的AI體驗,讓人們能夠以前所未有的方式與自己的想象力以及他人的想象力進行互動。為了實現這一目標,Decart實現了從底層優化,如CUDA內核,到模型設計、訓練,直至最終提供體驗的全流程垂直整合。在未來幾個月,我們期待看到他們推出的一系列令人印象深刻的成果
Sonya Huang:Dean,感謝你今天加入我們。我今天早上剛玩了Oasis,玩得很開心。所以讓我先問一下,Oasis,這個非常可玩的AI游戲引擎。它是什么?你為什么要推出它?
Dean Leitersdorf:幾周前,我們推出了Oasis,這是一個技術上令人驚嘆的項目。它是第一個真正實時運行的視頻模型,用戶可以與之互動,可以在虛擬世界中移動,甚至可以破壞和放置方塊。雖然這聽起來像是一個游戲,但它并不僅僅是為了娛樂。
那么,為什么Oasis真正有趣呢?讓我們暫時忘掉Oasis 1,想象一下Oasis 3。你站在一面神奇的鏡子前,你可以與它對話,告訴它做一些很酷的事情。比如,你可以說:“嘿,我想要一把劍。”然后,鏡子里的你手里就會出現一把劍。你移動手,劍也會跟著移動。你可以說:“不,我想要更大的劍,變成藍色。”它就會如你所愿變化。你可以進一步說:“現在,讓我進入《權力的游戲》的世界”,然后你周圍的一切都變成了《權力的游戲》的場景,你甚至戴上了王冠。你還可以要求王冠有所變化,然后開始跳躍和移動,鏡子都會對你的動作做出反應。
這非常有趣,因為它是一種全新的體驗,它讓我們能夠通過屏幕表達我們的想象力,連接了我們腦海中的想象和眼睛所看到的世界。我們的目標可以用一句話來概括:如何通過生成式AI將我們的想象與屏幕上的視覺內容相連接。通過這種方式,我們可以進入以前未探索過的世界,它可能會改變一切,從我們今天無法實現的應用程序,到我們與計算機或硬件的互動方式。
Sonya Huang:我喜歡鏡子這個比喻。讓我們進一步探討。你打算用它做什么?這是一個社交媒體的東西嗎?你在構建一個游戲嗎?一個互動的世界模型嗎?我應該如理解Decart和Oasis?
Dean Leitersdorf:那么讓我來問你。ChatGPT能解決什么問題?
Sonya Huang:作業。
Dean Leitersdorf:作業,確實……它還解決了哪些問題?
Shaun Maguire:使與計算機進行對話變得更加容易了。
Dean Leitersdorf:沒錯。簡而言之,ChatGPT并沒有解決某個特定的問題,而是幫助你更高效地完成家庭作業、撰寫電子郵件、進行總結。它并沒有直接解決問題,但它克服了一些根本性的限制,正如Shaun所說,它打破了人類與計算機之間的溝通壁壘。計算機使用結構化語言,而人類則使用非結構化或復雜結構的語言。大語言模型正是縮小了這一差距,使計算機和人類能夠用雙方都能理解的語言進行交流。一旦實現了這一點,你就可以在此基礎上解決上百個不同的問題。因此,無論是通過鏡子還是生成式互動視頻,我們現在不僅通過文本,而且通過視覺克服了溝通障礙。
現在,計算機能夠以我們看待世界的方式來看待世界,它們能夠以我們能理解的方式來向我們展示世界。你解決了這個問題,構建了一個平臺,允許在其上構建一切,從下一代的Snapchat或TikTok到戰斗機飛行員的模擬器。這正是這里的奇妙之處。而且,現在是2024年,我認為最令人興奮的事情之一是我們有機會在正確的時機建立一些不是解決問題,而是克服限制的公司。
99%的公司都在解決問題。當你看到那些向紅杉或其他風險投資公司推銷的公司時,他們通常會這樣開始:這是我們要解決的問題,這個問題有多大,我們的市場規模是多少,以及我們將如何解決問題。通常,前兩個方面是不變的。如果你改變了你正在解決的問題,那就叫做轉型。如果你500次改變了解決問題的方式,那么這就是99%的公司的做法。這是在任何正常年份你所能做的事情。
歷史上有些時刻,大約每十年或十五年,你會有機會建立一些不是解決問題,而是克服限制的東西。讓我換個方式問你這個問題:Mac是面向消費者的產品還是企業產品呢?
Shaun Maguire:還有,這是一家硬件公司還是軟件公司.
Dean Leitersdorf:是的,這家公司究竟是硬件公司還是軟件公司?它解決了哪些問題?如果我們要列舉個人計算機解決的問題,那可真是包羅萬象,從游戲到Excel應有盡有。這就是它的優勢所在,你正在構建一項驚人的技術,這項技術可以以多種不同的方式進行產品化。
Sonya Huang:我喜歡這個觀點。你構建的東西中一個非常酷的特點是,據我所知,里面沒有游戲引擎。你怎么看這一點?你認為游戲引擎是過時的產物嗎?
Dean Leitersdorf:游戲引擎的目的是讓一個人能夠創造一個世界,而另一個人能夠與這個世界互動。這就是游戲引擎的核心功能。我們有游戲開發者,也有使用這些引擎的用戶。它不僅適用于游戲,還適用于電影等其他領域。最近,Unreal Engine在電影制作中的使用也變得非常廣泛,這是一個非常有價值的產品,它有很多優點,比如能夠創造出非常一致和精確的世界。但問題是,與這樣的世界互動需要花費很多時間。
人們喜歡從基礎游戲出發,將其改造成各種不同的形態。當我們深入了解并觀察人們實際上如何使用這些工具時,你會發現,比如有人在《我的世界》中加入了寶可夢模組,你可以在森林里漫步,看到寶可夢四處奔跑。這是一個真實的模組,有人創造了它。人們天生就有這種欲望:我們有了這個平臺,我們想要改變它。這就是模組的魅力所在。
如果運行你的游戲或環境的是一個AI,你就可以以我們習慣與AI互動的方式與它互動。你可以這樣說:“嘿,你能把它變成艾莎主題嗎?”然后突然之間,一切都變成了艾莎主題。你可以要求加入一個飛象,然后游戲中就真的出現了一個飛象,而且不僅僅是一個圖像,你實際上可以與它互動。你可以攻擊大象,它可能會反擊,或者你可以做任何與大象互動的事情。
我認為,如果這種趨勢要取代游戲引擎,它必須能夠達到可以編程的狀態,這樣它就是一個機器,一個人可以在上面構建世界,另一個人可以與之互動。這肯定會到來。不僅如此,為這個編程將會容易得多,你可以只用語言來完成,不必寫代碼。即使你懂得如何寫代碼,你也可以更快地進行迭代。總的來說,我認為這將使我們的模組制作速度加快,并實現更具互動性的模組創作。
Oasis技術細節
Shaun Maguire:為了更深入地探討技術層面的問題,你們構建了我見過的第一個能夠實現實時推理的視頻模型。實現實時推理需要哪些技術?難度有多大?給我們介紹一下這背后的技術細節。
Dean Leitersdorf:如果我們回顧三四個月前,也就是夏天的時候,有一些頭條新聞提到了NVIDIA的Blackwell芯片發布后,它將能夠實現實時視頻處理。Hopper架構的芯片做不到這一點,H100芯片也不行。然而,事實上H100芯片是能夠實現實時視頻處理的。要達到這一點,需要同時做兩件事:首先,必須對模型本身進行很多改變。并不是每個視頻模型都能實時運行,必須以不同的方式訓練模型,架構也需要有所不同。雖然這不是重大的架構變化,但確實需要進行這些調整。其次,還需要做很多系統層面的工作。
這意味著必須編寫自己的CUDA內核,甚至可能需要從頭開始編寫一些系統組件,比如拋棄PyTorch的垃圾收集器,自己從頭開始編寫一半的代碼。如果你只做其中一件事,就需要等待別人來做另一半——如果你只做系統層面的部分,那么你就無法實現另外一點,因為你沒有準備好以這種方式交互的模型。如果你只做建模方面的工作,你將沒有系統層面的支持來使其實時運行。因此,要實現實時視頻處理,不僅需要在模型訓練和架構上做出改變,還需要在系統層面進行深入的工作,包括編寫CUDA內核等。這樣的全面努力是實現實時視頻處理能力的關鍵。
Sonya Huang:可以介紹一下這個模型的工作原理嗎?它和Sora這樣的模型類似嗎?
Dean Leitersdorf:簡單來說,這個模型和Sora這樣的模型非常相似,唯一的區別在于輸入提示是用戶操作而不是文本。這是理解這個概念最簡單的方式。你有文本到視頻的模型,比如Sora,你輸入一個句子,然后得到一個視頻。在這里,你輸入的是鍵盤操作和之前的幀作為提示,然后模型生成下一幀。
Sonya Huang:你是如何將操作和視頻數據關聯起來的?
Dean Leitersdorf:這里需要做一些預處理步驟,這是常規視頻模型不需要的。比如,你必須對原始的游戲錄像進行標注,記錄下每個步驟中執行的操作。我們訓練了一個小模型來自動化這個任務。實際上,這個過程不需要太多的數據。一個小模型就能搞定,它不需要太多的例子。你只需要讓我們的團隊玩一會兒游戲,然后錄制下來。這樣,你就能獲得一個小模型,用它來標注所有的數據。
Sonya Huang:非常有趣。你是在構建一個世界模型,還是這只是純粹的像素表示?
Dean Leitersdorf:這里的精妙之處在于它完全基于像素表示。現在,讓我們來對比一下你提到的世界模型、3D內容等其他技術。在AI領域,過去十多年一直存在一個普遍的問題:你是選擇端到端的解決方案,還是優化現有的工作流程?這個問題有兩種處理方式。你可以直接利用現有的游戲引擎,比如Unity和Unreal,它們已經很出色了。我們可以直接融入這個工作流程,構建從文本到3D的模型。我描述一頭大象,然后得到一個3D網格模型,再將其導入到Unity、Unreal或其他你使用的游戲引擎中。
相比之下,端到端的解決方案是,最終我有一個屏幕,屏幕需要顯示內容,并且需要工作。最終,人們看到的是電腦屏幕,操作鍵盤和鼠標,這就是你的界面,你從按鍵到幀,端到端地解決這個問題。顯然,這兩種方法是相互競爭的。但隨著時間的推移,我認為它們會有所融合,因為從技術角度來看,它們各自都有優勢。第一種方法在時間上更加一致,更容易保持物體的外觀不變。而端到端的像素處理方法更加靈活,可以實時編輯,比如改變大象尾巴的大小。
所以,從長遠來看,這兩種方法可能會融合。如果我們大致展望一下,今天我們主要是從提示到像素,從按鍵到像素的轉換。理論上,在未來兩三年內,解決這個問題的正確方法可能是擁有兩個模型。一個是負責持有狀態的模型,比如游戲的狀態,這與像素無關,類似于LLM式的Transformer,它只獲取當前狀態,獲取新的用戶操作,并輸出對該狀態的更改。另一個模型則將該狀態渲染成像素。這大概就是我們會融合的地方,因為這將真正結合世界模型和像素模型的優勢。
Sonya Huang:兩種模型你們都想要構建嗎?
Dean Leitersdorf:當然,的確如此。但是,我認為我們還沒有到達那個階段,我們需要更多的時間才能達到。
推進垂直整合
Shaun Maguire:我對Dean和Decart印象深刻的一點是他們打造完全垂直整合的系統的雄心。他們真正理解電子的本質。他們不僅掌握電子在邏輯門及其不同類型中的傳輸方式,還擁有對比匯編語言更基礎的層次的透徹理解,并能夠優化匯編中的CUDA內核。他們從電子到人眼所見的像素之間的各個環節都進行了全面優化。通過這種方式,我認為他們將始終比那些只在應用層面工作的人擁有至少10倍的優勢。
Sonya Huang:實際上,關于這一點,我認為有一種反駁的觀點是關于專業化的,因為有成千上萬的聰明人在NVIDIA或其他公司工作并專注于此。而你應該專注于構建最佳的用戶體驗和病毒式傳播。那么,能否分享一下你們選擇進行垂直整合的原因呢?
Shaun Maguire:讓我來說幾句,因為Dean不能像我這樣自夸。我一生都在研究商業模式。從年輕時起,這就是我的熱情所在。對我來說,Google是我見過的最了不起的公司之一,也是最了不起的商業模式之一。我在Google工作過幾年。我真的覺得人們對Google的護城河有誤解,對NVIDIA今天的護城河有誤解。
在我看來,Google真正的優勢不在于Sergey和Larry發明的PageRank,這是一種深刻但簡單的算法,本質上是基本的圖論。PageRank問世后很快被廣泛模仿。Google真正的優勢在于其在分布式系統和底層系統優化方面的頂級水平。他們從早期就有一個非常深刻的見解,基本上所有其他搜索引擎都在購買Sun Microsystems的服務器機架,通過購買昂貴的硬件來獲得容錯能力。而Google則發現可以通過購買便宜易失的消費級硬件,比如游戲電腦中使用的Intel Pentium處理器或SanDisk內存,然后用五倍于其他硬件的數量來提升總能效或容量。盡管失敗率高,但這種方案的性能成本僅為其他方案的1/50。通過深入優化分布式系統以最大化硬件性能,他們贏得了十倍的成本優勢。
回想第一次使用Google時,它的界面非常簡單,僅是一帶有搜索框的白色網頁。我認為它當時比Yahoo的用戶界面更差。Yahoo還有聊天室和其他更閃亮、更令人興奮的東西,但Google 的魔力在于成本優勢下的后端性能,這得益于對硬件層面的極致優化。Dean和Decart的故事讓我很有共鳴。但我們需要保持謙遜,這家公司還沒有做任何事情,在他們值得與Google相提并論之前還有很長的路要走。對我們來說,Sequoia共同領投了Google的A輪融資,我為此感到自豪;我們也參與了NVIDIA的種子投資,可以說,我們有良好的投資歷史。
Shaun Maguire:我認為要真正提供那些令人愉悅的體驗,比如一個簡單的鏡像體驗,你需要一個極其強大的后端。我認為這是一全有或全無的事情。如果不能實時提供服務,那么體驗就不夠好。我堅信,如果你不深入到底層優化,是無法實現實時體驗的。至少對我來說,我認為你必須這么做。在我見過的人中,這些人是唯一真正這么做的。
Dean Leitersdorf:我非常喜歡Shaun剛才所說的話,其中有兩點特別引起了我的注意。一點是關于垂直整合的內容,這也是我們稍后會討論的,這也回應了最初的問題。另一點是,我不會透露名字,但最近我與Google的一位非常資深的高管進行了交談。我們回憶過去,試圖了解一些情況。因為在Google成立時,我才僅僅三個月大,我那時在場,但并沒有真正關注。
Shaun Maguire:Dean,我知道你可能一直在密切關注。
Dean Leitersdorf:我試圖弄清楚那里究竟發生了什么,以及為什么那件事如此有趣。這源于一次不相關的對話。在那次對話中,我們討論了GPU集群的不可靠性。通常情況下,如果你今天嘗試在一個集群上訓練我們訓練的那種模型,無論是超大規模的還是GPU云,那個系統每隔幾小時就會崩潰。你會碰到很奇怪的問題,可能因為另外兩個節點之間的電纜上有灰塵,導致一個節點崩潰,而且沒有任何錯誤信息能告訴你到底發生了什么。所以你的訓練模型會崩潰,你會疑惑為什么會這樣?你嘗試重啟,但不起作用。然后你嘗試移除隨機節點,直到你弄清楚問題所在。
這就是整個行業的現狀。幾乎只有Google和OpenAI在訓練時沒有遇到這種情況。因為他們真的從硬件層面就開始構建一切。OpenAI有很多時間來真正專注于這些可靠性問題,但其他的公司,從大公司到小初創公司的任何人都在經歷這些挑戰。所以我和Google的一位高層人士交談。他說,我們現在的訓練情況就像90年代的CPU一樣,沒有Kubernetes,也沒有VMware,服務器常常崩潰。大多公司不愿處理這種情況,因此要么支付更高費用給更好的高級服務,要么消耗更多時間。
硬件的發展最終會趨于穩定,英偉達將致力于提高他們芯片的穩定性,并優化他們的代碼。GPU云服務將圍繞這一點找到解決方案。這是未來的趨勢,但目前還沒有實現。如果你現在想要訓練一個模型,你將不得不面對所有這些問題。因此,這是你必須應對的挑戰之一。在Decart實驗室,我們直面這個挑戰。我們能夠做到這一點的原因是,比如你看到的Oasis模型,從開始到結束僅需20小時就能收斂。
我們與其他AI實驗室有很多合作和交流,那些訓練最先進模型的最佳實驗室,他們對此都感到震驚。對于這些模型,他們的收斂通常需要大約兩周時間。這不僅僅是因為他們沒有使用優化的系統層面的東西,還因為他們每隔幾個小時或數天就會遇到崩潰。而我們實際上可以保持訓練運行從頭到尾不崩潰。我們也可以保持訓練運行一周或兩周不崩潰。這種可靠性真的非常重要。問題是,這并不容易實現。
我們有一個內部文檔,我想現在大約有200頁,記錄了訓練一個模型時可能出錯的所有事情。從一個節點上的錯誤信息要求硬件操作員檢查兩個節點間的問題,到另一個有趣的情況。比如,在我們訓練Oasis模型的過程中,遇到了一個有趣的情況。我們需要生成一些合成數據,而我們擁有的集群既有GPU也有CPU。通常情況下,CPU的利用率只有3%左右,而GPU則被充分利用。因此,我們決定在訓練模型的同時,利用這些未充分利用的CPU來生成合成數據。
這種做法讓我們的GPU云團隊感到驚訝,因為我們實際上將集群的利用率提高到了200%。我們不僅使用了CPU和GPU,還利用了InfiniBand在訓練期間傳輸數據。這樣,我們從集群中獲得了比預期更多的資源。總的來說,我們通過并行運行合成數據生成任務,有效地利用了未充分利用的CPU資源,而沒有占用GPU資源。這一策略使得我們能夠更高效地使用集群資源,提高了整體的訓練效率。
在進行Oasis模型訓練的同時,我們還進行了合成數據的生成,這項工作僅使用了CPU資源,理論上不應該影響到訓練運行。然而,實際上這導致了訓練運行出現問題。具體來說,我們遇到了一個隨機錯誤,團隊中可能有成員能夠更準確地描述這個問題,但錯誤信息大致是關于數據加載器缺少鎖文件。這個錯誤背后的原因是,合成數據的生成過程中消耗了更多的RAM,這本不是什么大問題,但它導致在不同節點間傳輸數據時占用了更多的網絡帶寬。
這超出了Python數據加載器通常使用的網絡映射鎖文件的處理能力,導致鎖文件被移動到了磁盤上。結果就是不同節點上出現了不同的鎖文件,最終導致數據加載器崩潰。簡而言之,我們本以為這樣做是合理的,但卻遭遇了一個意外的錯誤。這就是我們日常工作的一部分,我們有一個200頁的文檔記錄了所有這類問題,這也是我的工作內容之一。
Shaun Maguire:Dean愿意分享一個簡單的例子,這是他們遇到的挑戰中較為簡單的一個。實際上,還有比這困難和重要百倍的問題需要他們去解決。關于AI的現狀,還有一個相對簡單的例子可以說明。Dean,如果你不愿意討論這個,可以跳過,但你們有一次獲得了一個新集群的使用權。這個集群的內存尚未安裝,GPU只有一些非常有限的內存,以至于大多數人幾乎無法使用這些GPU。能否分享一下這個故事?
Dean Leitersdorf:這確實是一個精彩的故事。我們常說,要構建一個理想的視頻模型訓練環境,需要的不僅僅是集群,還包括存儲和網絡等基礎設施。我們距離實現這個目標還有很長的路要走。我預計在未來半年左右,這些配套會逐漸穩定下來,許多GPU云服務提供商正在努力實現這一點。在我們遇到的一個情況中,我們獲得的一個集群完全沒有存儲,而且這并不是個例。這種情況發生在幾個不同的集群和不同的云服務上。這些云服務提供商雖然提供了GPU,但要讓一切正常運作,還有許多工作要做。
Shaun Maguire:他們過于專注于關注H100s,因此忽視了內存和存儲部分。
Dean Leitersdorf:這種情況是可以理解的。云服務提供商計劃安裝存儲系統,并且他們會完成這項工作。他們急于盡快推出服務,這是合理的。然而,由于缺乏穩定的存儲和優化的存儲節點或者S3存儲桶等類似的服務,我們面臨了一些挑戰。于是我們提出一個想法:如果每個節點都連接了幾個SSD,我們是否可以在這些SSD上構建自己的迷你分布式文件系統呢?
我們確實這么做了,而且這個方法是有效的。盡管在實現過程中遇到了許多需要克服的問題,但最終我們成功了。這再次回到了垂直整合的問題上。Shaun在這個領域的知識和經驗都比我豐富得多,他在這個行業的時間也比我長。我主要是做研究工作,完成我的博士學位...
Sonya Huang:我覺得他好像剛剛稱呼你為“年紀大”。
Shaun Maguire:我說的是經驗……我從Google剛推出的時候就開始使用它,在NVIDIA首次公開募股時就買了它的股票,那正是我出生的時候。
Dean Leitersdorf:我記得NVIDIA上市是在我出生之前的事情,是1996年還是1999年?不管怎樣。對于我而言,垂直整合通常能帶來兩個主要好處:一是降低成本,從而提高利潤率;二是加快行動速度,使企業能夠更迅速地響應市場變化。在人工智能領域,這兩點都非常重要,但我認為行動速度的重要性超過了成本降低。
我們面臨的所有問題最終都會被解決,但這需要時間。有一篇發表在《The Information》雜志上的文章提到,一些離開谷歌的創業者發現,他們在外部創業時缺乏必要的基礎設施支持,比如存儲和云服務,這些都是他們在谷歌內部時不曾意識到的問題。隨著時間的推移,云服務提供商會逐步提供這些支持,一些公司也會提供系統中間層的服務,甚至簡化模型訓練過程。
但如果你能實現端到端的垂直整合,就能比競爭對手提前一到兩年進入市場,這是至關重要的。因為技術優勢不會永遠持續,例如谷歌和Bing,盡管谷歌擁有更多數據,但微軟的Bing也在不斷進步,盡管兩者之間仍有差距。歸根結底,整個游戲的關鍵在于快速獲得技術護城河,比如谷歌和OpenAI,并盡可能早地將這一優勢轉化為市場競爭力。這就是游戲規則,因為我們都可以說,“紅杉投資了,很好。我們先把錢存入銀行,讓我們從中賺取一些利息。我們會去海灘待兩年,等一切穩定下來,兩年后再回來,然后建立同一家公司。”那會很棒,但其他人早就做過了。
這就是我們選擇垂直整合的原因。通過垂直整合,我們可以更快地將技術轉化為產品,從而在市場上獲得先發優勢。
未來發展及商業模式規劃
Sonya Huang:我喜歡這個,那你的護城河是呢?
Dean Leitersdorf:是長期的還是短期的?
Shaun Maguire:兩個都有。
Dean Leitersdorf:關于短期技術,我們擁有業界領先的系統層技術,同時也在模型層進行深耕。我們的業務實現了完全的垂直整合,這構成了我們的短期競爭優勢。
談到長期發展,這是一個值得深思的問題。我想分享一些我最近發現的有趣現象。現在,一種新型的、較弱的網絡效應正在形成,這種效應以前并不存在,它與TikTok上的討論有關。為什么這很有趣呢?我們從Character AI這家公司學到了很多,它是一家非常出色的公司。盡管最終沒有被谷歌收購,但他們選擇回去繼續訓練大型模型。Character AI迅速崛起,很快面臨了激烈的競爭。
例如,他們的技術領先了大約半年,直到Meta發布了開源模型,其他競爭者也開始跟進。Character AI依然保持著垂直整合的優勢,使得他們的成本比其他競爭者低了十倍,這是一個巨大的優勢。但讓我印象深刻的是他們的TikTok策略。如果你在TikTok上搜索Character AI的競爭對手,你會發現關于這些競爭對手的視頻,然后繼續瀏覽,你會發現上百個關于Character AI的視頻。即使你查看那些不是關于Character AI的視頻,評論中也充滿了對Character AI的討論。
如果你與一個普通的Character AI用戶交談,他們甚至可能不知道有其他競爭對手存在。因此,我們可以看到,由于TikTok的存在,似乎形成了一種新型的小型網絡效應,或者說是品牌效應。這種效應讓人們在TikTok上的話語成為了一種新的品牌影響力。
Sonya Huang:這種新型效應與品牌有何不同?
Dean Leitersdorf:這種效應與品牌非常相似,但它是即時可見的。就像20年前的品牌效應,你是否曾聽朋友或家人談論過某個品牌?而現在,尤其是年輕一代,他們總是活躍在TikTok這樣的平臺上。因此,他們可以迅速接觸到這些內容。這里有一個重要的問題:這種護城河效應能否持續兩三年,直到建立起像谷歌那樣強大的品牌或分銷網絡等長期護城河。或者,是否能形成一種分銷模式。我認為我們正處于一個新市場環境中,我們可能不會擁有10年前那樣的傳統護城河。
Sonya Huang:非常有趣。
Shaun Maguire:硬件始終是最強的競爭優勢,谷歌已經將其最初的軟件和分布式系統優勢轉化為硬件優勢。我認為谷歌在應用層面并沒有充分利用這一硬件優勢。盡管自早期以來,谷歌并沒有推出許多突破性的消費者產品,但在硬件層面,他們擁有巨大的成本優勢。在我任職于谷歌期間,有一個項目讓我印象深刻,它為一些投資決策提供了洞見。
Google通過構建光交換機提高了數據中心的數據傳輸能力,這在“Jupiter Rising: Google Data Center”論文中能夠找到。這些光交換機的使用,實際上使數據中心的性能翻倍,它們主要用于數據中心內機架之間的通信,實現了從電子到光子的信號轉變。制造這些設備非常困難。如果當時詢問谷歌之外的專家,他們可能會認為制造每秒百太比特的交換機是不可能的,但谷歌做到了。外界甚至不知道谷歌擁有這項技術,它使數據中心的功耗降低了約30%。
這些都是谷歌的真競爭優勢。雖然很難預測公司未來的競爭優勢會是什么,但我堅信硬件是最終的護城河。部分原因是,移動原子、啟動晶圓廠、獲取電力、建造發電廠等過程總是需要長周期。即使是在擁有AGI和十億個Optimus機器人的世界,制造新硬件的時間度也會很長。因此,無論如何,我希望Decart能在某個地方建立起硬件護城河。
Dean Leitersdorf:我認同你的觀點。從長遠來看,這讓我們回想起創建Decart的初衷。我們認為,人生中可能只有一次黃金機會去創辦一家公司。當時我們認為,與其在某個革命性技術變革中創建公司,不如說我們有機會去解決一些根本性的問題。我們分析了這個領域,認為有三個巨大的機會可以把握。
首先,可以創建一個NVIDIA的競爭對手,比如開發下一代AI芯片。這非常困難,因為NVIDIA不僅是芯片巨頭,還是供應鏈巨頭。但如果在行業中努力,會得到許多人的幫助。如果你在商業上表現出色,這是可行的。
其次,可以建立下一個AWS,因為工作負載正在變化,有機會創建一個新的云服務。這同樣非常困難,因為市場上有一個默認的贏家。即使其他人都失敗了,三大巨頭和甲骨文等云服務提供商仍然會成功。
第三,是創造新的體驗。這些新體驗將非常劇烈,以至于下一家萬億美元的公司可能在五年內而不是30年內從這些體驗中誕生。因此,我們必須選擇一個方向開始,我們選擇了創造新的用戶體驗這一領域。但第二個好選擇是成為NVIDIA的競爭對手,這也是我們一直考慮的一個選項,我們總有一天會回到這個想法上來。
Sonya Huang:讓我以最后一個問題結束:如果一切按計劃進行,Decart在未來10年、15年、20年后會發展成什么樣子?你們將創造怎樣的體驗?消費者娛樂的未來又將如何?我不確定這是否是正確的市場定位。
Dean Leitersdorf:我想引用紅杉資本的James的話,是他提出了“生成體驗”(GX)這個概念。我們認為用戶體驗(UX)已死,現在是GX的時代。基本上,我們將創造新的體驗,這些體驗將根據人類與計算機互動的自然方式生成,包括從角色AI到實時視頻模型等各種形式的生成體驗。這就是我們預見的未來。
Decart將成為一家生成體驗的公司,通過完全垂直整合和系統層面的創新來實現這一點。最終,Decart將成為一家創造新一代體驗的公司,這些體驗將影響地球上的每一個人,這就是笛卡爾的目標所在。現在的問題只是實現這一目標需要多長時間——是10年還是15年。在當今時代,可能不需要那么長時間。過去的巨頭花了很長時間才統治世界,我不知道Decart是否也需要那么長時間。但可以肯定的是,至少需要五年時間。
Sonya Huang:你們在不同的時間尺度上運作,這與許多我們領域內的頂級AI研究人員不同。我非常尊重這一點。我們是否應該以一個快速問答環節結束?
Shaun Maguire:當然可以。
Sonya Huang:除了Oasis,你最喜歡的AI應用是什么?
Dean Leitersdorf:就是ChatGPT和Character中的一個。
Sonya Huang:你會用Character干什么呢?
Dean Leitersdorf:即使你不會使用Character……從基本概念上講,我們將擁有作為實體的應用程序,這些應用程序將在用戶之間維持某種關系,無論是友誼還是功利性的。我認為,Character將成為未來眾多事物的基本平臺。
Sonya Huang:我確實喜歡這樣。至于你最喜歡的 AI 公司,可能和你剛剛提到的一樣。
Dean Leitersdorf:是的。
Shaun Maguire:你第一次編程是在什么時候?
Dean Leitersdorf:我第一次編程是在13歲,為游戲RuneScape編寫機器人腳本。RuneScape是一款很棒的游戲,我玩了好幾年。直到第六年,我使用了一款從網上下載的機器人軟件,結果24小時后賬號被封。
Sonya Huang:我們會先迎來AI生成的視頻游戲還是小說?我的意思是,達到我愿意為之付費的水平。
Dean Leitersdorf:首先出現的將是一個平臺,允許人們利用他們的創造力來制作這些內容,因為目前的AI技術還遠遠不能創造具有創意的內容。
Shaun Maguire:你最喜歡的科學家是誰?
Dean Leitersdorf:關于最喜歡的科學家這個問題,我非常喜歡。我們選擇“Decart”這個名字是有深意的。我最喜歡的科學家是達芬奇,因為他不僅是一位杰出的科學家和工程師,還懂得如何獲得資助。回顧歷史,達芬奇不僅在科學和工程領域有著卓越的成就,還擅長從當時的“風險投資家”——也就是國王們那里籌集資金。因此,達芬奇無疑是我的首選,其次是笛卡爾和特斯拉。
選擇“Decart”這個名字,是因為我們對特斯拉公司及其命名方式感到欽佩。我們需要一個與尼古拉·特斯拉對特斯拉公司所代表的意義相似的名字。而笛卡爾正是這樣的人,因為他的哲學、理性主義和方法論,“我思故我在”與當今人工智能的許多理念不謀而合。這是一個絕妙的選擇。
Sonya Huang:這是一個完美的結束語。Dean,對你所做的一切表示敬意。感謝你今天的參與,我們很享受這次對話。
Shaun Maguire:我不會提前祝賀你,因為我們還沒有實現目標。讓我們去創造一些非凡的成果。不過,我非常欣賞你這樣的態度。
Dean Leitersdorf:在我們真正成功之前,我們不會慶祝。我們不慶祝小勝利。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.