出品 | 虎嗅科技組
作者 | 丸都山
編輯 | 苗正卿
頭圖 | 行云集成電路
在北京萬泉河畔的一幢寫字樓內(nèi),我初次見到季宇。
他的身上有著多個令人矚目的標簽:前華為“天才少年”;昇騰編譯器專家;清華大學(xué)計算機科學(xué)博士;CCF(中國計算機學(xué)會)優(yōu)秀博士學(xué)位論文獲得者。
兩年前,季宇從華為離職后,創(chuàng)辦了行云集成電路,走上了自研GPU的道路。
而相較于他本人,更令我印象深刻的是他的辦公室——各類物品擺放得井然有序,房間內(nèi)纖塵不染,這樣極致的整潔度,在工科背景的創(chuàng)業(yè)者中實屬少見。
“主要原因是平時都在工位辦公,所以辦公室才能保持整潔。”正當我發(fā)出贊嘆之時,季宇將手指向屋外,做出了補充說明。
這種令人猝不及防的“坦率”,在接下來兩個小時的對談中,上演了多次。
比如在談到公司前不久發(fā)布的DeepSeek一體機“褐蟻”時,他甚至直接用“組裝機”一詞來代指。
對于關(guān)注AI行業(yè)的人來說,“DeepSeek一體機”的概念一定不會感到陌生,這是一種融合了高性能硬件、模型算法框架和行業(yè)應(yīng)用軟件的集成化計算設(shè)備,也可以粗暴地理解為“一臺本地部署DeepSeek模型的電腦”。
當然,在硬件層面,DeepSeek一體機離不開上游產(chǎn)業(yè)鏈的支持,通常都是“英特爾/國產(chǎn)CPU+英偉達GPU+一定數(shù)量的系統(tǒng)盤/內(nèi)存盤”組合。
這也是季宇將DeepSeek一體機稱之為“組裝機”的原因。
不過,相較于過去家用的組裝機,DeepSeek一體機的“攢機成本”要高的多,比如在一臺機器里放置8張H20芯片,僅GPU這項成本就奔著80萬去了。因此,通常DeepSeek一體機報價都在百萬級區(qū)間。
而在季宇看來,現(xiàn)階段的大模型本地部署,成本上完全可以實現(xiàn)一個“數(shù)量級的降低”——從百萬級拉低至十萬級。
這是如何實現(xiàn)的?季宇給出的回答讓人驚掉下巴。
“現(xiàn)在的大模型其實是不一定必須在GPU跑,CPU的內(nèi)存帶寬已經(jīng)足夠,CPU的內(nèi)存可比GPU的顯存便宜多了。”季宇解釋道。
這番言論著實有些反常識。
因為在傳統(tǒng)認知里,CPU內(nèi)存的容量大,但帶寬低;GPU顯存的容量小,但帶寬高。又因為大模型涉及大量的數(shù)據(jù)并行處理,對存儲帶寬有著很高的要求,因此在大模型訓(xùn)練和推理的過程中,GPU要比CPU更加適合,這是業(yè)界公認的事實。
在我拋出疑問后,季宇現(xiàn)場給我算了一筆賬:
“最新的服務(wù)器級CPU,已經(jīng)配備了12內(nèi)存通道,DDR5的內(nèi)存頻率是6400M,再結(jié)合雙路服務(wù)器的形態(tài),頂級的CPU內(nèi)存帶寬可以達到1.2TB/s,已經(jīng)超過RTX 4090(1TB/s)的水平。”
可即便大模型可以通過“跑在CPU”上的方式,來大幅降低成本,那么對于季宇和他所創(chuàng)立的行云來說,技術(shù)護城河是什么呢?業(yè)內(nèi)其他公司同樣可以復(fù)制這個技術(shù)路線。
更重要的是,作為一家主業(yè)為GPU研發(fā)的公司,卻站出來否定GPU在大模型時代的重要性,多少有點“左右互博”的意味。
對此,季宇解釋道,“現(xiàn)在我們用的公版CPU,它不是為了大模型而定制的,我們需要的是CPU內(nèi)存,但CPU上配備的幾百個物理核是用不上的,所以我們會重新設(shè)計一款芯片,它當然還是高性能計算卡,但與現(xiàn)在英偉達主推的GPU完全不是一個概念。”
值得一提的是,季宇自稱是個“資深NV吹”,非常推崇黃仁勛的經(jīng)營哲學(xué),在他看來,英偉達能夠在短短兩年內(nèi)掀翻英特爾的行業(yè)地位,背后源于黃仁勛十余年的系統(tǒng)性布局,從最早期的對元宇宙、比特幣、生物醫(yī)藥等領(lǐng)域的投資,以一種“潤物細無聲”的方式,向行業(yè)證明GPU未來要比CPU重要。
某種程度上,現(xiàn)在的季宇會想到去做一款DeepSeek一體機,也是受到黃仁勛的啟發(fā)。
“我們對于這個產(chǎn)品的定位,可能更偏向于PoC(概念驗證),我不需要它賺多少錢,但我要向行業(yè)證明這個路線是可行的,如果行業(yè)里能有大批玩家接受,我們就能通過自研的芯片,為他們提供更低成本的方案。”
這位“資深NV吹”,似乎正在通過黃仁勛的方式,來挑戰(zhàn)英偉達的權(quán)威。
以下為筆者與季宇交流實錄,部分內(nèi)容略有刪減:
虎嗅:你之前在華為是做編譯器開發(fā)的,為什么創(chuàng)業(yè)后會想到跨領(lǐng)域做GPU?
季宇:其實我在學(xué)校時研究的方向和入行后的工作,也沒什么相關(guān)性。我那會學(xué)的是體系結(jié)構(gòu),算是與芯片架構(gòu)相關(guān)。當時選擇編譯器時因為我發(fā)現(xiàn)行業(yè)內(nèi)做了很多不錯的芯片,但是最后商業(yè)化的時候還是卡在了軟件生態(tài)這件事情上。我覺得要考慮它上面的編譯器軟件應(yīng)該怎么去搭建,才能解決它這個端到端的問題。
后來做GPU是因為在大模型出來后,我意識到這件事情的長期確定性是非常高的。而且本身我們就是愿意去做這種新的事情。因為你做老的事情其實是沒有太多的機會的對吧?因為老的事情格局,包括這個行業(yè)的秩序,其實都已經(jīng)逐漸成型了你只有新的行業(yè)才有這個探索的可能性,也才適合創(chuàng)業(yè)公司。
虎嗅:從創(chuàng)業(yè)至今,你做過的最難的一次決定是什么?
季宇:可能出來創(chuàng)業(yè)這件事本身最難的,因為我得先想清楚,就是把商業(yè)邏輯想清楚,剩下的所有的事情都可以邊干邊學(xué)。
虎嗅:那在GPU行業(yè)里,你想清楚的商業(yè)邏輯是什么?
季宇:就是今天如果大家按照NV的路線去追趕NV,是不可能挑戰(zhàn)成功的,計算機歷史上就沒有發(fā)生過。
我們可以回顧下,當年英特爾是怎么擠掉IBM成為行業(yè)龍頭的?它不是靠我做了一個性能超強的大型機,而是靠8086這種毫不起眼的小芯片,最后推動了PC產(chǎn)業(yè)革命,讓大家逐漸拋棄大型機,甚至后來集群也拋棄了大型機。
后面英偉達取代英特爾也是一樣的,NV不是在做了一個性能多么強的CPU,而是告訴大家GPU可以用來做什么,它用了十年的時間直接把CPU在計算機行業(yè)中的歷史給抹掉了。
虎嗅:所以當下行業(yè)中會發(fā)生這樣的“新舊交替”的機會嗎?
季宇:我覺得最重要的一個事情是要把大模型從超算競爭變成消費電子競爭,讓每個人都用得起你,這個才能真正進入經(jīng)濟循環(huán),進入各行各業(yè)。
所以我們大的邏輯是希望我們做的產(chǎn)品,是能夠在像今天的消費電子一樣的價位,同時又能夠把今天超算才能做的這些最高質(zhì)量的大模型,能用這樣的產(chǎn)品能夠支撐起來。
虎嗅:我們做的DeepSeek一體機“褐蟻”,為什么能把價格拉低到“十萬元”檔?
季宇:今天核心的矛盾是在于模型需要的顯存跟今天單張卡的顯存gap太大了。所以導(dǎo)致大家今天可能為了跑這樣一個模型,得湊非常多的GPU,自然而然把整個行業(yè)的形態(tài)推成了一個8卡16卡的服務(wù)器的形態(tài),然后價格都是上百萬的。
但現(xiàn)在CPU的內(nèi)存帶寬也完全能夠滿足大模型的,頂級的服務(wù)器級CPU的內(nèi)存帶寬可以達到1.2TB/s,已經(jīng)超過RTX 4090(1TB/s)的水平,而且它的容量也比GPU大的多,最重要的是跟動輒幾百萬的超算相比,內(nèi)存條就相當于是不要錢了。
虎嗅:那行業(yè)內(nèi)其他廠商沒有意識到這個問題嗎?
季宇:一方面,計算機行業(yè)是個慣性很大的行業(yè),當所有人都習慣用GPU去做訓(xùn)練的時候,人們自然不愿意輕易嘗試其他方案。
另一方面,可能大家都覺得用內(nèi)存跑大模型,充其量只能達到Mac Studio那種水平,沒法轉(zhuǎn)化為生產(chǎn)力,但我們想通過極致的軟件優(yōu)化來把這么高的帶寬水平發(fā)揮出來。讓大家使用體驗真正能達到,跟一個超算的體驗沒有什么區(qū)別。
虎嗅:我看到“褐蟻”的配置基本都是公版的,那這個行業(yè)存在硬件門檻嗎?
季宇:我希望推動這個應(yīng)用普惠,就應(yīng)該用最普通的東西,大家都習以為常的東西,然后把這樣的一個事情變成大家都用得起來,我覺得這才是一個關(guān)鍵。而不在于說你們一定要做一個什么門檻,然后讓別人都進不來,其實這個不是我們期望的。
虎嗅:我們現(xiàn)在做的DeepSeek一體機,和行云的核心業(yè)務(wù)(自研GPU),有什么關(guān)聯(lián)性嗎?
季宇:我們自研的GPU,可以進一步降低整機的成本。
舉個例子,比如現(xiàn)在的CPU和GPU是為了大模型一體機設(shè)計的嗎?肯定不是,它的價值是建立在別的方面,但有些東西我們是可以扔掉的,但是有些東西我們是可以加強的,可能它非常不重要的一件部件,我們是值得強化的,而它很重要、甚至建立整個價格梯度的東西,我們是可以拋棄的。
虎嗅:能否展開講講,哪些是值得強化的?哪些是可以拋棄的?
季宇:比如CPU里的物理核,很多我們都用不上的,我們今天的重點是DDR內(nèi)存,之是為了把DDR內(nèi)存用起來,才用了這個CPU,至于它有幾百個核跟我沒有關(guān)系,我們只選了一個32核的,也完全能拉滿內(nèi)存通道帶寬,而我們自己設(shè)計的芯片就可以把這些多余的物理核去掉,最大程度發(fā)揮DDR內(nèi)存的性能,同時也能讓成本大幅降低。
虎嗅:對于應(yīng)用端來說,他們會很看重這種一次性成本嗎?
季宇:如果行業(yè)里都是一臺上百萬的超算,那么行業(yè)可能就會卡在那邊,大家會一直在想AI到底能做什么事情,云廠商天天想我到底找什么超級應(yīng)用?這個其實對所有人都是難受的。大家更在乎就是說只要這個價位降到一定的水準之后,這個行業(yè)是有可能爆發(fā)的。
我可以再舉一個例子,我們接下來還會發(fā)布一個叫“蟻群”的項目,就是用一堆“褐蟻”去做集群,大概300-400萬的預(yù)算,我們就能實現(xiàn)500-1000的并發(fā),這是什么概念?一千并發(fā)差不多可以支持10萬DAU,那意味著很多小的創(chuàng)業(yè)團隊都可以出來做了,大家一起去挖掘。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4363270.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.