出品丨虎嗅汽車組
作者丨肖漫
頭圖丨電影《終極對(duì)弈》
“企業(yè)做宣傳時(shí),講得天花亂墜,說(shuō)是端到端、數(shù)據(jù)驅(qū)動(dòng),有各種各樣的新詞,但對(duì)普通消費(fèi)者來(lái)說(shuō),很簡(jiǎn)單,上車以后 5 分鐘能不能感覺(jué)產(chǎn)品是完全與眾不同的,是可以信賴的,這樣的產(chǎn)品才能去賣。”今年年初,地平線蘇箐在媒體交流會(huì)中有感而發(fā)的這段話,仍舊警示車圈智駕生態(tài)。
去年一整年,車企都在做端到端。華為、理想、小鵬和海外的特斯拉已經(jīng)證明,端到端模型訓(xùn)練出的自動(dòng)駕駛軟件可以上路——至少在大部分時(shí)候如此。
端到端是一個(gè)黑盒系統(tǒng),其邏輯是通過(guò)神經(jīng)網(wǎng)絡(luò)模擬人類行為,通過(guò)概率模型總結(jié)出來(lái)的駕駛策略,存在出現(xiàn)問(wèn)題的概率,且一旦出現(xiàn)問(wèn)題可能造成嚴(yán)重的后果。(關(guān)于蔚小理華的上一代架構(gòu),虎嗅汽車團(tuán)隊(duì)曾在《抄不了特斯拉的作業(yè),“蔚小理華”可咋整》一文中有過(guò)詳細(xì)解析)
端到端思路來(lái)源于人工智能領(lǐng)域的深度學(xué)習(xí),本質(zhì)是把智駕算法簡(jiǎn)單化,再通過(guò)大量的數(shù)據(jù)訓(xùn)練來(lái)補(bǔ)足軟件能力。
但一些車企已經(jīng)發(fā)現(xiàn),端到端無(wú)法完全解決問(wèn)題。當(dāng)智能駕駛要往更安全、人類干預(yù)更少的 L3 方向進(jìn)階,就要想辦法補(bǔ)上端到端的漏洞。
于是車企們甩出一堆新的名詞——世界模型、VLA、基座模型......這些詞匯意味著什么,真的能解決智能駕駛問(wèn)題嗎?
智駕路線出現(xiàn)分野
進(jìn)入端到端2.0階段,技術(shù)路線沒(méi)有了標(biāo)準(zhǔn)答案。
理想在 AI TALK 上公布下一代自動(dòng)駕駛架構(gòu) VLA(視覺(jué)-語(yǔ)言-行為大模型);小鵬最新技術(shù)架構(gòu)則是打造一個(gè)云端世界基座模型,通過(guò)蒸餾方法,生產(chǎn)出小尺寸的車端模型XVLA;華為乾崑ADS4 引入了 WEWA 架構(gòu)——WE代表云端世界引擎(World Engine),WA代表了車端的世界行為模型(World Action Model)。
“各家廠商軟件架構(gòu)不一樣,其實(shí)是各家的硬件研發(fā)進(jìn)度和商業(yè)模式導(dǎo)向的結(jié)果。”一位業(yè)內(nèi)人士說(shuō)道。
小鵬和理想都走了 VLA 的路徑,上述人士告訴筆者:“這是傳統(tǒng)車企轉(zhuǎn)向一個(gè)機(jī)器人企業(yè),或者說(shuō) AI 企業(yè)必須要去走的,早走晚走都得走。”
小鵬目前是汽車和機(jī)器人兩手抓,而理想的機(jī)器人業(yè)務(wù)還只是規(guī)劃階段,這種業(yè)務(wù)布局的差異性讓這兩家在同一技術(shù)路線上又衍生了另一條支線。
小鵬在云端訓(xùn)練了一個(gè) 72B 參數(shù)量的世界基座模型,是主流車端模型的 35 倍以上。小鵬希望世界基座大模型能夠真正理解、認(rèn)知,甚至改造物理世界,能夠用在自動(dòng)駕駛領(lǐng)域,也能逐步延展到機(jī)器人和飛行汽車。
一位業(yè)內(nèi)人士告訴筆者,小鵬最新一代技術(shù)架構(gòu)大概率布局在小鵬自研的圖靈芯片上,而不是基于雙OrinX 的硬件配置打造。
據(jù)悉,小鵬圖靈芯片已于去年8月流片成功,或?qū)⒂诮衲甓径攘慨a(chǎn)上市,計(jì)劃用于汽車、機(jī)器人和飛行汽車上。圖靈芯片對(duì)AI需求、端到端大模型進(jìn)行特定設(shè)計(jì),集成了2個(gè)小鵬自研的神經(jīng)網(wǎng)絡(luò)處理大腦,并面向神經(jīng)網(wǎng)絡(luò)做了特定架構(gòu)處理,最高能處理 30B 參數(shù)的大模型,讓世界基座模型蒸餾后部署車端具備了可能性。
理想目前還無(wú)暇顧及八字還沒(méi)一撇的機(jī)器人業(yè)務(wù),更注重于車端能力的提升,打造了一個(gè)司機(jī) Agent 的角色。
理想全新架構(gòu)的特別之處在于花大力氣前訓(xùn)了一個(gè) LLM 基座模型(Large Language Model,大語(yǔ)言模型,簡(jiǎn)稱LLM),沒(méi)有采用業(yè)內(nèi)通用的第三方的大語(yǔ)言模型作為基座。
之所以這樣,是因?yàn)槔硐朐诙说蕉?VLM 階段發(fā)現(xiàn),VLM 基于千問(wèn),使用互聯(lián)網(wǎng) 2D 圖文數(shù)據(jù),但對(duì)于 3D 世界的理解和駕駛知識(shí)存在不足之處,會(huì)導(dǎo)致產(chǎn)生大量幻覺(jué);而通過(guò)前訓(xùn)專門針對(duì)自動(dòng)駕駛的 LLM 基座模型能夠消除部分幻覺(jué)的同時(shí),還能夠主干網(wǎng)絡(luò)的參數(shù)量壓低,減少車端算力的承載。
這背后包含的一個(gè)背景因素是,理想自研的芯片項(xiàng)目“舒馬赫”進(jìn)展相對(duì)緩慢,現(xiàn)階段無(wú)法給予自研芯片去做定制化開發(fā),只能繼續(xù)選擇英偉達(dá)的 Thor 芯片。
華為同樣打造了一個(gè)原生多模態(tài)的基座模型,即“世界行為模型”。華為的做法是,通過(guò)獲取包括“視覺(jué)、聽覺(jué)、觸覺(jué)”的多傳感器全模態(tài)感知信息輸入,經(jīng)過(guò)token化后生成智駕原生基模型,采用MoE多專家能力架構(gòu),不同場(chǎng)景調(diào)用不同能力,最后輸出兩類信息——給車用的軌跡生成和給人看的場(chǎng)景意圖,從而實(shí)現(xiàn)人機(jī)共駕。
結(jié)合其引入世界引擎模型,華為當(dāng)下要解決的是往L3方向面臨的難例場(chǎng)景問(wèn)題,降低時(shí)延、提升預(yù)見能力,保障十秒預(yù)警能力。華為要達(dá)成的,是成為最早一批進(jìn)入L3梯隊(duì)的玩家。
無(wú)論是小鵬“大力出奇跡”的世界基座模型,還是理想的VLA,或是華為ADS4,這些路線是否是一個(gè)效率最高的方式,是否有效率更高的架構(gòu)出現(xiàn),目前還是打問(wèn)號(hào)的階段。沒(méi)有人真正證明過(guò)這些路線可以提升自動(dòng)駕駛技術(shù)的進(jìn)步速度,所有廠商都還處在探索階段。
優(yōu)質(zhì)數(shù)據(jù)成關(guān)鍵
不管是VLA 還是蔚來(lái)采用NWM世界模型,車企做自動(dòng)駕駛的邏輯都是用更多、更好的數(shù)據(jù)訓(xùn)練模型,用Scaling law 繼續(xù)加速技術(shù)進(jìn)步。
在端到端 2.0 階段,大模型需要更多的優(yōu)質(zhì)數(shù)據(jù),擴(kuò)大的需求放大了廠商們的數(shù)據(jù)困境,主要是兩方面:對(duì)實(shí)車采集的數(shù)據(jù)進(jìn)行人工標(biāo)注,太貴了;找到剛好可以用的難例數(shù)據(jù),太難了。
“用于智駕訓(xùn)練的數(shù)據(jù),不缺普通數(shù)據(jù),缺的是長(zhǎng)尾的各種Corner case數(shù)據(jù)。”華為引望靳玉志在ADS4發(fā)布會(huì)上感嘆道。
盡管大部分廠商都聲稱擁有大量用戶數(shù)據(jù)/行車數(shù)據(jù),但如何從中找出優(yōu)質(zhì)數(shù)據(jù)則是一大門檻,依賴人工標(biāo)注去真實(shí)場(chǎng)景中挖掘優(yōu)質(zhì)數(shù)據(jù),背后的成本支出非常大。
在數(shù)據(jù)難題面前,廠商們想到的辦法是,通過(guò)世界模型仿真模擬解決數(shù)據(jù)問(wèn)題。簡(jiǎn)言之,如果在現(xiàn)實(shí)世界中收集不到足夠的數(shù)據(jù),就在虛擬世界里生產(chǎn)數(shù)據(jù)。
據(jù)一位做強(qiáng)化學(xué)習(xí)的工程師透露,目前訓(xùn)練中的真數(shù)據(jù)跟假數(shù)據(jù)(人工合成/生成數(shù)據(jù))達(dá)到 1:2 的程度。
世界模型在自動(dòng)駕駛領(lǐng)域的作用是,通過(guò)大模型生成足夠精確甚至擬真的數(shù)據(jù),模擬更多更復(fù)雜的駕駛場(chǎng)景以訓(xùn)練模型。這種做法的優(yōu)點(diǎn)是,數(shù)據(jù)獲取成本低,車企不再需要車一遍遍在路上開以采集數(shù)據(jù),只需要讓AI 按照要求生成即可;獲取的數(shù)據(jù)種類也會(huì)更多。
地平線余凱對(duì)仿真的態(tài)度更為激進(jìn),其認(rèn)為“在人工智能時(shí)代,用戶行為數(shù)據(jù)不重要,99% 的司機(jī)行為不值得學(xué)習(xí),剎車、拐彎、換道等體驗(yàn)并不好。自動(dòng)駕駛頂級(jí)玩家已不靠司機(jī)數(shù)據(jù)學(xué)習(xí),未來(lái)仿真可能是最重要的。”
地平線對(duì)仿真的重視與其供應(yīng)商身份離不開關(guān)系,相較于車企而言,地平線難以在車端獲取大量用戶數(shù)據(jù),仿真是解決數(shù)據(jù)瓶頸的一大優(yōu)解。
余凱把這一思路的終極形態(tài)描述為“ AI 教 AI ”,就像 Alpha Zero 在仿真平臺(tái)左右互搏,棋藝遠(yuǎn)超人類,下棋方法也是人類歷史上沒(méi)有的。這意味著,這一終極形態(tài)這不僅把開車的人類解放了,也把做自動(dòng)駕駛軟件的人類解放了。
不過(guò),在現(xiàn)有技術(shù)條件下,仿真模擬和AI生成數(shù)據(jù)的質(zhì)量都遠(yuǎn)不如實(shí)車行駛收集的數(shù)據(jù)。數(shù)據(jù)差別的關(guān)鍵 gap 是,人類還無(wú)法教機(jī)器充分認(rèn)識(shí)世界,也無(wú)法在虛擬世界完整復(fù)刻現(xiàn)實(shí)。
目前各家廠商在世界模型都停留在探索階段。這也是技術(shù)差距最容易拉大的階段,其門檻之高,決定了不是所有廠商都有能力邁進(jìn)。
端到端的“遮羞布”將被掀開
今年以來(lái),多家車企動(dòng)不動(dòng)以“高階智駕”能力標(biāo)榜自身,在“端到端”等技術(shù)名詞的包裝下,各家廠商似乎被拉到同一水平線,智駕能力的分化變得混沌。隨著新的技術(shù)架構(gòu)產(chǎn)生,被統(tǒng)一技術(shù)路線拉近的技術(shù)差距將因?yàn)榧夹g(shù)分歧再次拉開。
一位業(yè)內(nèi)人士向筆者表示,智駕已經(jīng)開始出現(xiàn)分化。“最高階的是往L3方向邁進(jìn),包括華為 ADS4、千里浩瀚 H9 等方案都已經(jīng)明確指向 L3,提供雙冗余的硬件配置;中階版本則是以單Thor、雙OrinX的方案為主,采用純視覺(jué)或單激光雷達(dá),基本是往城區(qū)輔助駕駛的L2方向去做再往下就是高速加部分城市領(lǐng)航功能的方案。”
隨之而來(lái)的,智駕的商業(yè)模式也將發(fā)生改變。
L3 將是涉及“重技術(shù)+強(qiáng)運(yùn)營(yíng)”的一個(gè)體系。“L3的責(zé)任歸屬?gòu)挠脩艮D(zhuǎn)移到車企,這要求車企一定要做好更新和維護(hù),那么這就不是一個(gè)純技術(shù)問(wèn)題,而是一個(gè)重運(yùn)營(yíng)的形態(tài)。”一位業(yè)內(nèi)從業(yè)者說(shuō)道。
L2 時(shí)期的車企和方案廠商可以在隨意切換技術(shù)路線后,不對(duì)原來(lái)的方案進(jìn)行維護(hù),但進(jìn)入 L3,無(wú)論是技術(shù)方案的選擇還是雙倍硬件配置冗余,以及軟件后期維護(hù)等都應(yīng)該具備確定性。
有能力自研的車企已經(jīng)朝著更難更重要的技術(shù)變化前進(jìn),能力一般的車企,只能寄希望于供應(yīng)商解決問(wèn)題。進(jìn)入城區(qū)自動(dòng)駕駛這種更難的技術(shù)領(lǐng)域后,供應(yīng)商也需要升級(jí)自己的技術(shù)。供應(yīng)商技術(shù)能力的好壞在更高門檻的領(lǐng)域,也會(huì)更容易被區(qū)分。
“從技術(shù)層面來(lái)看,做到高速NOA其實(shí)并不困難,但城區(qū)的場(chǎng)景比高速難至少10到100倍。想要把城區(qū)輔助駕駛產(chǎn)品做好,我認(rèn)為是滾雪球一樣的過(guò)程。雪球不僅會(huì)越滾越大,而且越滾越快。”智駕大陸首席執(zhí)行官厲飚說(shuō)道。
訂單會(huì)集中到更少數(shù)供應(yīng)商手中。“量產(chǎn)是非常關(guān)鍵的維度,實(shí)際上這個(gè)門檻已經(jīng)非常明顯了,沒(méi)有經(jīng)過(guò)量產(chǎn)的廠商,主機(jī)廠基本不會(huì)去選。現(xiàn)在量這么大,對(duì)安全要求這么高,在這些點(diǎn)上我覺(jué)得幾乎沒(méi)有做過(guò)量產(chǎn)的,已經(jīng)基本上是進(jìn)不去了。”于騫說(shuō)道。
于騫還指出,量產(chǎn)之外,產(chǎn)品的交付周期、交付成本、交付后的體驗(yàn)等方面都是主機(jī)廠在篩選供應(yīng)商時(shí)的考量。層層篩選下來(lái),能被選擇的廠商已經(jīng)不多。
智駕全行業(yè)都在往上層能力邁進(jìn),高階的路線仍在探索,但已被驗(yàn)證過(guò)的場(chǎng)景和階段的發(fā)展路徑已經(jīng)十分明確,靠“PPT”刷無(wú)圖NOA、端到端等技術(shù)名詞的方式將不再奏效,智駕市場(chǎng)將進(jìn)入強(qiáng)者更強(qiáng),弱者淘汰的局面。
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4383692.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.