網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智駕的遮羞布被掀開

2025-05-26 20:44:06　來(lái)源: 虎嗅APP

北京舉報(bào)

分享至

出品丨虎嗅汽車組

作者丨肖漫

頭圖丨電影《終極對(duì)弈》

“企業(yè)做宣傳時(shí)，講得天花亂墜，說(shuō)是端到端、數(shù)據(jù)驅(qū)動(dòng)，有各種各樣的新詞，但對(duì)普通消費(fèi)者來(lái)說(shuō)，很簡(jiǎn)單，上車以后 5 分鐘能不能感覺(jué)產(chǎn)品是完全與眾不同的，是可以信賴的，這樣的產(chǎn)品才能去賣。”今年年初，地平線蘇箐在媒體交流會(huì)中有感而發(fā)的這段話，仍舊警示車圈智駕生態(tài)。

去年一整年，車企都在做端到端。華為、理想、小鵬和海外的特斯拉已經(jīng)證明，端到端模型訓(xùn)練出的自動(dòng)駕駛軟件可以上路——至少在大部分時(shí)候如此。

端到端是一個(gè)黑盒系統(tǒng)，其邏輯是通過(guò)神經(jīng)網(wǎng)絡(luò)模擬人類行為，通過(guò)概率模型總結(jié)出來(lái)的駕駛策略，存在出現(xiàn)問(wèn)題的概率，且一旦出現(xiàn)問(wèn)題可能造成嚴(yán)重的后果。（關(guān)于蔚小理華的上一代架構(gòu)，虎嗅汽車團(tuán)隊(duì)曾在《抄不了特斯拉的作業(yè)，“蔚小理華”可咋整》一文中有過(guò)詳細(xì)解析）

端到端思路來(lái)源于人工智能領(lǐng)域的深度學(xué)習(xí)，本質(zhì)是把智駕算法簡(jiǎn)單化，再通過(guò)大量的數(shù)據(jù)訓(xùn)練來(lái)補(bǔ)足軟件能力。

但一些車企已經(jīng)發(fā)現(xiàn)，端到端無(wú)法完全解決問(wèn)題。當(dāng)智能駕駛要往更安全、人類干預(yù)更少的 L3 方向進(jìn)階，就要想辦法補(bǔ)上端到端的漏洞。

于是車企們甩出一堆新的名詞——世界模型、VLA、基座模型......這些詞匯意味著什么，真的能解決智能駕駛問(wèn)題嗎？

智駕路線出現(xiàn)分野

進(jìn)入端到端2.0階段，技術(shù)路線沒(méi)有了標(biāo)準(zhǔn)答案。

理想在 AI TALK 上公布下一代自動(dòng)駕駛架構(gòu) VLA（視覺(jué)-語(yǔ)言-行為大模型）；小鵬最新技術(shù)架構(gòu)則是打造一個(gè)云端世界基座模型，通過(guò)蒸餾方法，生產(chǎn)出小尺寸的車端模型XVLA；華為乾崑ADS4 引入了 WEWA 架構(gòu)——WE代表云端世界引擎（World Engine），WA代表了車端的世界行為模型（World Action Model）。

“各家廠商軟件架構(gòu)不一樣，其實(shí)是各家的硬件研發(fā)進(jìn)度和商業(yè)模式導(dǎo)向的結(jié)果。”一位業(yè)內(nèi)人士說(shuō)道。

小鵬和理想都走了 VLA 的路徑，上述人士告訴筆者：“這是傳統(tǒng)車企轉(zhuǎn)向一個(gè)機(jī)器人企業(yè)，或者說(shuō) AI 企業(yè)必須要去走的，早走晚走都得走。”

小鵬目前是汽車和機(jī)器人兩手抓，而理想的機(jī)器人業(yè)務(wù)還只是規(guī)劃階段，這種業(yè)務(wù)布局的差異性讓這兩家在同一技術(shù)路線上又衍生了另一條支線。

小鵬在云端訓(xùn)練了一個(gè) 72B 參數(shù)量的世界基座模型，是主流車端模型的 35 倍以上。小鵬希望世界基座大模型能夠真正理解、認(rèn)知，甚至改造物理世界，能夠用在自動(dòng)駕駛領(lǐng)域，也能逐步延展到機(jī)器人和飛行汽車。

一位業(yè)內(nèi)人士告訴筆者，小鵬最新一代技術(shù)架構(gòu)大概率布局在小鵬自研的圖靈芯片上，而不是基于雙OrinX 的硬件配置打造。

據(jù)悉，小鵬圖靈芯片已于去年8月流片成功，或?qū)⒂诮衲甓径攘慨a(chǎn)上市，計(jì)劃用于汽車、機(jī)器人和飛行汽車上。圖靈芯片對(duì)AI需求、端到端大模型進(jìn)行特定設(shè)計(jì)，集成了2個(gè)小鵬自研的神經(jīng)網(wǎng)絡(luò)處理大腦，并面向神經(jīng)網(wǎng)絡(luò)做了特定架構(gòu)處理，最高能處理 30B 參數(shù)的大模型，讓世界基座模型蒸餾后部署車端具備了可能性。

理想目前還無(wú)暇顧及八字還沒(méi)一撇的機(jī)器人業(yè)務(wù)，更注重于車端能力的提升，打造了一個(gè)司機(jī) Agent 的角色。

理想全新架構(gòu)的特別之處在于花大力氣前訓(xùn)了一個(gè) LLM 基座模型（Large Language Model，大語(yǔ)言模型，簡(jiǎn)稱LLM），沒(méi)有采用業(yè)內(nèi)通用的第三方的大語(yǔ)言模型作為基座。

之所以這樣，是因?yàn)槔硐朐诙说蕉?VLM 階段發(fā)現(xiàn)，VLM 基于千問(wèn)，使用互聯(lián)網(wǎng) 2D 圖文數(shù)據(jù)，但對(duì)于 3D 世界的理解和駕駛知識(shí)存在不足之處，會(huì)導(dǎo)致產(chǎn)生大量幻覺(jué)；而通過(guò)前訓(xùn)專門針對(duì)自動(dòng)駕駛的 LLM 基座模型能夠消除部分幻覺(jué)的同時(shí)，還能夠主干網(wǎng)絡(luò)的參數(shù)量壓低，減少車端算力的承載。

這背后包含的一個(gè)背景因素是，理想自研的芯片項(xiàng)目“舒馬赫”進(jìn)展相對(duì)緩慢，現(xiàn)階段無(wú)法給予自研芯片去做定制化開發(fā)，只能繼續(xù)選擇英偉達(dá)的 Thor 芯片。

華為同樣打造了一個(gè)原生多模態(tài)的基座模型，即“世界行為模型”。華為的做法是，通過(guò)獲取包括“視覺(jué)、聽覺(jué)、觸覺(jué)”的多傳感器全模態(tài)感知信息輸入，經(jīng)過(guò)token化后生成智駕原生基模型，采用MoE多專家能力架構(gòu)，不同場(chǎng)景調(diào)用不同能力，最后輸出兩類信息——給車用的軌跡生成和給人看的場(chǎng)景意圖，從而實(shí)現(xiàn)人機(jī)共駕。

結(jié)合其引入世界引擎模型，華為當(dāng)下要解決的是往L3方向面臨的難例場(chǎng)景問(wèn)題，降低時(shí)延、提升預(yù)見能力，保障十秒預(yù)警能力。華為要達(dá)成的，是成為最早一批進(jìn)入L3梯隊(duì)的玩家。

無(wú)論是小鵬“大力出奇跡”的世界基座模型，還是理想的VLA，或是華為ADS4，這些路線是否是一個(gè)效率最高的方式，是否有效率更高的架構(gòu)出現(xiàn)，目前還是打問(wèn)號(hào)的階段。沒(méi)有人真正證明過(guò)這些路線可以提升自動(dòng)駕駛技術(shù)的進(jìn)步速度，所有廠商都還處在探索階段。

優(yōu)質(zhì)數(shù)據(jù)成關(guān)鍵

不管是VLA 還是蔚來(lái)采用NWM世界模型，車企做自動(dòng)駕駛的邏輯都是用更多、更好的數(shù)據(jù)訓(xùn)練模型，用Scaling law 繼續(xù)加速技術(shù)進(jìn)步。

在端到端 2.0 階段，大模型需要更多的優(yōu)質(zhì)數(shù)據(jù)，擴(kuò)大的需求放大了廠商們的數(shù)據(jù)困境，主要是兩方面：對(duì)實(shí)車采集的數(shù)據(jù)進(jìn)行人工標(biāo)注，太貴了；找到剛好可以用的難例數(shù)據(jù)，太難了。

“用于智駕訓(xùn)練的數(shù)據(jù)，不缺普通數(shù)據(jù)，缺的是長(zhǎng)尾的各種Corner case數(shù)據(jù)。”華為引望靳玉志在ADS4發(fā)布會(huì)上感嘆道。

盡管大部分廠商都聲稱擁有大量用戶數(shù)據(jù)/行車數(shù)據(jù)，但如何從中找出優(yōu)質(zhì)數(shù)據(jù)則是一大門檻，依賴人工標(biāo)注去真實(shí)場(chǎng)景中挖掘優(yōu)質(zhì)數(shù)據(jù)，背后的成本支出非常大。

在數(shù)據(jù)難題面前，廠商們想到的辦法是，通過(guò)世界模型仿真模擬解決數(shù)據(jù)問(wèn)題。簡(jiǎn)言之，如果在現(xiàn)實(shí)世界中收集不到足夠的數(shù)據(jù)，就在虛擬世界里生產(chǎn)數(shù)據(jù)。

據(jù)一位做強(qiáng)化學(xué)習(xí)的工程師透露，目前訓(xùn)練中的真數(shù)據(jù)跟假數(shù)據(jù)（人工合成/生成數(shù)據(jù)）達(dá)到 1:2 的程度。

世界模型在自動(dòng)駕駛領(lǐng)域的作用是，通過(guò)大模型生成足夠精確甚至擬真的數(shù)據(jù)，模擬更多更復(fù)雜的駕駛場(chǎng)景以訓(xùn)練模型。這種做法的優(yōu)點(diǎn)是，數(shù)據(jù)獲取成本低，車企不再需要車一遍遍在路上開以采集數(shù)據(jù)，只需要讓AI 按照要求生成即可；獲取的數(shù)據(jù)種類也會(huì)更多。

地平線余凱對(duì)仿真的態(tài)度更為激進(jìn)，其認(rèn)為“在人工智能時(shí)代，用戶行為數(shù)據(jù)不重要，99% 的司機(jī)行為不值得學(xué)習(xí)，剎車、拐彎、換道等體驗(yàn)并不好。自動(dòng)駕駛頂級(jí)玩家已不靠司機(jī)數(shù)據(jù)學(xué)習(xí)，未來(lái)仿真可能是最重要的。”

地平線對(duì)仿真的重視與其供應(yīng)商身份離不開關(guān)系，相較于車企而言，地平線難以在車端獲取大量用戶數(shù)據(jù)，仿真是解決數(shù)據(jù)瓶頸的一大優(yōu)解。

余凱把這一思路的終極形態(tài)描述為“ AI 教 AI ”，就像 Alpha Zero 在仿真平臺(tái)左右互搏，棋藝遠(yuǎn)超人類，下棋方法也是人類歷史上沒(méi)有的。這意味著，這一終極形態(tài)這不僅把開車的人類解放了，也把做自動(dòng)駕駛軟件的人類解放了。

不過(guò)，在現(xiàn)有技術(shù)條件下，仿真模擬和AI生成數(shù)據(jù)的質(zhì)量都遠(yuǎn)不如實(shí)車行駛收集的數(shù)據(jù)。數(shù)據(jù)差別的關(guān)鍵 gap 是，人類還無(wú)法教機(jī)器充分認(rèn)識(shí)世界，也無(wú)法在虛擬世界完整復(fù)刻現(xiàn)實(shí)。

目前各家廠商在世界模型都停留在探索階段。這也是技術(shù)差距最容易拉大的階段，其門檻之高，決定了不是所有廠商都有能力邁進(jìn)。

端到端的“遮羞布”將被掀開

今年以來(lái)，多家車企動(dòng)不動(dòng)以“高階智駕”能力標(biāo)榜自身，在“端到端”等技術(shù)名詞的包裝下，各家廠商似乎被拉到同一水平線，智駕能力的分化變得混沌。隨著新的技術(shù)架構(gòu)產(chǎn)生，被統(tǒng)一技術(shù)路線拉近的技術(shù)差距將因?yàn)榧夹g(shù)分歧再次拉開。

一位業(yè)內(nèi)人士向筆者表示，智駕已經(jīng)開始出現(xiàn)分化。“最高階的是往L3方向邁進(jìn)，包括華為 ADS4、千里浩瀚 H9 等方案都已經(jīng)明確指向 L3，提供雙冗余的硬件配置；中階版本則是以單Thor、雙OrinX的方案為主，采用純視覺(jué)或單激光雷達(dá)，基本是往城區(qū)輔助駕駛的L2方向去做再往下就是高速加部分城市領(lǐng)航功能的方案。”

隨之而來(lái)的，智駕的商業(yè)模式也將發(fā)生改變。

L3 將是涉及“重技術(shù)+強(qiáng)運(yùn)營(yíng)”的一個(gè)體系。“L3的責(zé)任歸屬?gòu)挠脩艮D(zhuǎn)移到車企，這要求車企一定要做好更新和維護(hù)，那么這就不是一個(gè)純技術(shù)問(wèn)題，而是一個(gè)重運(yùn)營(yíng)的形態(tài)。”一位業(yè)內(nèi)從業(yè)者說(shuō)道。

L2 時(shí)期的車企和方案廠商可以在隨意切換技術(shù)路線后，不對(duì)原來(lái)的方案進(jìn)行維護(hù)，但進(jìn)入 L3，無(wú)論是技術(shù)方案的選擇還是雙倍硬件配置冗余，以及軟件后期維護(hù)等都應(yīng)該具備確定性。

有能力自研的車企已經(jīng)朝著更難更重要的技術(shù)變化前進(jìn)，能力一般的車企，只能寄希望于供應(yīng)商解決問(wèn)題。進(jìn)入城區(qū)自動(dòng)駕駛這種更難的技術(shù)領(lǐng)域后，供應(yīng)商也需要升級(jí)自己的技術(shù)。供應(yīng)商技術(shù)能力的好壞在更高門檻的領(lǐng)域，也會(huì)更容易被區(qū)分。

“從技術(shù)層面來(lái)看，做到高速NOA其實(shí)并不困難，但城區(qū)的場(chǎng)景比高速難至少10到100倍。想要把城區(qū)輔助駕駛產(chǎn)品做好，我認(rèn)為是滾雪球一樣的過(guò)程。雪球不僅會(huì)越滾越大，而且越滾越快。”智駕大陸首席執(zhí)行官厲飚說(shuō)道。

訂單會(huì)集中到更少數(shù)供應(yīng)商手中。“量產(chǎn)是非常關(guān)鍵的維度，實(shí)際上這個(gè)門檻已經(jīng)非常明顯了，沒(méi)有經(jīng)過(guò)量產(chǎn)的廠商，主機(jī)廠基本不會(huì)去選。現(xiàn)在量這么大，對(duì)安全要求這么高，在這些點(diǎn)上我覺(jué)得幾乎沒(méi)有做過(guò)量產(chǎn)的，已經(jīng)基本上是進(jìn)不去了。”于騫說(shuō)道。

于騫還指出，量產(chǎn)之外，產(chǎn)品的交付周期、交付成本、交付后的體驗(yàn)等方面都是主機(jī)廠在篩選供應(yīng)商時(shí)的考量。層層篩選下來(lái)，能被選擇的廠商已經(jīng)不多。

智駕全行業(yè)都在往上層能力邁進(jìn)，高階的路線仍在探索，但已被驗(yàn)證過(guò)的場(chǎng)景和階段的發(fā)展路徑已經(jīng)十分明確，靠“PPT”刷無(wú)圖NOA、端到端等技術(shù)名詞的方式將不再奏效，智駕市場(chǎng)將進(jìn)入強(qiáng)者更強(qiáng)，弱者淘汰的局面。

本文來(lái)自虎嗅，原文鏈接：https://www.huxiu.com/article/4383692.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.