網易首頁 > 網易號 > 正文申請入駐

理想汽車發布VLA司機大模型，從動物進化到人類，助力智駕新高度

2025-05-08 15:02:04　來源: 汽車投訴網

廣東舉報

分享至

2025年5月7日，理想汽車在“理想AI Talk第二季”活動中，由董事長兼CEO李想分享了關于人工智能的最新思考，重點介紹了VLA（Vision-Language-Action Model，視覺語言行動模型）司機大模型的作用、訓練方法和面臨的挑戰，以及對創業和個人成長的見解。

李想將AI工具分為三個層級：信息工具、輔助工具和生產工具。目前，大多數人將AI作為信息工具使用，但這類工具常伴隨大量無效信息，僅具參考價值。當AI發展為輔助工具后，可以提升效率，例如目前的輔助駕駛系統，但仍需人類參與。未來，AI發展為生產工具后，將能獨立完成專業任務，顯著提升效率與質量。

李想指出：“判斷Agent（智能體）是否真正智能，關鍵在于它是否成為生產工具。只有當人工智能變成生產工具，才是其真正爆發的時刻。就像人類會雇傭司機，人工智能技術最終也會承擔類似職責，成為真正的生產工具。”

VLA的實現是一個逐步進化的過程，經歷了三個階段，對應理想汽車輔助駕駛的昨天、今天和明天。第一階段，理想汽車自2021年起自研依賴規則算法和高精地圖的輔助駕駛，類似“昆蟲動物智能”。第二階段，理想汽車自2023年起研究，并于2024年正式推送的端到端+VLM（Vision Language Model，視覺語言模型）輔助駕駛，接近“哺乳動物智能”。然而，端到端模型在處理復雜問題時存在局限，雖可借助VLM視覺語言模型輔助，但VLM使用開源模型，使其在交通領域的能力有限。同時，端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗，理想汽車自2024年起開展VLA研究，并在多項頂級學術會議上發表論文，夯實了理論基礎。

在端到端的基礎上，到第三階段，VLA將開啟“人類智能”的階段。它能通過3D和2D視覺的組合，完整地看到物理世界，而不像VLM僅能解析2D圖像。同時，VLA擁有完整的腦系統，具備語言、CoT（Chain of Thought，思維鏈）推理能力，既能看，也能理解并真正執行行動，符合人類的運作方式。

VLA的訓練過程模擬人類學習，分為預訓練、后訓練和強化訓練三個環節。預訓練相當于人類學習物理世界和交通領域的常識，通過大量高清2D和3D視覺數據、交通相關的語言語料，以及與物理世界相關的視覺和語言聯合數據，訓練出云端的視覺語言基座模型，并通過蒸餾轉化為在車端高效運行的端側模型。后訓練相當于人類去駕校學習開車的過程，隨著動作數據的加入，視覺語言基座變為VLA司機大模型。強化訓練類似于人類在社會中實際開車練習，目標是讓VLA司機大模型更加安全、舒適，對齊人類價值觀，甚至超越人類駕駛水平。強化訓練包含兩部分：一是通過RLHF（Reinforcement Learning from Human Feedback，基于人類反饋的強化學習）完成安全對齊，使模型遵守交通規則，貼合中國用戶的駕駛習慣；二是將純強化學習模型放入世界模型中訓練，提升舒適性，避免碰撞事故，遵守交通規則。經過預訓練、后訓練和強化訓練后，VLA司機大模型即可部署至車端運行。

VLA司機大模型以“司機Agent（智能體）”的產品形態呈現，用戶可通過自然語言與司機Agent溝通，簡單通用的短指令由端側的VLA直接處理，復雜指令則先由云端的視覺語言基座模型解析，再交由VLA處理。

除了提升專業能力，VLA司機大模型還需解決安全性和模型黑盒的問題。模型能力越強，越需要職業性約束，以確保能力下限。為了保障VLA司機大模型能夠實現職業司機般的安全和舒適，避免學習加塞等違規行為，理想汽車在強化訓練環節投入大量資源，并于2024年底組建超過100人的超級對齊團隊，相當于為司機Agent注入職業素養。為解決模型的黑盒問題，理想汽車結合重建和生成兩種路徑，打造了真實、符合物理世界規律的世界模型，覆蓋所有交通參與者和要素。基于世界模型的仿真能力，VLA可以在世界模型中低成本、準確地驗證現實問題，提升解決問題的效率，有效應對模型黑盒帶來的挑戰。

判斷司機Agent是否是個好司機，有三個關鍵標準：專業能力、職業能力和構建信任的能力。VLA司機大模型提升了專業能力，超級對齊增強了職業能力，VLA通過理解自然語言、具備記憶能力提升了構建信任的能力。

理想汽車實現技術快速躍遷的背后，是從研究、研發到能力表達，再到將能力變成業務價值的基本功積累。研究是關鍵，研究突破后，研發的效率會大幅提升，且注重價值轉化，最終實現業務落地。理想汽車堅持自研，通過技術賦能用戶價值。例如，在輔助駕駛方面，由于英偉達Orin-X芯片無法直接運行語言模型，端到端+VLM的輔助駕駛方案對部分企業來說仍具挑戰。理想汽車依托自有編譯團隊，自研底層推理引擎，使芯片可通過INT4（4比特整型）量化的方式運行VLM。同時，憑借芯片、控制器設計和自研汽車操作系統等綜合能力，理想汽車實現了讓雙Orin-X芯片和Thor-U芯片運行同等規模的VLA司機大模型。李想表示，大型企業的基本功和能力永遠無法被逾越。

得益于DeepSeek的開源，理想汽車在VLA司機大模型的語言能力研發上提速顯著，節省了近9個月的時間和數億元成本。盡管如此，理想汽車仍選擇加大投入，在基座模型上投入超預期3倍的訓練卡，專注打造適配多場景的自研模型。李想表示：“我們可以站在巨人的肩膀上，但它只是其中的一部分。”在受益開源的同時，理想汽車也選擇開源自研的汽車操作系統——理想星環OS，回饋社會。

今年7月，理想汽車將迎來成立十周年。李想表示，創業路上苦多于甜，他選擇保留那些有價值的美好片段，用來激勵自己保持正能量。“創業確實不容易，但是沒必要苦哈哈的。苦和甜是一個硬幣的正反面，取決于看哪一面。”他將企業遭遇的打擊視為必須面對的挑戰，也正是這些挑戰，賦予了理想汽車更多的能力。也正因這份積極樂觀的創業心態，理想汽車才能快速成長為千億營收規模、百萬交付量的新勢力企業。

談及如何成為更有能量的人，李想認為，關鍵在于關注自我，接受自身的優點和不足，并用成長替代改變——成長意味著增強能力。除此之外，李想強調親密關系同樣重要，關注他人的成長也能帶來能量，家人和同事能夠和他形成互補，相互支撐。“我需要家人和同事甚至超過了他們需要我，首先是我需要他們，然后才是他們需要我，我們在一起能夠形成非常強的腦力和心力。”李想表示。

回顧幾次創業經歷，李想表示，從高中創辦個人網站至今，自己的思維方式沒有什么變化：遇到問題解決問題，解決別人不愿解決的難題，解決用戶的痛點，不斷向他人學習。不同的是，如今面臨的問題更復雜、服務的用戶群體更多、公司規模和組織也更龐大。“幾次創業一路走來，最難時有人相助，遇坑也能迅速爬出，一幫人齊心協力變得更好，這是種幸運，也沒什么可后悔的。”

面對AI的發展，李想認為，在AI面前所有的人性都應被保留，無論好壞，因為一切人性都是文化、生命、性格、能力的特質，也是人類真正的生命力所在。

從使用增程電動和5C超充技術解決電池成本高、充電難、充電慢的問題，到自研汽車操作系統攻克傳統汽車操作系統性能差、開發緩慢、芯片匹配周期長等挑戰，理想汽車始終以技術創新解決行業無法解決的問題。自研VLA時，理想汽車更是踏入了人工智能的無人區。當前，輔助駕駛走到了新的十字路口上，理想汽車將不斷挑戰成長的極限，持續為行業和用戶創造價值。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.