21對話|小米陳龍:用一套技術架構,讓VLA與世界模型并存
21世紀經濟報道記者 何煦陽
人類并不是一生下來就學習并學會駕駛的。在學習駕駛之前,人類需要經過漫長的成長過程,而大模型也一樣。
“小時候,我們學說話和認字。隨著慢慢成長,我們會經常摸、拿、抓、取一些東西。等到我們具備了強大的語言能力和對空間的理解和推理能力,差不多18歲以后,我們再去學習。這樣才能將我們習得的一切融入駕駛之中,不僅開得更快,還開得更好。XLA大模型也一樣。”4月初,《21汽車·一見Auto》與小米汽車智能駕駛基座大模型負責人陳龍進行了一次面對面訪談,他這樣說。
一個月前,小米剛發布新一代SU7,并宣布輔助駕駛升級到XLA認知大模型架構。
所謂的“X”,是指“多模態認知輸入”。小米集團董事長雷軍在新一代SU7發布會上稱,相比VLA(Vison-Language-Action Model,視覺-語言-動作模型),小米除了融入視覺(Vision)、雷達、導航信息以外,還融入了聲音、機器人數據等模態,讓大模型更全面地認知世界。雷軍宣布,未來三年,小米將在大模型、具身智能、AI應用等領域投入至少600億元,最終的落點,是推進AI應用全面融合“人車家”全生態。
陳龍便是小米XLA認知大模型的負責人。童年時,他喜歡美劇《霹靂游俠》里的智能跑車KITT,這臺跑車有鮮明的自我意識,通過自動駕駛多次幫助主角化險為夷。長大后,他曾在英國劍橋大學孵化的自動駕駛公司Wayve任職,是將VLA模型引入輔助駕駛領域的先行者,令大模型的駕駛決策過程更加透明。一年之前,陳龍從海外回國加入小米。
彼時的小米輔助駕駛架構還處于“端到端(End-to-End,一種深度學習模型范式,直接從原始輸入映射到最終輸出)+VLM(視覺-語言模型,Vision-Language Model)”范式。端到端拆掉了傳統輔助駕駛的“感知”“規劃”“決策”模塊,通過直接灌入大量駕駛場景數據,直接讓模型學習并輸出駕駛行為。陳龍將這一階段的核心,提煉為“數據驅動”。
但進入2025年,端到端架構的缺陷開始顯現:雖然大模型通過模仿學習提升了駕駛水平,但它卻未真正理解和認知駕駛本身。面對現實中復雜多變的長尾場景,僅靠“死記硬背”的模型容易陷入決策困境,無法像人類駕駛員一樣舉一反三。
陳龍判斷,智駕的下一階段必須從“數據驅動”升級為“認知驅動”。
為此,以去年11月為分界,陳龍團隊做了兩件大事:11月前,先讓大模型“長到十八歲”;之后再用潛空間推理(Latent CoT),讓模型真正學會駕駛。
為了將小米的具身基座大模型撫養成人,陳龍團隊花了八個月的時間,但蹚過的彎路卻遠不止八遍。
招納羅福莉后,小米發布并開源了多模態大模型“Xiaomi MiMo-VL”系列。陳龍告訴我們:“羅福莉和他們團隊,不僅給我們提供了一個很強的基座模型MiMo-VL系列,還與我們共享了一套訓練框架。”
這讓陳龍團隊不用從零開始打造自己的具身基座大模型,直接繼承了其社會常識與強大的推理能力。但這還不夠,MiMo-VL具備的能力還停留在二維,陳龍還需要往基座模型里灌入更多通用空間、輔助駕駛及機器人數據,增強其空間感知和推理能力。
不過,將大模型混入如此多元的數據,對陳龍團隊來講也是第一次,所以他們曾搞錯了灌輸數據的順序。
“一開始想直接混在一起看看效果,結果發現效果不好”,他告訴《21汽車·一見Auto》,“將數據混在一起訓練,輔助駕駛與機器人的水平都降低了。”
之后,陳龍團隊沒有急著繼續堆駕駛數據,而是先追問一個更底層的問題:模型究竟需要先具備什么能力,才能真正理解駕駛?他們最終的判斷是,駕駛不是孤立技能,它建立在更基礎的通用認知、空間理解和物理常識之上。
基于此判斷,團隊先灌輸通用的多模態與空間數據,再灌輸輔助駕駛與機器人數據——這很像人類“先成人、再開車”的邏輯,即先具備社會常識、物理感知和推理能力,才能更理解什么是駕駛、怎樣去駕駛。
數據的配比與融合,同樣關鍵。對比駕駛場景,機器人面對的場景更多元、更復雜,數據更稀少,陳龍團隊搜索并加入了大量開源數據,并通過大量實驗確認三類數據(機器人、駕駛與多模態)的最優配比。
為解決智駕和機器人數據難以融合的問題,他們標注了很多思維鏈數據(CoT,Chain of Thought),這也是團隊的核心技術創新之一。陳龍解釋,這相當于將兩個大任務分解成很多小任務,告訴大模型要先識別具體的物體,再理解物體的狀態,最后明白未來該怎么做。
進入VLA架構時代后期,ScalingLaw(大模型性能隨著數據、參數、性能而提升的擴展定律)邊際效應遞減,需要加入更多的、嶄新的三模態(視覺-語言-行動)輔助駕駛數據,才會開始新的一輪Scaling Law。這意味著陳龍團隊需要重新標注和構造新的駕駛數據,比如針對某段駕駛場景向模型提問,讓模型生成一段文字回答。陳龍告訴我們,“一個問題、一段畫面、一個回答”,在VLA時代只能算“一種數據”。數據標注在依托羅福莉團隊的AI基建與MiMo-VL系列大模型完成,機器生成后輔以人工“精篩”。
也有人力標注的方式,比如陳龍曾經任職的Wayve,就曾在技術博客上介紹自己是怎么用車隊構建“駕駛評論”數據集的:讓司機一邊開車,一邊大聲講出剛才自己是怎么決策的。
2025年11月21日,小米正式發布并開源小米具身大模型“Xiaomi MiMo-Embodied”,模型具備了自主思考的能力。但進入到量產部署階段,新的問題也隨之浮現。
“模型太大了。”陳龍向《21汽車·一見Auto》感嘆。即便壓縮了模型尺寸,車端有限算力仍無法支撐XLA完整的思維鏈推理,因為語言形式的思考過程耗時過長,難以滿足智駕實時性要求。
如何讓XLA認知大模型推理時更迅速且更高效,陳龍帶領團隊開啟了VLA探索的下一個階段:潛空間推理(Latent CoT)。
潛空間推理,即讓大模型在機器腦內高速、無聲、高維地完成思考,不再用人類啰嗦的語言,既保證智駕實時性,又保留可解釋與安全可控。但他們在探索時發現,僅靠機器語言思考并不足夠,模型要怎么思考,還是需要人類指導。
“最簡單的潛空間推理就是往里加幾個步驟,但你會發現它不知道要用這幾步來干什么。”陳龍告訴我們。在研發過程中,陳龍持續觀察人類駕駛行為,總結出三種核心思考模式,并將其注入XLA大模型:
第一種,運用直覺,“腦袋放空也能駕駛”,對應端到端的駕駛邏輯;
第二種,運用語言,讀取各種導航和指示牌等關鍵信息,做出簡潔的邏輯判斷,無需完整的語言陳述;
第三種,想象思考,即通過想象力預判場景,比如人類在超車時可能會判斷自車與前車的距離,變道的距離是否合適,這其實就是在運用對空間和未來的想象力。這一能力源自世界模型范式。
陳龍將世界模型分為兩類,一類是世界仿真模型(World Simulator Model),用處是生成無數駕駛場景,然后讓模型在里面不斷進行駕駛試驗;另一類是“世界動作模型(World Aciton Model)”,通過海量數據預判未來行車畫面,提前做出決策。
訓練階段,團隊會要求XLA將剛才自己的思考過程翻譯成人類語言或未來畫面,讓XLA一步步摸索自己應該如何用機器語言還原人類駕駛時思考的過程。
以超車為例:給XLA一段車輛跟在前方慢車后的畫面,讓XLA自己思考,再翻譯成人類語言思維鏈,如果能還原出“前方慢車擋路一確認安全一打燈變道超車一回原車道”的人類語言,說明它正確理解了人類駕駛的思考邏輯。團隊不需要用人力監督XLA生成的語言思維鏈是否正確,而是可以通過“模型監督模型”,使用羅福莉團隊新開發的MiMo-V2-omni進行監督,“它的視覺語言能力很強”;
另外,人類在超車時可能會判斷自車與前車的距離,變道的距離是否合適,這其實就是在運用對空間和未來的想象力。于是,陳龍團隊會要求XLA將自己的思考過程還原成未來幾幀的超車視頻,然后與真實的超車視頻比對,如果發現錯誤,XLA能自行通過反向傳播算法優化網絡。
經過大量與人類語言對齊的訓練后,XLA已經學會駕駛思考了。所以實際車端推理時,模型則無需解碼,不用每次都生成語言或視頻畫面,直接在潛空間完成極速計算,這樣就大大提升了XLA推理的質量與速度。
去年,自動駕駛圈關于VLA與世界模型的路線選擇吵得很兇,有世界模型派高管認為VLA是“取巧”的方案。但小米不這樣認為,“VLA與世界模型是可以相輔相成的。”陳龍告訴我們。
“潛空間思考的優勢,就是我不限制模型去想什么,也不限制你用什么方式思考,我們最終的目的是讓模型學會駕駛。”在潛空間推理層,陳龍團隊已經統一了VLA與世界模型。
3月17日,小米宣布XLA輔助駕駛認知大模型正式上車。但眼下,陳龍團隊還有實際量產的關要過。
去年國內更早切換到VLA或者世界模型架構的車企,進行OTA(遠程升級)后,用戶體驗的實際效果都發生了波動,也引發了一系列的人事震蕩。陳龍覺得,效果波動是因為是切換架構后,需要重新搜集數據進行迭代。
陳龍向《21汽車·一見Auto》劇透,目前推送的第一個版本,“調教會相對保守一些,會利用一些規則的限制進行安全性兜底”,并持續進行數據迭代,逐漸放開全模型的能力,“到時候用戶體驗會更加絲滑。”
以下是訪談實錄,內容經摘編:
《21汽車·一見Auto》:你在介紹XLA認知大模型的視頻里有一個場景:汽車能夠在丁字路口前提前減速,以防前面會有行人或者汽車的突然進入。為什么現在的小米輔助駕駛模型能夠提前減速?
陳龍:傳統端到端架構使用模仿學習,可能看前面是空曠的,就認為是沒有風險,就開始提速,忽視前面有一個路口。但人類不一樣,能意識到前面可能有車輛會路過,需要觀察并且讓行。
這次因為我們升級到了XLA認知大模型,所以它可以提前預判,使用了它的常識、推理的能力。它會意識到我現在雖然是在沒有車的路口,但前面因為導航顯示轉彎,需要預判,做更類似于人類的減速的操作。
《21汽車·一見Auto》:去年3月入職小米時,你一開始負責的工作是什么?
陳龍:我剛來的時候,小米其實已經轉換到了端到端時代,處于“端到端+VLM”的版本,我主要負責小米汽車具身基座大模型Xiaomi MiMo-Embodied的研發。
《21汽車·一見Auto》:XLA大模型能做到提前減速,是Xiaomi MiMo-Embodied的功勞嗎?
陳龍:一半原因是,另一半則因為我們這次創新性采用了“潛空間推理(Latent Cot)”。
《21汽車·一見Auto》:Xiaomi MiMo-Embodied幫助了XLA什么?
陳龍:Xiaomi MiMo-Embodied首先是一個大模型,具有很強的語言和視覺能力,知道道路上的情況。同時它也具備強大的知識,可能在還沒有經過自動駕駛數據訓練之前,它就已經理解了很多物理知識和各種交通法規。
然后我們加入了很多機器人、自動駕駛和通用場景的數據。因為基座模型它普遍是通過互聯網數據訓練的,還停留在2D,所以這個階段大大增強了它的空間感知和推理能力。
最后還使用了強化學習,進一步讓它在可驗證的結果上增強它的能力。
《21汽車·一見Auto》:現在行業內的機器人數據非常稀缺,你們采用了多少機器人的數據?
陳龍:由于這個是一個開源的模型,所以我們這個模型采用的大部分是開源數據。具體的數據比例在技術報告里面有寫,但的確機器人的數據比較少,每個機器人本體都不一樣,具體到某個特定本體上數據會更少。但是我們內部也有閉源的版本,會用到小米自己訓練的數據。
《21汽車·一見Auto》:你在宣傳視頻里講加入機器人數據提高了智駕側的“感知精度”,那加入輔助駕駛數據又對機器人側有什么幫助?
陳龍:對于機器人,輔助駕駛數據的價值,就是通過大量道路上的行駛學習出來很多物理運動的規律。比如車是一個剛性的物體、樹葉會動等等。我們的目的是讓機器人任務可以適應各種環境的條件,讓它學習到更本質的東西,也就是對空間的理解、推理,而不是把它over fit(過擬合)到特定的數據上面。
我們也有創新,我們通過思維鏈把這兩種任務融合了起來。因為思維鏈會把一個大任務拆解成小的任務,比如機器人要抓取一個東西,我們的思維鏈可能會輸出一些具體的步驟:我現在看到了前面的車模,它大致的位置是在哪里,哪個地方是可以抓的?我們首先做一個判斷,之后再運用語言模態思考,具體要移動到哪里,最后再執行。思維鏈是可以把兩種任務鏈接在一起的。
《21汽車·一見Auto》:所以Xiaomi MiMo-Embodied具身基座大模型同時擁有海量的多模態(圖文、視頻、代碼等)、輔助駕駛和機器人數據,這很像人類成年的過程。
陳龍:對,這個過程確實是類似于人類成長。人類小的時候要首先學習語言能力,包括認字跟對話的能力。之后慢慢成長的時候,我們也會跟各種物體進行交互,我們會經常摸、拿、抓、取一些東西。當你有了這個強大的語言、空間理解和推理能力,差不多18歲之后,再去學習駕駛的理論實踐,不僅學習得更快,也會學得更好。
《21汽車·一見Auto》:做Xiaomi MiMo Embodied的過程中,有沒有遇到什么困難?
陳龍:肯定有的,有挺多困難,我們一直從3月做到11月。首先訓練大模型有很多經驗和技巧,這個過程當中羅福莉還有她的團隊幫助了我們很多。他們不僅給我們提供了一個很強的基礎模型MiMo-VL系列,還提供了很多數據標注的思路。我們的訓練框架是共享的,AI Infra很大一部分也能復用。
《21汽車·一見Auto》:你們具體是怎樣一起工作的?
陳龍:我們是兩個不同的團隊,但我們互稱是“兄弟團隊”。因為他們更加偏向基礎模型的預訓練,而我們更加偏于一個具身智能垂域模型。所以我們會使用連續預訓練(continue pretrain)的技術。他們進行完預訓練之后,我們再進行一輪垂域的預訓練,進一步把更強的模型能力蒸餾到具體的自動駕駛模型上面,畢竟他們的模型尺寸來對我們來說太龐大了。
另外很大部分的時間也花在數據的收集和清理上,這是訓練大模型很重要的一部分。數據準備好之后,還做了大量實驗。
《21汽車·一見Auto》:實驗什么?
陳龍:首先是數據配比,就是因為你要把這兩種任務混合起來,具體這兩種數據到底加多少,都需要實驗做去驗證。還要分不同的階段去學習,如果你只是把它混合在一起做一個訓練,他可能這兩種任務都訓練不好。但是如果你先學一種能力,然后你再在這個基礎上再學一種能力,他可能兩種能力都掌握得好一些。
《21汽車·一見Auto》:不談現在你們已經成熟的比例和流程,這個階段走過什么彎路嗎?
陳龍:有的。一開始我們想直接混一起先看看效果怎么樣,結果發現不太work,兩種能力都下降了。中間也調過具體的比例,發現還是不是特別行,然后就開始思考這個怎么樣讓他逐步的去掌握這些能力。
后來發現要先加入通用的多模態和空間加強數據,再混輔助駕駛和機器人數據,最后混入思維鏈數據。等于讓它對整個世界和物理環境有一定感知,再學習具體的輔助駕駛和機器人任務。
《21汽車·一見Auto》:等于一開始是一個打基礎的階段,之后再讓它學習具體的任務?
陳龍:對。
《21汽車·一見Auto》:你還記得你們錯過幾次嗎?
陳龍:錯了很多次,都數不清了,因為之前也沒有人去探索過。
《21汽車·一見Auto》:你之前提過,端到端時代的scaling law(大模型性能隨著數據、參數、性能而提升的擴展定律)是很明顯的,但進入VLA時代后已放緩了,更需要同時具備三種模態的數據。三模態的數據是什么樣的?
陳龍:有很多種,因為你需要不同數據來訓練模型,保持它的通用性,所以當你構造數據的時候,會構造不同的任務。比如你需要構造很多問答的問題,例如問它“你前面有沒有車,旁邊有沒有人?現在限速是多少,你在哪個車道上面?”然后我們標注這段場景的時候就會有一個問題、一個回答。
這只構成了其中一種數據,還有其他的數據。比如“請你盡可能地描述現在你看到的畫面”,然后他會進行一些詳細的描述,比如這是什么天氣,道路上有多少輛車,有多少行人等等。
《21汽車·一見Auto》:你們現在是怎么去收集這種三模態數據的?駕駛數據有很多收集方法,提問和回答數據是怎么收集的?
陳龍:小部分是通過人工標注,大部分是通過羅福莉團隊的大模型來進行自動化標注。我們現在使用的就是MiMo-V2-Omni,還提供了一些感知的標簽來輔助。當然模型標注的數據最后還要經過一輪人工精篩,但這個速度就會快很多。你判斷對不對,總比你自己把這個寫出來要快很多。
《21汽車·一見Auto》:人工和機器標注的比例是多少?
陳龍:機器標注會更多,因為我們多模態大模型的能力很強。
《21汽車·一見Auto》:所以做完了Xiaomi MiMo-Embodied,之后開始探索潛空間推理。這個過程又遇到了什么困難?
陳龍:具體就是我們內部還有一個尺寸更小的、閉源的Xiaomi MiMo-Embodied版本,而且是使用內部數據進行訓練的。大概在去年年底,很多量產的同學幫助我們部署到車端實現XLA的功能以后,發現車上算力實在是有限。
雖然我們已經把模型做小了,但是如果我們使用語言推理的話,耗費的時間和算力都太多了。
當預研的項目進入到量產,你會有很多需要折中的地方,這是探索Latent Cot的源起。但是我們也保持了它解碼出來語言的能力,然后發現我們不會損失太多推理的效果。
《21汽車·一見Auto》:你是怎么想到這個新方案的?
陳龍:其實很多的優化首先發生在大語言模型里面。之前Meta有一位著名的華人科學家叫田淵棟,他很早就在做一些潛空間推理的探索。但具體到具身智能和輔助駕駛場景,是需要我們自己去落地的。
因為現在語言模型也想要加速,如果你打開“深度思考”模式,會發現的確效果比較好,但是需要等一段時間,讓它中間輸出很多語言才行。可輸出的這些東西就有很多冗余的地方,比如說有一些很口語化的詞語。
在輔助駕駛的情況下,我們可能只需要讓它說一些很關鍵的東西就可以了。所以潛空間推理它是一個更加類似于人類思考的方式。
《21汽車·一見Auto》:但是所謂的潛空間推理,是不是有很多種?你們怎么去選擇運用哪一種?
陳龍:最簡單的方式就是加幾個中間步驟,然后輸出action。最開始我們就這樣嘗試過,但首先它可能還不具備推理能力,他雖然中間多了很多步,但他不知道要用這幾步到底要干什么。所以最終你肯定還是需要人類指導的。
所以我其實一直在思考如何把世界模型和VLA融合起來,包括我自己開車的時候也經常留意我自己在想什么。因此才有了這一個想法:我們可以讓他做潛空間思考,但是可以把這個潛空間思考同時解碼出具體的人類語言思維鏈和未來幀,相當于把VLA和世界模型的能力融合起來。
《21汽車·一見Auto》:你能舉個例子嗎?
陳龍:比如超車。假如有幾幀我跟在一個慢車后面的圖像,我喂給XLA模型,它會自動進行編碼,并生成幾個潛空間token。在訓練階段,我們會要求它把這幾個token解碼成人類語言,這就是cot的一個過程。
《21汽車·一見Auto》:那你們怎么監督它呢?
陳龍:我們現在可以直接用MiMo-V2-omni強大的視覺語言能力來監督它解碼的人類語言對不對。我們內部也有一整套語言標注流程,會利用很多感知結果自動化標注,同時引入人工質檢員。
《21汽車·一見Auto》:所以你們可以通過模型監督模型。
陳龍:對,人類監督的效率太低。
這樣訓練好之后,模型在推理階段就不需要再解碼成人類語言了,因為他已經具備正確的潛空間思考邏輯。但如果需要,我們也可以進行解碼,保證模型的可解釋與可追溯性。
《21汽車·一見Auto》:所以這是一個“每時每刻”解碼,還是說只解碼“某一個”路段和場景的問題。如果車主之后提出需求,你們是可以解碼成人類語言告訴車主的?
陳龍:是的,這是一個人機交互的問題。其實我們的目標也是為了讓輔助駕駛更好用,更安全、更有效率、人類接管更少。
當然,可解釋性是人機交互很重要的環節。如果人類能更了解具體車是怎么想、怎么思考,以及下一步會做什么,他對輔助駕駛會更加“安心”。我們在后續版本中會一起和車主去探索,到底需不需要、什么時候需要把潛空間解碼出來。
《21汽車·一見Auto》:那你們又是怎么融合世界模型的?
陳龍:世界模型這個概念比較宏大,我們具體運用到世界模型的,有兩個地方:
首先,我們輸出Action之后,會結合世界模型和強化學習進行后訓練,進一步對齊人類偏好,提升安全和效率。我們會使用“世界仿真模型(World Simulator Model)”,在仿真的駕駛環境下做一些微調。
第二,我們剛才講的“潛空間推理”,除了可以解碼成人類語言,也可以去解碼成未來幾幀的圖像。這是利用了世界動作模型(World Action Model,WAM)“想象未來”的能力。這是一種視覺推理能力,如果你能想象出未來是什么樣的,其實你也知道應該怎么開了。
《21汽車·一見Auto》:你們又怎么監督模型如何想象?
陳龍:我們在訓練時,會有意識地引導模型去預測未來駕駛的狀態,而不應該具體地讓它預測出未來的圖像是什么。還是以超車為例,我們應該引導模型想象出超車的過程,而不是想象出樹葉的抖動、光照的變化,這是沒有用的高頻信息。
而且我們有真實超車視頻的后半段。如果解碼出來的未來幀不一樣,模型會自動算出不同,再通過反向傳播算法,不斷優化自身網絡。
《21汽車·一見Auto》:所以你們既可以將模型的潛空間推理過程解碼成人類語言,也可以讓它解碼成未來圖像。那為什么有了世界模型的想象力,我們還需要VLA?
陳龍:因為想象下一幀的能力,是一個比較底層的能力,而VLA的語言推理能力,是一個更高級的能力,我們需要把這兩種能力結合起來。
我們不應該限制模型怎樣去思考,它既可以用端到端的、偏直覺的方式,也可以用VLA的人類語言的方式,還可以運用世界動作模型的想象的方式。一切方式都是為了讓它真正認知駕駛,能用更本質的機器語言進行推理。
《21汽車·一見Auto》:所以VLA是可以和世界模型相輔相成的。
陳龍:對,我們馬上會有一篇新的論文出來,內容就是關于統一VLA與世界模型的。
《21汽車·一見Auto》:端到端時代,大家衡量輔助駕駛水平的方法通常基于三個維度:數據、算法和算力。但當大家集體切換到新的架構后,新的衡量標準是什么?
陳龍:目前行業內還沒有公認的標準,但我認為有自研的基座模型非常重要。如果你沒有自研的基座模型,而是選擇互聯網上一些開源模型,那你預訓練的數據是不太可控的。我們從頭訓練基座模型,在預訓練時就會篩選更干凈的數據,對數據的掌控力更強。
《21汽車·一見Auto》:你們的Xiaomi MiMo-Embodied是基于MiMo-VL,但現在小米已經發布了新的全模態Agent基座Xiaomi MiMo-V2-Omni。你們之后會使用嗎?
陳龍:我們現在已經在用了。
《21汽車·一見Auto》:怎么用?用起來有什么新的感受?
陳龍:首先它的尺寸比例之前的7b的開源版本更大了,能夠感覺到模型的能力會大大增強,對幻覺的抑制很好。
它還優化了Agent能力,所以對我們指令的理解和遵循程度會更加深入。我們現在已經使用它進行數據標注和訓練監督了。
《21汽車·一見Auto》:為什么小米在2025年的財報會議上說,XLA到五月份才會推送全部的能力?
陳龍:升級新的架構之后,是需要數據迭代的時間的,這也是為什么去年各家的輔助駕駛水平會有波動。所以我們推送的第一個版本會更保守一些,用一些規則的限制來做安全兜底,再逐漸放開全模型能力,體感上會更加絲滑。
《21汽車·一見Auto》:有友商發現規則拆除得越多,模型的能力會被釋放得更徹底,上限更高。未來你們的XLA會徹底拆掉規則嗎?
陳龍:我們始終把安全放在第一位。現階段,無論模型能力發展到什么程度,規則仍然是輔助駕駛系統里不可缺少的一部分。因為在真實道路環境中,安全始終需要明確的邊界和兜底機制。
《21汽車·一見Auto》:你們的XLA認知大模型,能一路從L2打通到L4嗎?
陳龍:討論L4時一定要加上時間線,因為這部分也取決于你什么時候想推出L4。也許100年后才到L4,但也許兩年后就需要L4。
L4肯定是需要認知能力的,但具體怎么達到,我們也在討論當中。目前已有的L4是一種形態,也有一些其他路線宣稱馬上就達到L4,比如特斯拉。這也是自動駕駛有意思的地方:大家都說馬上要到了,但到底有多遠?
兩種路線會有各自的優缺點,可能也是互補的。我們最終可能會把這些路線結合起來,然后再加上XLA的能力。
《21汽車·一見Auto》:你們的具身基座模型同時也支持機器人,現在市場上的機器人賽道也很火熱,很多車企都在做。機器人對車企是一個非要做的業務嗎?
陳龍:不是非要做的業務,但機器人的確能復用輔助駕駛很多東西。如果你有一套成熟的復制駕駛方案,很多能力是可以遷移過去的。
但機器人對小米很重要,對我也很重要。
《21汽車·一見Auto》:你們和機器人團隊目前在合作什么?
陳龍:我們有很頻繁的交流。
現在在做的主要還是搭一個統一的架構,先落地的肯定是輔助駕駛,因為它是比較確定的一個事情。但機器人現在的技術方向沒有特別收斂,即便本體的形態也沒還沒有收斂,所以我們的交流主要集中在對一些技術預研上。
《21汽車·一見Auto》:未來你的輔助駕駛工作是什么?
陳龍:輔助駕駛還是一個沒有被完全解決的問題。哪怕大家都進化到了認知驅動的時代,但也許會有更新的模型架構出來,就像今年比較火的世界模型一樣,對此我還是很期待的。
《21汽車·一見Auto》:小米現在有硬件入口,也有大模型、自動駕駛和機器人。未來小米可能會打造一個“人車家全生態大模型”嗎?想打造這樣一個大模型,還需要什么能力?
陳龍:我覺得終極目標肯定是這樣。在我的想象里,它可能是一個超大的個人助理,它可能會是分布式地存在于你的各種設備當中。因為它的算力需求很大,所以分布式也可以分擔一些算力,你的汽車、平板、電腦、音響甚至掃地機器人都可以分擔,當然也有一部分會在云端。
未來會出現一個類似現在比較火的“龍蝦(Openclaw)”框架。你可以對你的超級個人助理下達各種命令,它會調度它的所有Agent來實現不同的行為。目前Agent的能力還停留在數字層面,但將來你的輔助駕駛、機器人以及所有設備可能都是Agent。這也是我們努力的方向。