【2026年4月1日】近日,小鵬汽車正式發(fā)布世界模型X-World技術(shù)報(bào)告,從數(shù)據(jù)、模型、訓(xùn)練、驗(yàn)證及應(yīng)用等多層面詳解X-World的構(gòu)建與使用。X-World是一個基于視頻擴(kuò)散生成技術(shù)(Video Diffusion)構(gòu)建的、服務(wù)于自動駕駛的可控多視角生成式世界模型,具備多視角下即時響應(yīng)與持續(xù)生成的能力。技術(shù)報(bào)告還展示了X-World在小鵬汽車自動駕駛中的實(shí)際應(yīng)用價值,該模型已投入到閉環(huán)仿真測試、在線強(qiáng)化學(xué)習(xí)、數(shù)據(jù)生成等實(shí)際生產(chǎn)環(huán)節(jié)。在近期向用戶陸續(xù)推送的第二代VLA的研發(fā)與驗(yàn)證過程中,X-World 也已被大量用于環(huán)境仿真與模型評估。

自動駕駛系統(tǒng)的評估主要依賴真實(shí)道路測試與仿真測試。其中,仿真測試具備成本更低、效率更高、場景覆蓋更廣、可重復(fù)驗(yàn)證等優(yōu)勢。傳統(tǒng)仿真評估大量采用基于 3D 高斯濺射(3DGS)的技術(shù)路線,這類方法能夠在一定程度上復(fù)現(xiàn)真實(shí)場景,但當(dāng)自動駕駛模型產(chǎn)生大幅變道、繞行等明顯偏離原始采集軌跡的行為時,這種方法往往難以對超出既有重建范圍的后續(xù)場景進(jìn)行有效生成與評估。因此,行業(yè)內(nèi)仍高度依賴實(shí)車道路測試,而這種方式存在著成本高、場景覆蓋有限、難以復(fù)現(xiàn)指定情況等問題。
為了解決這些瓶頸,小鵬生成世界模型團(tuán)隊(duì)試圖構(gòu)建一個“現(xiàn)實(shí)世界模擬器”,讓它能夠在給定動作條件下生成符合物理約束的未來視頻,同時在持續(xù)生成過程中保持良好的可控性與穩(wěn)定性。在這一背景下,X-World應(yīng)運(yùn)而生,通過輸入多攝像頭的歷史視頻流和待執(zhí)行的駕駛動作(或動作序列),便可生成對應(yīng)的未來多攝像頭視頻流。X-World可以被視為一個會“思考”駕駛場景的物理AI系統(tǒng),它能夠根據(jù)當(dāng)前的路況和駕駛操作,想象出數(shù)秒后路況的變化。
架構(gòu)層面,X-World 基于當(dāng)前領(lǐng)先的視頻生成模型 WAN 2.2 構(gòu)建,沿用其潛空間視頻生成范式,將視頻VAE與基于DiT的潛空間去噪器相結(jié)合。底層采用高壓縮比 3D 因果自編碼器(VAE),大幅降低計(jì)算與內(nèi)存開銷,支持長時序視頻建模,從而更好地捕捉豐富的時空依賴關(guān)系,同時降低延遲、加快推理速度。模型骨干為定制化的DiT骨干網(wǎng)絡(luò),通過視角-時間自注意力機(jī)制,實(shí)現(xiàn)時間維度和視角維度的聯(lián)合建模,從而確保7路攝像頭視角間的一致性。X-World 還提供了一套全面的條件控制接口,包括自車動作、動態(tài)交通參與者、靜態(tài)道路元素(如車道線、道路邊界)、攝像頭內(nèi)外參,可對駕駛場景的生成過程進(jìn)行細(xì)粒度調(diào)控。這些設(shè)計(jì)共同實(shí)現(xiàn)了多輸入條件下的可控多視角生成。
在本篇技術(shù)報(bào)告中,小鵬團(tuán)隊(duì)圍繞X-World實(shí)際落地過程中遇到的技術(shù)難點(diǎn)做了分享,核心在于如何實(shí)現(xiàn)跨視角3D一致性、多條件受控生成準(zhǔn)確、長時序畫面生成。除了模型架構(gòu)上的新穎嘗試,在訓(xùn)練層面,團(tuán)隊(duì)采用了兩個階段的訓(xùn)練方式:第一階段,將一個大型預(yù)訓(xùn)練視頻生成模型,改造為完全可控的多攝像頭世界模型。第二階段,通過“分塊因果架構(gòu)”和“少步自強(qiáng)制學(xué)習(xí)”,結(jié)合滾動鍵值緩存,將模型轉(zhuǎn)換為流式自回歸模擬器。
與傳統(tǒng)的雙向視頻擴(kuò)散模型不同,X-World 采用流式自回歸的方式運(yùn)行,可以逐步生成未來視頻畫面以進(jìn)行實(shí)時交互,這一設(shè)計(jì)使得模型能夠天然適用于閉環(huán)場景,既可為端到端策略的可擴(kuò)展評估提供支撐,也可應(yīng)用于在線強(qiáng)化學(xué)習(xí)訓(xùn)練。
實(shí)驗(yàn)結(jié)果顯示,X-World實(shí)現(xiàn)了高質(zhì)量的多視角視頻生成??傮w而言,它具備以下三大核心優(yōu)勢:實(shí)現(xiàn)了較強(qiáng)的跨視角一致性,確保各攝像頭間(7路環(huán)視攝像頭)的幾何信息與目標(biāo)特征一致;嚴(yán)格的動作跟隨性,生成的未來畫面與指令要求的自車行為高度匹配;具備長視頻推演能力,可在較長的時間跨度內(nèi)實(shí)現(xiàn)穩(wěn)定的預(yù)測。上述特性讓生成式世界模型更接近實(shí)用的 “現(xiàn)實(shí)世界仿真器” 形態(tài),能夠?yàn)閂LA自動駕駛系統(tǒng)提供可復(fù)現(xiàn)的基準(zhǔn)測試、可擴(kuò)展的回歸測試與交互式學(xué)習(xí)支撐。
在具體的應(yīng)用場景上,X-World不僅僅是一個視頻生成模型,更是一個高保真、交互式、可控的底層基礎(chǔ)平臺,服務(wù)于小鵬汽車第二代VLA的開發(fā)與驗(yàn)證。目前,X-World已經(jīng)在小鵬汽車自動駕駛的閉環(huán)仿真測試、在線強(qiáng)化學(xué)習(xí)、數(shù)據(jù)生成等環(huán)節(jié)起到支撐作用。

依托X-World,小鵬構(gòu)建面向第二代VLA的閉環(huán)評估引擎。區(qū)別于傳統(tǒng)的基于3D重建的技術(shù)路線,X-World可進(jìn)行交互式推演,并支持對安全關(guān)鍵指標(biāo)進(jìn)行評估。例如,在 X-World 中運(yùn)行第二代VLA,可在高度貼近真實(shí)世界視覺分布的虛擬環(huán)境中,評估碰撞率、目標(biāo)達(dá)成進(jìn)度、乘坐舒適性等性能指標(biāo)。目前,小鵬自動駕駛仿真場景從一年前的3萬增加到50多萬個,每日仿真測試?yán)锍痰刃в?000萬公里實(shí)車測試。
X-World可充當(dāng)在線強(qiáng)化學(xué)習(xí)的仿真平臺??衫肵-World的可控性,針對自動駕駛中的難點(diǎn)場景進(jìn)行專項(xiàng)優(yōu)化,例如重點(diǎn)優(yōu)化模型在路口遭遇行人“鬼探頭”、 擁堵路段變道猶豫等場景的表現(xiàn)。
X-World可實(shí)現(xiàn)大規(guī)模數(shù)據(jù)生成與增強(qiáng)。X-World作為生成式數(shù)據(jù)工廠,既可以生成缺失的長尾場景數(shù)據(jù),提升第二代VLA應(yīng)對長尾場景(Corner Case)的能力,也能生成海外數(shù)據(jù)用于模型訓(xùn)練,加速小鵬自動駕駛?cè)蚧涞剡M(jìn)程。
除了正式發(fā)布世界模型技術(shù)報(bào)告,本月,小鵬第二代VLA已正式向用戶推送,帶來全面提升的用戶使用體驗(yàn)。從前沿技術(shù)探索到工程化落地,小鵬汽車持續(xù)以先進(jìn)科技與強(qiáng)大技術(shù)實(shí)力,為用戶帶來全場景、更安心和高效的智駕體驗(yàn),讓更安全、更智能的自動駕駛普及到每一條道路。
x
-
武漢「蘿卜快跑」事件考:Robotaxi還需要一點(diǎn)「犯錯冗余」 2026-04-03 15:33
-
8萬塊的小車也要帶著激光雷達(dá)跑世界模型了 2026-04-03 14:55
-
輕舟智航,異軍突起 2026-04-01 12:03
-
輕舟智航量產(chǎn)版圖再擴(kuò)容,21款新車型穩(wěn)步密集交付中 2026-04-07 10:16 -
大眾汽車集團(tuán)全新車型與前瞻技術(shù)強(qiáng)勢發(fā)力北京車展季 2026-04-07 11:06 -
奕境汽車官宣核心管理層:汪俊君任董事長,曾清林出任品牌總經(jīng)理 2026-04-07 16:15


京公網(wǎng)安備 11010502038466號
關(guān)注官方微信