電子發(fā)燒友網(wǎng)報道 (文/梁浩斌)最近,智駕領(lǐng)域又出現(xiàn)多個“新名詞”,比如蔚來推出的NWM、多家車企和智駕供應(yīng)商都在宣傳的VLA。實(shí)際上,從各家的路線來看,隨著更大算力的芯片,比如小鵬、蔚來自研的智駕芯片,以及英偉達(dá)Thor的上車,越來越多的智駕方案選擇VLA的路徑。
那么本文就梳理一下當(dāng)前智駕領(lǐng)域集中主流的大模型技術(shù)路線,以及各家廠商實(shí)現(xiàn)方式的區(qū)別和發(fā)展。
VLA和VLM
VLA即Vision-Language-Action,視覺-語言-動作模型。簡單來說,VLA是一種結(jié)合視覺感知、語言理解和動作決策的多模態(tài)AI模型。VLA通過統(tǒng)一空間智能、語言智能和行為智能,使自動駕駛系統(tǒng)能夠更全面地理解復(fù)雜環(huán)境并執(zhí)行任務(wù)。
VLA的核心能力主要是三種,包括BEV、激光雷達(dá)等視覺輸入;理解自然語言指令或場景描述等語言處理能力;以及對車輛控制動作輸出的能力。最終通過這三種能力,實(shí)現(xiàn)從感知到?jīng)Q策的端到端閉環(huán)。
VLM即Vision-Language Model,視覺-語言模型,從名字上看,VLA就是在VLM的基礎(chǔ)上增加了動作的能力,事實(shí)也確實(shí)如此。
VLA在VLM核心的多模態(tài)推理和理解能力上,增加了動作生成的能力,將VLM的輸出,比如將“在這個路口要轉(zhuǎn)左”的指令輸出直接轉(zhuǎn)化為車輛的控制信號,包括油門、方向盤角度、剎車力度等。
一般來說,VLA通常也是基于預(yù)訓(xùn)練的VLM基座模型,利用VLM具備的視覺和語言能力,引入動作預(yù)測模塊進(jìn)行擴(kuò)展,使其適應(yīng)各種任務(wù),包括機(jī)器人,自動駕駛等。
具體到自動駕駛的應(yīng)用中,VLA可以直接調(diào)用VLM生成的語義理解結(jié)果,比如識別視頻畫面中的交通標(biāo)志、場景描述等,結(jié)合實(shí)時感知數(shù)據(jù)來生成車輛的控制指令。同時,VLA的執(zhí)行結(jié)果,也可以反向優(yōu)化VLM的場景理解能力,優(yōu)化決策選擇。
簡單總結(jié)下來,VLM是傾向于認(rèn)知的一個模型,它通過自然語言來描述出當(dāng)前車輛前方的場景,以及“看到”哪些內(nèi)容,并能夠輸出一些車輛控制指令的文本;VLA是側(cè)重于動作控制,在獲得場景的自然語言信息后,解決車輛應(yīng)該如何繼續(xù)行駛,比如作出避讓、變道等動作,并直接輸出油門、方向盤角度、剎車力度等具體的控制指令。
小鵬、理想、元戎落注VLA,但實(shí)現(xiàn)方式略有不同
目前小鵬、理想、元戎啟行等車企和智駕公司,都展示了其VLA的技術(shù)布局,并表示即將量產(chǎn)。
元戎啟行CEO周光在最近的2025年火山引擎Force原動力大會就宣布,將攜手火山引擎,基于豆包大模型,共同研發(fā)VLA等前瞻技術(shù),元戎騎行VLA模型將在2025年第三季度推向消費(fèi)者市場。
理想汽車此前則透露VLA模型將在今年三季度搭載于理想L9/L8改款車型。
小鵬汽車在最近小鵬G7發(fā)布會上表示,將行業(yè)首發(fā)本地端VLA+VLM大模型。小鵬在車端實(shí)現(xiàn)VLA的方式大致是,采用超大參數(shù)云端大模型,訓(xùn)練出世界模型基座,再通過蒸餾的方式產(chǎn)出適配車端算力的小模型,最大限度地保留云端模型基座的核心能力。
今年4月,小鵬汽車對外宣布正在研發(fā)參數(shù)規(guī)模達(dá)到720億的云端大模型,即“小鵬世界基座模型”。該基座模型是以大語言模型為骨干網(wǎng)絡(luò),使用海量優(yōu)質(zhì)駕駛數(shù)據(jù)訓(xùn)練的VLA大模型(視覺-語言-行為大模型),具備視覺理解能力、鏈?zhǔn)酵评砟芰Γ–oT)和動作生成能力。目前,小鵬汽車已經(jīng)在后裝算力的車端上用小尺寸的基座模型實(shí)現(xiàn)了控車。在沒有任何規(guī)則代碼托底的情況下,新的“AI大腦”展現(xiàn)出令人驚喜的基礎(chǔ)駕車技能,能夠絲滑地加減速、變道繞行、轉(zhuǎn)彎掉頭、等待紅綠燈等等。
在上周的計算機(jī)視覺頂會CVPR 2025上,小鵬汽車也分享了其基礎(chǔ)模型的進(jìn)展。小鵬世界基座模型負(fù)責(zé)人劉先明博士表示,小鵬汽車已經(jīng)在云上訓(xùn)練了10億、30億、70億、720億等多個參數(shù)的模型,并且持續(xù)向模型“投喂”更大規(guī)模的訓(xùn)練數(shù)據(jù)。目前,小鵬世界基座模型累計“吃下”2000多萬條視頻片段(每條時長30秒)。
在這一過程中,研發(fā)團(tuán)隊清晰地看到了規(guī)模法則(Scaling Law)的顯現(xiàn)。也就是說,模型的參數(shù)量越大、模型學(xué)習(xí)的數(shù)據(jù)越多,模型的性能越強(qiáng)。這是AI大模型浪潮以來,行業(yè)內(nèi)首次明確驗(yàn)證規(guī)模法則在自動駕駛VLA模型上持續(xù)生效。
理想汽車的VLA路線則略有不同,是先對基座模型進(jìn)行蒸餾,產(chǎn)出車端的蒸餾模型,然后再進(jìn)行強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)“司機(jī)Agent”。
蔚來世界模型NWM
蔚來近期推送了其最新的NWM首個版本,據(jù)蔚來的介紹,蔚來世界模型NWM是一個多元自回歸生成模型,具備空間認(rèn)知和時間認(rèn)知能力,能進(jìn)行長時序決策與推演。蔚來世界模型 NWM同樣是多模態(tài)輸入輸出,輸入的多模態(tài)數(shù)據(jù)包含圖像、語言,輸出的多模態(tài)數(shù)據(jù)則包含圖像和行動。
所以NWM其實(shí)是包含了VLA的所有特征,但不同之處在于,NWM對于空間理解的能力,以及長時序的建模能力會更強(qiáng)。
蔚來用停車場自主尋路的功能來展示NWM的認(rèn)知、理解與推理能力。例如,當(dāng)車輛在行駛過程中看到“15-20號樓→”的標(biāo)牌時,它就能理解18號樓應(yīng)當(dāng)向右轉(zhuǎn);在上一個路口看到“出口直行”字樣,當(dāng)前路口卻沒有標(biāo)牌,車輛也能推理出出口應(yīng)該繼續(xù)直行。
寫在最后
元戎啟行認(rèn)為,VLA是通往完全自動駕駛的必經(jīng)途徑。當(dāng)前VLA確實(shí)已經(jīng)成為智駕的主流發(fā)展方向,而VLA對于車端的算力需求,還將會帶動智駕芯片算力的需求爆發(fā)。
-
自動駕駛
+關(guān)注
關(guān)注
788文章
14240瀏覽量
169863
發(fā)布評論請先 登錄

劉強(qiáng)東,進(jìn)軍汽車領(lǐng)域# 京東# 自動駕駛# 自動駕駛出租車# 京東自動駕駛快遞車
NVIDIA Halos自動駕駛汽車安全系統(tǒng)發(fā)布
理想汽車推出全新自動駕駛架構(gòu)
英偉達(dá)高管:完全自動駕駛汽車尚需時日
英偉達(dá):全自動駕駛汽車至少需十年
特斯拉發(fā)布“完全自動駕駛”軟件最新版本FSDV13.2
自動駕駛汽車安全嗎?

智能駕駛與自動駕駛的關(guān)系

自動駕駛HiL測試方案案例分析--ADS HiL測試系統(tǒng)#ADAS #自動駕駛 #VTHiL

評論