「內(nèi)卷」
當(dāng)我在與汽車行業(yè)的朋友聊今年的行業(yè)態(tài)勢時,聽到最多的詞。
銷量見頂,增速下滑,遲遲找不到新的增長點。從東風(fēng)雪鐵龍官宣降價開始,眾多車企只能無奈跟牌,讓渡利潤,保證自己在牌桌上停留的時間更長。
2023 年 7 月,梅雨季節(jié),整個上海被籠罩在濕潤高壓的的氣流里,悶熱卻又無可奈何,就像今年的汽車行業(yè),在等待一個出口。
自動駕駛行業(yè)也未能幸免,2023 年,行業(yè)急轉(zhuǎn)直下,明星獨角獸小馬智行宣布裁員,美國頭部自動駕駛公司 Argo AI 宣布解散,擎天智卡清盤。
從炙手可熱到視作敝履,竟然不到一年時間。
原因其實并不復(fù)雜,L4 商業(yè)規(guī)模化推廣遲遲未能到來,而從 L4 到 L2 的轉(zhuǎn)型必然面臨阻礙,也必然會有人被淘汰。
那么中國自動駕駛行業(yè)如何了?
這次嘉定舉辦的中國汽車行業(yè)論壇上,于騫給出了輕舟智航的答案:致力將中國方案打造成為全球標(biāo)準(zhǔn),我們相信中國智造和中國標(biāo)準(zhǔn)的自動駕駛汽車將在全球范圍內(nèi)擁有一席之地。
01
自動駕駛公司轉(zhuǎn)型的陣痛期已過
2021 年底,L4 自動駕駛公司降維 L2 的浪潮開始顯現(xiàn),轉(zhuǎn)型必然面對質(zhì)疑。學(xué)術(shù)能力似乎與工程能力成了首鼠兩端,關(guān)于 Demo 如何推廣到量產(chǎn),沒有人可以很快回答。
缺乏經(jīng)驗的自動駕駛公司們進入一個陌生的工程領(lǐng)域,競賽榜單刷點的榮耀并沒有讓工程化變得更加輕松。
舒適區(qū)是一個小范圍運轉(zhuǎn)的自動駕駛算法,可以單獨測繪高精地圖,可以在地圖上埋點,可以對某條路做好定向優(yōu)化,Demo 出來永遠(yuǎn)是驚艷的無接管。
面對量產(chǎn)車,無法被定義好的可用范圍,你永遠(yuǎn)不能假定用戶到底要把這輛車開去哪里,也不知道未來到底會發(fā)生什么。
轉(zhuǎn)型的自動駕駛公司被架在火上烤,主要有兩個核心:
一,OEM 的降本需求。
以前 L4 級別的硬件不能被使用,激光雷達無法裝在車頂,無法提供 360 度的感知,一般只有 120 度左右的范圍。
相當(dāng)于本來正常開車的人,眼前被蒙了一層白紗,而且眼睛不能左右看。
算力無法無限制使用,需要時刻滿足時延要求,感知的結(jié)果必須要實時給出,還需要為其他功能預(yù)留算力。
這就像工程隊原來有 100 人,現(xiàn)在可能只有 50 人了,還要分一半給別的工程。
當(dāng)產(chǎn)業(yè)解決了硬件的布置問題,最核心的是硬件的成本無法下降,至少目前行業(yè)的整體成本能力還沒有達到自動駕駛公司和主機廠的理想型。
二,對功能的水準(zhǔn)的要求。
上面我們說了成本,從 L4 動輒百萬的自動駕駛系統(tǒng),現(xiàn)在已量產(chǎn)的乘用車方案里在成本上已經(jīng)有了長足的進步,目前一套滿足城市 NOA 的系統(tǒng)(軟件 + 硬件)一顆禾賽/圖達通;7 顆攝像頭;兩塊 Orin X;四顆毫米波雷達,綜合成本大約可以做到 3 萬以內(nèi)。
但這作為整車的 BOM 成本依然不便宜,而現(xiàn)在隨著車企對于功能水準(zhǔn)的要求變大,高速 NOA、城市 NOA、自動泊車,可用范圍要比競品車型要大。
也就是說,硬件推倒重來,算法可能需要重寫。
不同的運行范圍和傳感器配置,數(shù)據(jù)需要重新調(diào)整,與原有工控機完全不一樣量產(chǎn)芯片適配,對應(yīng)的神經(jīng)網(wǎng)絡(luò)算子也可能有重寫的必要。
L4 公司從室內(nèi)游泳池里學(xué)會的高超游泳技巧,面對開放世界的大江大河,很多經(jīng)驗失效了。
一切幾乎重新開始。
例如一個看似簡單的 AEB 功能,為了保證功能安全,為了保證誤觸發(fā)次數(shù)在安全范圍內(nèi)。那么需要海量的數(shù)據(jù)進行訓(xùn)練,保證不因為異形車、路面低矮障礙物、鬼影等等進行誤觸發(fā)。
這些在之前的 L4 工程里,可能并不重要,因為 L4 的策略標(biāo)定只要保證絕對的「安全」優(yōu)先級第一。
這些完成之后,還有一個靈魂拷問,這個誤觸發(fā)率和正向觸發(fā)表現(xiàn)為什么比不上 Mobileye?
而 Mobileye 成立于 1999 年,2008 年就提供了 Eye Q1 芯片,目前出貨量已經(jīng)超過一億片。
也就是說,Mobileye 至少是 15 年的視覺 AEB 積累和超過一億量產(chǎn)車集成的經(jīng)驗。自動駕駛公司們,需要用自己的算法和工程能力與這些經(jīng)驗進行賽跑。
一個嗷嗷待哺的孩子,對手是經(jīng)驗豐富的成年巨龍,難度可想而知。
幾乎從零開發(fā)的 L2 功能的自動駕駛公司們,面對 OEM 提出的對標(biāo) Mobileye 的需求時,都發(fā)現(xiàn)算法不是全部,開始手足無措。
因此在過去的兩年,質(zhì)疑聲四起,算法能力面對工程能力是否不重要。
好在依然有著務(wù)實的自動駕駛公司,低下了高昂的算法工程師的頭顱,認(rèn)真理解 OEM 的交付需求,并一點點實現(xiàn),并且用工程化的能力成功打動了主機廠,拿到量產(chǎn)訂單,安全度過了陣痛期。
Momenta 成功地在智己上量產(chǎn)高速 NOA 功能,也開始開發(fā)城市 NOA 功能;
地平線用開放的姿態(tài)與車企合作,在 L2+ 智能駕駛芯片領(lǐng)域與 Nvidia 平分秋色,獲得 49.05% 的市場占有率;
大疆在五菱宏光 KIWI 上成功證明自己智能駕駛絕對實力;
輕舟智航也獲得幾家車企定點,尤其是高速NOA功能受到好評。不久我們將會看到輕舟的方案跑滿大街小巷。
質(zhì)疑聲開始逐漸變小,車企在逐漸接受本土供應(yīng)商們,這不是一件容易的事。
那么這些公司做對了什么?
自動駕駛系統(tǒng)是一個軟硬結(jié)合的產(chǎn)品,即要有對自動駕駛技術(shù)趨勢的前瞻判斷,又要求供應(yīng)商具有極強的工程能力,對自動駕駛科技公司的要求更是如此,地平線是一家芯片公司,但余凱博士要求團隊要有極強的算法能力,從理想 AD Pro 的能力來看,顯然地平線做到了。
輕舟智航這樣的軟件算法公司,同時要具備硬件定義的能力。此前輕舟設(shè)計的 Driven-by-QCraft multi-sensor fusion suite(Gen 4)第 4 代多傳感器套件方案,在最新的 IF 2023 年度獲獎名單中,從來自 56 個國家的參賽作品 11000 件殺出重圍,成為唯一一件自動駕駛公司打造的獲獎作品。
輕舟智航,正式宣布戰(zhàn)略轉(zhuǎn)型甚至是在 2022 年5月,一年多時間,如何以「輕快 、高效」的輕舟速度拿到量產(chǎn)定點的?
02
輕舟智航做對了什么
L4 的技術(shù)積累讓輕舟快速轉(zhuǎn)型
從 L4 的感知切換到 L2 級別感知,為什么難度這么大?
感知硬件不一致,整體傳感器輸入格式和內(nèi)容與L4差異太大了。如果L4感知算法沒有足夠好的魯棒性,或者說為了Demo 做了過多規(guī)則化妥協(xié),諸如某個路口檢測到某個紅綠燈應(yīng)該如何反應(yīng);某種檢測結(jié)果如果置信度,但是在某個路口可以提高置信度。
這也就是我們常說的 Overfitting。
顯然這種算法不具備泛化能力,魯棒性很差,很難推廣應(yīng)用。
而輕舟自成立到現(xiàn)在積累的感知和多傳感器融合能力,經(jīng)受住了泛化性和魯棒性考驗。
其實自動駕駛的算法,從感知到規(guī)控存在明顯分層,一方面學(xué)術(shù)界的論文層出不窮;另一方面工程界為基礎(chǔ)的工程開發(fā)絞盡腦汁。從 L4 邁向 L2+ 的量產(chǎn)并不容易,它需要開發(fā)團隊具有對未來算法演進的判斷,這就是核心難點。
因為行業(yè)把注意力主要集中在特斯拉、蔚小理這樣的自研主機廠身上,忽略了輕舟其實是國內(nèi)最早開始規(guī)劃并量產(chǎn) BEV 大模型網(wǎng)絡(luò)的科技公司,同時,輕舟智航在發(fā)展過程中積累出的對感知系統(tǒng)評價方式的創(chuàng)新,也為感知和規(guī)劃控制的統(tǒng)一優(yōu)化提供了更多機會,這也與端到端的自動駕駛趨勢非常吻合。
根據(jù)最近機器學(xué)習(xí)頂會輕舟智航發(fā)表的文章,他們評價感知系統(tǒng)并不是通過單一的感知結(jié)果的真值對比進行評測,而是將規(guī)劃控制的結(jié)果作為重要的評價指標(biāo)。
也就是說,感知的誤差如果沒有讓規(guī)劃控制產(chǎn)生失敗的結(jié)果,那么這種感知誤差在某種程度上是可以被接受的。并不是直接去評價看得準(zhǔn)不準(zhǔn),而是去評定感知結(jié)果出來之后,算法做的對不對。
這種直接面向功能表現(xiàn)的評價指標(biāo),讓輕舟智航在面對主機廠苛刻的功能要求時,反而有了更多底氣。算法開發(fā)時的目標(biāo)與需求已經(jīng)基本對齊,能夠防止感知和規(guī)劃各自進入局部最優(yōu),但是組合起來反而效果不好。
BEV 多任務(wù)模型感知能力
相較于 Mobileye EyeQ5 的方案,BEV 能夠?qū)χ車h(huán)境做更加精準(zhǔn)的感知。
從俯視圖的角度,看到更多周圍的交通參與者,多個攝像頭共享的信息能夠?qū)Π胝趽醯奈矬w做到精準(zhǔn)感知,也能通過時序來推導(dǎo)物體的運動狀態(tài)。這與傳統(tǒng)的 2D 檢測后轉(zhuǎn) 3D 方案有著本質(zhì)的區(qū)別,感知能力幾乎是降維打擊。
上帝俯視視角和人類視角有著本質(zhì)的區(qū)別。
輕舟智航BEV 的多任務(wù)感知結(jié)果非常優(yōu)秀,車道線識別、周圍車流的精準(zhǔn)語義識別、深度識別,都在同一個 BEV 任務(wù)中輸出,共享同一個基礎(chǔ)骨干網(wǎng)絡(luò)的 Feature 有效節(jié)省了算力需求。
也就是說,原來多個神經(jīng)網(wǎng)絡(luò)才能完成的任務(wù),現(xiàn)在主要由一個神經(jīng)網(wǎng)絡(luò)實現(xiàn)主要部分的計算,最終的任務(wù)都是在這個主要的神經(jīng)網(wǎng)絡(luò)上的結(jié)果進行推理。
在 BEV 整體架構(gòu)的基礎(chǔ)上,輕舟也做了工程化創(chuàng)新,通過前視 + 側(cè)視 + 環(huán)視?眼共 11 個相機輸?,來生成統(tǒng)一的 BEV 特征圖,同時又將 BEV 特征圖設(shè)計為不同分辨率的兩層,根據(jù)近距離高精度的需要使用高分辨率,遠(yuǎn)距離使用低分辨率。
這樣分別對行車和泊車有不同的子任務(wù),滿足行泊一體化的精度要求上,也能有效降低算力的使用。
高速 NOA 上典型的主動變道,上下匝道出現(xiàn)的功能失效退出,大部分都是感知對距離和速度估計準(zhǔn)確度不夠,而BEV方案的高準(zhǔn)確度,能夠讓規(guī)劃控制算法有著更多空間。
這也就為高速 NOA ,城市 NOA 打下了堅實的環(huán)境感知基礎(chǔ)。
多傳感器融合感知能力
說到融合算法策略,常見的有前融合(傳感器信息共享之后輸入網(wǎng)絡(luò)),后融合(各個模塊輸出結(jié)果之后對結(jié)果進行融合),而輕舟智航提出超融合的概念,并沒有將前融合和后融合嚴(yán)格個區(qū)分,而是按需使用傳感器 Raw 數(shù)據(jù),中間層特征,目標(biāo),時序信息等等。
確實,類似人類如何理解世界,我們可能是用眼睛看(感知),看的過程中可能回想起以前的經(jīng)驗(時序信息),結(jié)合聽到的聲音之后進行推理(后融合);也有可能我們一邊聽一邊看,互相驗證,共同得到對世界的認(rèn)知(前融合或者中融合)。
這幾種在人類認(rèn)知世界的過程中并不會被顯著區(qū)分,每個人都有自己的習(xí)慣,每個場景也不一樣(超融合),但是都得到當(dāng)下最優(yōu)的感知結(jié)果。
這也是是輕舟智航的 OminiNet 的設(shè)計原則,將原始數(shù)據(jù),一些神經(jīng)網(wǎng)絡(luò)中間層參數(shù)或者是神經(jīng)網(wǎng)絡(luò)輸出結(jié)果進行融合,甚至在時序?qū)用嬉部梢怨蚕矶鄠€時間窗口信息進行融合。
所以我們看到,整個感知從 3D 檢測,到實時地圖構(gòu)建;從預(yù)測,到多物體的跟蹤;從攝像頭視覺感知到 Lidar 感知;多個任務(wù)被融合在一起,構(gòu)建成一個多傳感器特征和時序融合的大模型。
這種統(tǒng)一又靈活的構(gòu)建方式,讓每個傳感器的信息得到充分利用。
這與 CVPR 2023 Best Paper UniAD 的思路非常相似,可以使用 BEV 的 Feature 或者某個模塊的融合結(jié)果作為輸入,保證整個網(wǎng)絡(luò)能夠有足夠多的信息,進行環(huán)境精準(zhǔn)的感知。
例如異形大車的識別和跟蹤,也不再是一個非常難以解決的任務(wù)。
這是輕舟對于解決感知的一些工程實踐。
低成本的輕地圖方案
很多 L4 公司早期的技術(shù)棧可能是地圖埋點,高度依賴高精地圖的路徑信息進行規(guī)劃控制。這也是很多 L4 公司無法進行大規(guī)模推廣的原因之一。
在某一個小范圍地圖里進行大量的測試、適配,進而得到比較好的表現(xiàn)。
這就帶來了非常可怕的結(jié)果,整個自動駕駛系統(tǒng)與這部分地圖進行了高度綁定,整體的推廣泛化的成本極高,對每一個新的區(qū)域都需要再次適配。
而量產(chǎn)輔助駕駛的運行范圍顯然不能只局限于某一個區(qū)域,甚至區(qū)域的拓展性也是互相競爭的重要指標(biāo)。
輕舟智航自研的 QmapNet,實現(xiàn)了實時感知與導(dǎo)航地圖(區(qū)別于高精地圖,例如我們?nèi)粘J褂玫母叩拢v訊地圖都屬于此列,輕量化、成本低,但是定位精度和車道線需要算法保證)融合得到實時地圖構(gòu)建,支持城市復(fù)雜道路的行駛。
不需要依賴高精地圖,也就不需要經(jīng)常更新高精地圖,同時在一些密級較高無法提供高精地圖測繪的城市區(qū)域,也能夠保證功能開啟。
輕地圖方案,為城市 NOA 的推廣提供了非常廣闊的空間。而輕舟已經(jīng)具備這樣的能力。
眾所周知,由于城市布局的原因,輕地圖在短時間內(nèi)并不容易實現(xiàn)。但我相信,具有這一能力的輕舟智航,未來可以通過和圖商攜手實現(xiàn)「輕地圖」的路線。
數(shù)字基建為核心的公司戰(zhàn)略
在成立之初,輕舟就將數(shù)字基建放在了一個非常高的位置,例如數(shù)據(jù)閉環(huán)與仿真。 在自動駕駛行業(yè)內(nèi),公認(rèn)輕舟智航擁有最強大的數(shù)據(jù)閉環(huán)工具鏈之一,內(nèi)部可以自動化進行危險場景挖掘,可以支持算法不斷的快速迭代和升級。
在 L4 為主要戰(zhàn)略目標(biāo)的時候,這部分基建就耗費了非常大的資源,當(dāng)時甚至還有人看不懂輕舟的戰(zhàn)略部署,將工程能力提升到如此的高度是否是舍本逐末。
事實證明,這些積累極大縮短了輕舟的轉(zhuǎn)型之路。
優(yōu)秀的數(shù)據(jù)閉環(huán)系統(tǒng)在開發(fā) L2 級別的輔助駕駛方案時能夠被直接復(fù)用,也大大降低了數(shù)據(jù)標(biāo)注的時間成本,而當(dāng)時積累的 L4 級別 仿真技術(shù)更是讓輕舟的驗證過程高度虛擬化并大大縮短。
行業(yè)內(nèi)較早使用基于純視覺的 NeRF(一種神經(jīng)體素訓(xùn)練網(wǎng)絡(luò),可以使用純視覺傳感器完成周圍環(huán)境的重建,但是計算資源耗費較大,重建精度需要算法保證)3D 重建技術(shù)和標(biāo)注系統(tǒng),這與 Tesla 的技術(shù)路徑非常類似,可以從視覺中獲得真值。
就像人類一樣,可以直接通過眼睛學(xué)習(xí)整個世界的 3D 空間。
與此同時數(shù)據(jù)采集時,由于輕舟智航也有部分 Lidar 回傳結(jié)果,也能直接獲得一部分 3D 位置,精度也會大大提升。
數(shù)據(jù)回傳之后,通過數(shù)據(jù)自動標(biāo)注系統(tǒng),很快能夠得到真值,并且及時進行算法訓(xùn)練。同時,利用離線點云大模型,可以實現(xiàn)很多場景的自動挖掘,自動積累場景庫。
這是其他公司不曾具備的優(yōu)勢。
而 3D 重建后的世界,也就保存了當(dāng)時數(shù)據(jù)采集時行車的狀態(tài),這可以進入虛擬測試仿真世界,自由地對場景進行修改,例如添加某個危險物體,或者刪除某個交通參與者,進行虛擬測試,也加快了驗證的速度。
厚積薄發(fā),執(zhí)著得到了回報。
03
自動駕駛下半場的關(guān)鍵詞:中國自動駕駛
L4 級別自動駕駛遲遲無法商業(yè)化的今天,自動駕駛公司們躬身降級,用自己 L4 自動駕駛開發(fā)的積累賦能 L2,過程也許很艱難也會面臨質(zhì)疑。
但是真正優(yōu)秀,堅韌的公司從來不會被行業(yè)趨勢淘汰,而是在變化中開發(fā)更加優(yōu)秀的產(chǎn)品。
我看到小鵬和華為在城市 NOA 上的巨大突破,引領(lǐng)行業(yè)發(fā)展;
我也看到了地平線在高算力芯片上的突圍,斬獲上百個車型定點;
我看到中國激光雷達廠商們后來居上,用出貨量宣布王座易主;
我還看到輕舟智航們在算法和工程集成上的努力和車型定點回報,用行動反擊質(zhì)疑。
從軟件到硬件,從算法到工程集成,都有對應(yīng)的公司占據(jù)了關(guān)鍵位置,時刻準(zhǔn)備參與全球競爭。
作為智能駕駛行業(yè)的觀察者,我覺得我極度幸運,能看到整個產(chǎn)業(yè)鏈逐漸成熟,一幅巨大的,全球唯一的智能駕駛產(chǎn)業(yè)版圖正在徐徐在我面前展開。
在 2023 年 6 月 21 日,工信部也宣布要支持 L3 級別的自動駕駛立法。
幾乎同時,CVPR,全球計算機視覺頂級會議中最佳論文由中國自動駕駛團隊獲得。
編輯:黃飛
?
評論