大模型領域前一陣有個刷屏新聞,現代知名音樂制作人Rick Rubin和Anthropic合作,對《道德經》做了個二創,通過改編老子的原文,寫了部《編碼之道》(The Way of Code),對AI編碼這種新開發方式做了一次哲學詮釋,受到社區的熱烈追捧。
其實技術的發展往往是這樣,技術自身固然重要,但其背后的理念可能更重要,因為它才能決定技術發展究竟要向何處去。
不久前,我拜訪了位于深圳的卓馭科技,一家“又新又舊”的公司(稍后會解釋),并和卓馭科技CEO沈劭劼,阿里云智能集團公共云事業部副總裁、AI汽車行業總經理李強一起做了一場深度的播客訪談。
在剪輯回放這期播客視頻時,當我看到沈劭劼解釋“為什么把智駕系統,從原來百萬代碼的規則邏輯,改成端到端邏輯”時,我腦海里突然冒出老子的一句話:為學日益,為道日損。
老子原本表達的意思是:當我們剛開始學習某個領域時,總是先去掌握更多的知識、技巧和規則,就像往背包里不斷裝東西,這就是“為學日益”;但當我們真正精通這個領域時,我們開始明白什么是本質的、什么是多余的,開始學會舍棄和簡化,最終抓住事物的核心規律,這是“為道日損”。
至于為什么我會聯想到這句話?我們就得要理解卓馭這次技術路線轉換蘊藏的深度哲學,從卓馭科技的發展原點說起了。接下來,我們要講的是一個基因傳承和創新的企業故事。
另一種L4:天空到地面的技術傳承
我們剛才講卓馭科技又新又舊。卓馭之新,在于它在法律意義上是一個很年輕的公司,2023年才成立;卓馭之舊,是說它的技術、業務本身并不年輕,極有沉淀。從無人機產品出發,到投身智能駕駛技術,卓馭的相關工作早在2016年開始了。
無人機與汽車智駕,雖然一個在天上,一個在地上,但有天然的技術關聯,它們都可以用L1到L4這樣的指標體系,描述智能駕駛的程度。而用沈劭劼的話說,無人機其實早就已經到了L4了,原因很簡單,“因為天上沒有人來人往”。
所以在2016年,沈劭劼決定和團隊一起挑戰“機器人學的皇冠”——智能駕駛。然而獨立運作的第一步,卓馭先思考的還不僅是技術問題,而是商業模式問題。
沈劭劼說,最開始其實花了很長時間去想到底怎么樣才是一個可行的商業模式,能讓業務活下去,并發展壯大。他回憶道,團隊想過的商業模式包括Robotaxi、低速物流車、干線物流等等,方方面面都有。雖然模式想過很多,但 “造車”這個選項很早就排除掉了,“想了半天就沒想到怎么能把車造好”。
不過,不造車只是不造整車硬件,不代表不做智駕系統的硬件。由于團隊天然具備硬件基因,所以沈劭劼說:“軟件算法之外,我們做硬件包括傳感器,特別是對于軟硬一體化技術棧的協同優化,有天然優勢”。這種技術底蘊最終決定了卓馭的市場定位:做Tier 1(一級供應商)。“一級供應商的核心能力不是某一個,真正重要的是兜底的能力,也就是提供'交鑰匙'方案的能力。”
可是,他隨后也花了個很長的篇幅解釋,能“交鑰匙”兜底,只代表能力出眾,卻不代表卓馭只提供這一種交付方式,“不然太霸道了,會失去很多合作機會”。
實際上,卓馭和主機廠的合作交付可謂多種多樣,除了交鑰匙,還有:硬件+軟件集成、軟硬件產品供應、純軟件方案,甚至是IP授權和主機廠自研賦能。沈劭劼認為,如何交付其實不重要,最重要的是大家的利益共同點一致:把車賣好。數字見證了卓馭技術沉淀和業務邏輯的成功:目前卓馭已經建立合作的客戶有9家,合作的汽車品牌16個。
對于這些成就,在訪談中,李強也給出了阿里云的視角:在數字化、智能化的時代,一家企業的發展,一定會反映在算力消耗上。算力消耗是企業發展的晴雨表,“在卓馭的這張晴雨表上,我們很明顯能夠看到卓馭的業務進步”。
一次“戛然而止”,一種“范式躍遷”
我們先來討論一下卓馭科技的技術變革。我認為非常值得單拿一個章節詳解。因為從中大家可以體會到,我為什么會在卓馭科技的技術哲學上感受到老子的“為學日益”、“為道日損”。
技術變革往往遵循托馬斯·庫恩提出的“科學革命”理論:在常規科學階段,技術按既定軌道漸進式發展;當累積的問題達到臨界點時,就會發生“范式革命”,整個技術體系被重新定義。
如果能在不同技術范式取得成功,就是我們經常聽到的字眼“穿越周期”。這兩年,卓馭就穿越了一次:從代碼規則切換到了模型驅動的端到端。可以說,從2016年到2023年的七年,卓馭的智駕技術走過了基于規則技術路線的完整周期。
最開始的規則路線,是一個典型的復雜化過程。當時工程師們相信,通過不斷添加規則,就能覆蓋現實世界的所有可能性,實現汽車的智能駕駛。當然,這也不僅是卓馭一個團隊秉承的技術范式,而是業界一度的普遍選擇。
“從16年底一直到23年,很明顯規則是越寫越多的,特別是到后面開始做基于規則的無圖城市領航的時候,那時候基本上卓馭的規則代碼就是登峰造極的境界了”, 沈劭劼談到這的時候,李強馬上問代碼規模有多大?答案是:百萬行級別,但還只是決策規劃不包括感知。
然而,現實給出了代碼量不一致的反饋:城市里面的接管率怎么都降不下來了。
與此同時,團隊內部一直在并行探索端到端技術。而當兩條技術路線的性能對比出爐時,結果是震撼性的:七年積累的百萬行規則代碼,在性能上卻被一個初期階段的端到端系統數量級超越。
面對這種巨大差距,沈劭劼做了一個果斷的決定:“用簡單回答的話去總結就是直接放棄了”,拋棄百萬行規則代碼,全面轉向端到端。數據不會騙人,“城區復雜場景的接管率直接降了10倍”。但數據背后,還有更深層的認知變化。
沈劭劼回憶道,最開始大家對于模型驅動還是有很多疑問的,能達到什么安全性能力也有不確定性。但后來,隨著語言大模型表現出來的智能涌現,讓團隊確信,模型本身可能比人工編寫的規則更接近智慧的本質。
當然,切換技術體系,不代表工程師的工作不重要了,只是技術邏輯發生了根本性的轉換:過去是“say yes”——告訴機器應該怎么做,什么是對的;現在變成了“say no”——讓機器自己判斷,工程師只需要告訴它什么是不該做的。
沈劭劼解釋:“從數學的角度上來說,如果是say yes,它本質上來說是一個正向的去解非常復雜的非線性優化問題,要找到一個解是很難的。say no就簡單多了,只要在空間里面驗證一下就好了。”
端到端:擬人化智能的突破
除了接管率的間接數字表現,這種技術切換給駕乘體驗帶來的直觀效果也立竿見影。沈劭劼描述了一個生動的場景:假設車輛進入一個住宅區,但路邊停了很多車,開車往里走,往往就會出現“鬼探頭”(即一個人突然從路邊車輛遮擋的盲區突然沖出來)的情況。
如果用寫規則應對這種情況,就需要不斷優化車輛對突發狀況的響應速度,這在數學上容易計算但實現起來很難,“會很容易達到物理極限”。
但用了端到端方法之后,車輛系統的突發響應速度并沒有加快,但你會發現,一旦進了這些場景,車就不肯加速了。因為此時,車輛表現出了近似人類的預判能力:不肯加速,就代表智駕系統懂得了這個場景是有危險的,需要剎車慢給“油”。
更有趣的是AEB(自動緊急制動)測試的變化:“切換到端到端之后,我們很難測AEB,因為車會繞開障礙物,而不是事到臨頭剎車。相比起來,人類司機開車反而還比較容易測AEB。”
這種變化的本質,是因為機器學會了人類司機的直覺,讓駕駛變得擬人。沈劭劼注意到,很多時候所謂的危險接管,并非出現在絕對意義上的剎車不及,而是沒有和其他交通參與者、交通狀況形成一個默契。
沒有這個直覺,從人類司機看來,駕駛系統就還是個機器,而不是“老司機”。而我的“為學日益”到“為道日損”的感受,也就是從這些話語中感悟而來了。
一開始,工程師們勤奮地添加規則代碼,試圖用百萬行程序來描述汽車在復雜世界中應該如何行駛。但當端到端技術出現時,他們發現真正的突破是減法:讓機器自己學會判斷,而不是被無數規則束縛。
模型有模型的問題
不過,硬幣總有兩面。技術路線的轉換,有驚艷的效果,也有心驚的問題,最重要的就是數據處理。
這并不意外,在算力算法數據的AI三要素,“數據墻”的制約,是人們說得最多的話題。不過,從外界來看,數據問題往往會被歸結為規模問題,也就是數據量夠不夠大的問題。
但從卓馭看來,并非如此。
沈劭劼解釋,如果有幾十萬輛車在路上跑,每天的數據規模,光是存儲和傳輸的費用,都會很高。更何況,絕大多數日常行駛數據所描述的狀況,其實都已經被抽象、納入模型的參數中,額外收集再多同類并沒有用。
這就可以歸納出數據時代的一個重要認知:數據的價值在于數量但也在于質量。所以,我們如何能把更有價值的數據給挖掘出來?
最開始的做法是人工標注:就是所謂的有多少人工,就有多少智能。但隨著數據量增長,卓馭開始構建更智能的數據處理系統:利用車輛本身的行為特征作為捕捉更有價值數據的信號,因為駕駛員的駕駛行為、接管行為,都可以作為啟動數據傳輸或者啟動關鍵場景的信號。換句話說,只有某些“有價值的數據”行為出現了,系統才去記錄數據。他們甚至在車上部署了專門的數據挖掘模型。一個比較小的VLM(視覺語言模型),它不負責駕駛,但專門負責去發掘什么樣的數據是更有意義的。
算力晴雨表:見證技術范式的躍遷
能從另一個角度觀察這場技術范式變革,和卓馭科技算力變遷的,就是阿里云團隊了。
作為先進的AI基礎設施供應商,阿里云從卓馭的AI基礎設施消耗中看到了清晰的汽車產業的智能脈絡。我們可以將其稱之為“算力晴雨表”。
卓馭和阿里云的合作,始于2022年;具體落地場景可分為智駕模型產品和公司業務系統兩個層面。
在智駕模型產品方案層面,卓馭是基于阿里云智算服務 PAI-靈駿訓練“分段式的小模型”起步的。
2023年,獨立運營后的卓馭,自然會對公司業務系統提出新要求。此時,公司做出了一個關鍵決策:將內部業務系統“應上盡上”,全部遷移到云端,團隊則選擇專注核心能力,將其他都交給專業的服務商,決策的成果不負期待。
通過阿里云的數據湖倉平臺StarRocks,卓馭實現了對千億級視頻每一幀的存儲標注計算;MEMS、MOM、Lims等工廠智造、供應鏈等核心系統也都相繼遷移上云,節約了大量研發和運維的基礎人力投入。這時在阿里云的“晴雨表”上,卓馭的通用計算消耗還是大于智能算力消耗的。
隨著卓馭從規則走向端到端,雖然接管率在下降,代碼量在下降,但當駕駛的決策由模型得出,對基礎設施的要求反而提高了。兩個字:一個“量”,一個“質”。談“量”,是智能算力的需求,很快超過了通用計算消耗。說“質”,則體現在端到端模式對基礎設施提出的全新要求。如果我們把過去的規則驅動描述為“單線程”工作,那么端到端訓練就像是“多線程并發”。而成千上萬的GPU同時協作時,任何一個節點出問題,整個訓練就可能前功盡棄。
顯然,訓練中斷是工程師們最頭疼的問題之一,它意味著多日的計算量付諸東流。智算服務PAI-靈駿針對這些挑戰做了系統性優化。舉個例子:如果某個訓練節點出現故障,首先系統能自動隔離問題節點并快速恢復訓練;其次,3.2Tbps的RDMA網絡帶寬則讓海量的模型參數能夠在節點間快速流轉;最后,智能調度系統則像一個精明的“資源管家”,確保每一份算力都用在刀刃上。
在推理端,情況同樣復雜。車載芯片的算力限制要求在保證精度的前提下讓模型跑得更快、更省資源。為此,阿里云人工智能平臺PAI提供的量化工具鏈能夠在盡可能少損失精度的情況下,大幅提升模型的推理效率,這就直接帶動了車輛的響應速度和能耗表現。
雖然AI算力需求在增加,但是和算力優化一點不矛盾,反而相輔相成。我最近和阿里云不同團隊交流時,確實體會到了阿里云的一種算力價值觀:一方面阿里云關注客戶算力需求增長;但另外一方面,他們實際上更在意客戶算力的用法。
如果某個客戶能把算力用得很極致,把每一分算力都用在刀刃上,反而會讓阿里云多關注,去推動讓這種極致走得更遠。卓馭就屬于這種情況。我理解這個價值的邏輯是,能把技術用漂亮,業務也會做漂亮。能把先進技術用到極致,同樣業務也會做得很成功。
說到價值觀,我也問卓馭科技和阿里云雙方,為何能夠一拍即合緊密配合,沈劭劼和李強的回答是一致的:商務上秉持簡單高效的工作理念,溝通透明;技術上堅持長期主義,追求底層邏輯。
因為回顧過往,阿里云是最早深耕智駕領域客戶的云服務商,在不斷的業務迭代過程中,阿里云從產品能力、框架優化能力、算子庫等多技術板塊針對智駕場景做了非常多的優化落地。而正是這樣的高效開發效率,促成了雙方的相互成就。同時,卓馭在業務高速發展過程中也帶動了阿里云產品和技術的持續領先,這是真正意義上的攜手共進,這就是三觀一致、互相成就。
有意思的是,卓馭這個先行者的AI算力晴雨表,也是整個中國汽車產業智能化晴雨表的縮影。李強提供的一組數字佐證了這一點。在他所服務的阿里云AI汽車行業線,在今年3月份的某一天,AI算力的收入已經超過了CPU通用算力。到5月底AI算力占比已經接近56%。
軟硬一體化,艙駕一體化,背后是一種技術美學
在卓馭的官方資料中,軟硬“一體化”是經常出現的高頻詞。我自然也在對話中,希望對此作一番探究。
沈劭劼告訴我,這背后體現的理念是局部優化和系統優化的區別。他用一個“雙目攝像頭”的例子做了具體闡述。
卓馭現在所有的智能輔助駕駛方案都是用雙目的,沈劭劼解釋:這個選擇看似簡單,但其實有深層的系統性考量。雙目有立體視覺,和人眼類似,這就讓它天然具備物理特性,更擅長識別和躲避路面的障礙物。
更重要的是,這種選擇的價值不僅在技術層面,更體現在成本控制的系統優化層面。這可能有點反直覺,怎么增加了“一目”,反而成本更可控。道理在于功能互換。
智能駕駛系統有要解決“傳感”、“算力”、“數據”、“算法”四座大山的說法。它們遵循木桶理論,每一個都不能有明顯的短板,但它又是一個奇怪的木桶。一塊木板更長,就能夠讓另一塊木板無需太長。也就是說,因為用雙目硬件能實現的性能,如果改換用算力實現,成本會非常高。
換言之,有了雙目攝像頭,模型的參數規模就可以縮小,成本就可以大幅度降低。顯然,這里對應的,不僅是卓馭的交付成本,更是主機廠客戶的車輛成本。
因此,沈劭劼算了一筆賬:雙目不只是裝在車上的硬件的錢,它是整個體系運作起來的成本。甚至事關到底一年需要用5個億來做模型訓練,還是需要用50個億來做模型訓練。
這也體現了卓馭對"軟硬一體"的深層理解:前后端的東西是會互相影響的,它們是需要一起權衡、一起優化的東西,也就是“一體化”。而這種技術理念,也體現在智能艙駕方案中。卓馭原來只做駕駛系統,但現在也將座艙系統納入業務范圍,玩法是“駕艙一體化”。項目正在有序進行中,預估10月份就會量產。
所謂艙駕一體,顧名思義,就是將座艙和智駕功能集成在一個平臺上。我自然要問沈劭劼,卓馭為什么這么在意“一體化”設計?
他給了我一個“意料之外、情理之中”的答案:“某種程度上這是一種技術美學”, “所有漂亮的工程方案,它的軟件硬件算力各種資源,擺放分布,應該讓人看到就覺得是剛剛好的,不多也不少。而要做到這種剛剛好,只有靠一體化設計才能做到(聽到這句話的時候,我突然想到了喬布斯時期的蘋果)。
這種技術美學,自然也能產生經濟效益。沈劭劼說,“我們的座艙里會跑VLM模型做場景識別”,但如果艙駕分離,就需要在兩個位置部署類似功能,消耗1.7倍的算力,如果合起來設計,就會“不多也不少”、“算力剛剛好”。就VLM本身的能力,目前阿里通義系列大模型堅定開源路線,持續為各行業客戶提供開源VL大模型的能力,Qwen VL系列和全模態大模型目前也是各個車企和座艙方案供應商的首要選擇。
更直觀的體現是360全景功能的實現。在傳統架構中,環視相機接到駕駛控制器,處理完成后再通過車載以太網傳輸到座艙顯示,這種設計既消耗算力,又影響體驗——如果駕駛控制器沒啟動完,用戶就會看到黑屏。
但用一體化設計就簡單了。“共享內存而已,誰想用誰用”。這種“剛剛好”的一體化技術理念,其實也是一種“為道日損”的工程哲學——不是功能的簡單堆疊做加法,而是資源的優雅整合做減法。
端到端、VLA、世界模型
在我和李強、沈劭劼的播客訪談中,我也沒放過機會,和他們談到了很多未來性議題。
端到端技術顯然并非是智駕的終局,新的范式還在不斷涌現,比如:VLA、(生成式)世界模型等等,只有端到端,智駕系統對復雜的場景的理解能力會不足,沈劭劼告訴我他的思考,例如車輛左轉之后,到底進主路還是輔路?路口有好多個車道,有三條車道,到底挑哪條?這些決策很明顯不是用“小腦系統”能解決的,都需要用“大腦系統”介入。
因為端到端更像是人類的小腦反應,而復雜的路線選擇需要大腦思考。這種認知推動著技術向更高層次進化,也促使卓馭深挖VLA(Vision-Language-Action)。這里我們稍微解釋一下VLA。VLA模型是基礎模型的一種,它允許機器通過整合視覺環境信息和語言指令來執行復雜任務并生成相應行動。這些模型致力于在單一計算框架內統一感知、自然語言理解和具身行動能力。
具體而言,VLA 智能系統能夠協同處理視覺輸入,理解自然語言指令,并在動態環境中生成可執行的動作。這標志著一個重要的轉變——從過去將視覺、語言和行動視為分離的領域,到如今將它們整合為一個有機的整體。
有了VLA建立語義級別的場景理解能力,就能比較輕松解決主輔路選道的策略問題了。對VLA技術的落地時間,沈劭劼比較樂觀:如果比較快的話,應該今年下半年就會出來。而更大的想象空間則在于世界模型。
所謂世界模型,是指機器能夠根據給定世界的當前狀態和一個動作,預測世界在下一個時刻的狀態。換句話說,它讓AI智能體能夠在采取實際行動之前,在自己的“腦海”中進行“想象”和“推演”,預見不同行為可能帶來的后果。
沈劭劼用一個例子來說明世界模型的能力:假如前面的車掉了個鋼卷,而車輛的模型訓練數據里面沒見過這東西,顯然就很危險。但有了世界模型,系統就可以基于物理運動做分析,知道這東西絕對不能碰。
這就是世界模型與當前技術的本質區別:不是基于既有數據的模仿學習,而是基于對物理世界的理推演決。但對這個未來路線,沈劭劼也很坦誠:“實話實說,怎么真正做出來,我們現在還不清楚。目前,這是一個許愿”。
從端到端,到VLA,再到世界模型,這個技術演進軌跡很清楚,就是返璞歸真。所以,我想其實也恰如老子的哲思:每一次架構變化,都是“為道日損”的簡化,都為下一輪探索奠定了基礎。
不過,雖然世界模型還是許愿階段,L3級別的智能駕駛并不是。
對于L3的時間表,沈劭劼表示“ L3的最終落地會是一個后驗的事情。與其一開始就追求完美的L3系統,不如先讓L2++系統在實際道路上積累足夠的安全數據。比如:什么時候車輛在1萬個小時的智駕運行中,事故不大于一次的時候,就可以自然而然地被認定為是L3標準的系統。”
在絕大多數時間,我和兩位專家談的是技術,但到后來,話題自然而然地轉移到企業使命上。
卓馭的公司愿景是“為所有人提供安全輕松的出行體驗”,聽起來很樸實,但沈劭劼解釋:“這其實是一個科技平權的宣誓,‘安全’這個準繩時時刻刻提醒我們做的是一個跟人命相關的東西,不能開玩笑。而‘輕松’,則是我們所追求的產品體驗。”
每次遇到創業者,我都問時間分配的問題,沈劭劼用了一個通信術語描述自己:我現在是TDMA系統(TDMA是一個通信領域的技術名詞,中文叫時分多址,可以實現在同一信道上使用不同的時間段,允許多個用戶進行通信。沈老師的“TDMA”比喻自然意味著他要利用所有的時間間隙,應對來自四面八方的任務)。首先,他要確保企業產品技術路線上不走歪,技術修養肯定不能“丟”,其次,“要保證團隊在客戶交付上有高配合度”。
總之,不在技術和管理之間非此即彼的選擇,而是通過時間分配實現整體優化,似乎這也是一種“一體化”哲學啊!
最后收尾時,我問沈劭劼,作為AI從業者,你選什么車?他說自從進了智能駕駛這個行業之后,開車就變成了一種工作。第一:車一定是用了自己方案的車,每天開的車都不一樣;第二:一邊開一邊給工程師提Bug。正可謂上車即上班。
李強也講,“我選車,一是要主流的、智能化的產品;二是如果實力允許,每家客戶的車都應該來一臺”。
老子《道德經》第一章還有一句很出名的話,“道可道,非常道”,如果道是可以言說的,那么它就不是永恒不變的道。這句話也適合講智能駕駛,如果駕駛規則是可以一條條講出來的規則,那就不是智能駕駛的真諦。
沈劭劼說世界模型還在許愿,但是我感覺這是一種謙虛。因為,他們可不是只在許愿等待,而是親自上手實干。不過,就讓我們用這個詞表達一下期許吧,期待“世界模型”許愿成功的那一天。(來源:至頂科技)
審核編輯 黃宇
-
大模型
+關注
關注
2文章
3162瀏覽量
4113
發布評論請先 登錄
從“三共計算”到生態重塑,艙駕融合開啟智駕新范式

佑駕創新獲長安汽車量產定點 為其提供高性能輔助駕駛域控制器產品
匯川技術剖析工業自動化的破局之道
inDare格外設計:在消費科技展會的場域下,產品陣列敘事與場景化的體驗實證

北斗智聯重磅發布智馭2.0艙駕融合產品
四維圖新與卓馭科技達成戰略合作
暢行智駕選擇QNX為艙駕融合域控制器提供技術支持
都在說智駕平權,什么是智駕平權?如何智駕平權?
比亞迪全系車型搭載高階智駕技術
北斗智聯艙駕融合產品蟬聯鈴軒獎
智己汽車攜手Momenta聯合打造一段式端到端直覺式智駕大模型
智己汽車宣布IM AD 3.0實現"直覺"智駕新時代
為旌科技:國產智駕芯片如何乘風汽車市場的未來?

評論