3月17日下午,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、商湯絕影CEO王曉剛在NVIDIA GTC 2025發(fā)表演講《激發(fā)通用人工智能的創(chuàng)造力,引領(lǐng)智能汽車走向全新的未來》,以下為演講實(shí)錄:
各位開發(fā)者朋友大家好,我是絕影智能的王曉剛,感謝英偉達(dá)GTC活動(dòng)的邀請(qǐng),也非常感謝各位對(duì)絕影的關(guān)注與支持。
絕影智能是最專注汽車行業(yè)領(lǐng)先的AI公司,旨在推動(dòng)智能汽車加速駛?cè)胪ㄓ萌斯ぶ悄軙r(shí)代。今天我想給大家分享絕影如何激發(fā)通用人工智能的創(chuàng)造力,引領(lǐng)智能汽車走向全新未來。
我常常在想AGI時(shí)代下的未來汽車出行是怎樣的。它應(yīng)該是可以實(shí)現(xiàn)更為自然的有溫度的人車交互體驗(yàn),讓智能汽車從出行代步工具,進(jìn)化為你的情感陪伴;同時(shí)它還要具備實(shí)現(xiàn)安全自動(dòng)駕駛的能力,解放你的身心束縛,讓你的時(shí)間和精力都可以投入到與世界的連接中,盡情享受大千世界的無限可能。
因此,我認(rèn)為AGI賦能下為智能汽車帶來的變革主要在三方面:
第一是通過原生流式多模態(tài)大模型帶來的人機(jī)交互體驗(yàn)的變革;第二是通過端到端智駕技術(shù)的升級(jí),帶來極致自動(dòng)駕駛安全和效率;第三是艙駕融合驅(qū)動(dòng)智能汽車往超級(jí)智能體方向演進(jìn),極大拓展了人與物理和數(shù)字世界的連接。
而引領(lǐng)智能汽車變革的核心驅(qū)動(dòng)力,在于艙駕融合的AI域。絕影和英偉達(dá)深度合作,構(gòu)建艙駕融合的三大核心要素,包括可支持艙駕融合的超大算力引擎,行業(yè)領(lǐng)先的原生流式多模態(tài)大模型,以及端云一體協(xié)同的部署框架。
依托英偉達(dá)算力引擎,絕影首創(chuàng)艙駕融合AI域框架。
該框架包括三層,首先是最下面的算力層,它是依托NVIDIA車端計(jì)算平臺(tái)DRIVE AGX及云端AI計(jì)算平臺(tái)共同打造的強(qiáng)大算力引擎;中間是系統(tǒng)層,它包括以多模態(tài)和端到端為核心的車端大模型,和以世界模型和大語言模型為核心的云端大模型。
基于端云協(xié)同的部署模式,配合絕影自研的模型服務(wù)框架及工具,實(shí)現(xiàn)系統(tǒng)性能的全量釋放,有效支撐最上面的應(yīng)用層如自動(dòng)駕駛、多模態(tài)交互、全時(shí)陪伴助理等多樣化的整車級(jí)智能化生態(tài)應(yīng)用。
為打造領(lǐng)先的艙駕融合AI域,首先我們需要構(gòu)建超大算力引擎,以賦能艙駕多元化的智能應(yīng)用。NVIDIA Drive AGX平臺(tái)超大算力引擎技術(shù)支持雙芯方案,可實(shí)現(xiàn)大算力的翻倍擴(kuò)展,提供安全的多域計(jì)算能力。
絕影在此基礎(chǔ)上根據(jù)功能相關(guān)性和功能安全等級(jí)的不同劃分出不同域,實(shí)現(xiàn)車身控制、端到端自動(dòng)駕駛模型、多模態(tài)大模型、端到端語音模型等不同功能模型間的隔離保障,保障整車安全。
同時(shí),超大算力引擎還具有高帶寬的特點(diǎn),可容納約7個(gè)8B模型同時(shí)運(yùn)行,配合絕影設(shè)計(jì)的AI Runtime Bus使得不同功能域運(yùn)行的各個(gè)大模型在保障安全隔離的情況下也能高效通信。
扎實(shí)的系統(tǒng)支撐是基礎(chǔ),而強(qiáng)大的模型能力能為車載應(yīng)用開發(fā)帶來無限可能。
絕影專為車載場(chǎng)景定制化打造的原生流式多模態(tài)大模型,以其全場(chǎng)景多模感知、理解和推理能力,讓智能汽車有了類似人類的視覺、聽覺和觸覺能力,可將真實(shí)世界里包括語言、語音語調(diào)、表情、車載信號(hào)等豐富的模態(tài)信息以端到端優(yōu)化的方式,準(zhǔn)確感知和理解,并在OpenCompass多模態(tài)評(píng)測(cè)榜單中取得了第一的成績(jī)。
在應(yīng)用部署上,絕影制定了端云協(xié)同的部署策略,通過意圖分流來進(jìn)行任務(wù)在端云兩側(cè)的協(xié)同,當(dāng)前場(chǎng)景任務(wù)有80%是在端側(cè)處理。端云協(xié)同的方式可覆蓋廣泛的場(chǎng)景交互,保證安全可靠、實(shí)時(shí)響應(yīng),并充分保障個(gè)人隱私安全。
艙駕融合的AI域打開了智能汽車的性能上限,是引領(lǐng)智能汽車走向AGI時(shí)代的必由之路。而絕影為加速智能汽車駛?cè)階GI時(shí)代,也在“艙-駕-云”三方面打磨出了行業(yè)領(lǐng)先的技術(shù)與產(chǎn)品解決方案。
在智能座艙領(lǐng)域,絕影將推動(dòng)其實(shí)現(xiàn)自我“叛逆”的進(jìn)化。
慣性認(rèn)知里,大家認(rèn)為車機(jī)就應(yīng)該是聽話和服從的。叛逆的進(jìn)化,代表的是積極自主性,而不是對(duì)抗。這就是絕影為新一代智能座艙的人機(jī)交互打造的積極自主的座艙情感引擎「A New Member For U」,你的家庭新成員!
這個(gè)家庭成員,有三大特點(diǎn):“察言觀色”“無時(shí)不在”“與你心有靈犀”。
讓我們來感受一下它的魅力。
我們的New Member不是一個(gè)聽話的工具,循規(guī)蹈矩的助手,而是提供主動(dòng)溫暖關(guān)懷的“新成員”。比如,它會(huì)提醒小朋友少吃糖。他會(huì)主動(dòng)學(xué)習(xí),記得你的習(xí)慣、你的偏好。理解你,伴隨你成長(zhǎng)。
「A New Member For U」,它將會(huì)成為你的家庭新成員!
絕影的座艙情感引擎New Member背后依靠的是我們的三大技術(shù)支撐:分別是車載類人記憶框架、持續(xù)運(yùn)行框架和多模態(tài)大模型服務(wù)。
那我們先來講講車載類人記憶框架。在現(xiàn)實(shí)生活中,人和人是通過每一刻發(fā)生在你我之間的事情,產(chǎn)生了記憶,讓人和人之間產(chǎn)生了情感。不然你就不會(huì)記得別人是誰,人與人不會(huì)有鏈接。汽車也一樣。如果沒有記憶,就只是一個(gè)工具或助手,不會(huì)跟你有真正情感上的鏈接。
真正的智能汽車,必須要有記憶,才能與你心有靈犀!
絕影的汽車類人記憶框架,通過將“臨時(shí)記憶”和“長(zhǎng)期記憶”融合形成“場(chǎng)景記憶”,做到重要信息的高效提取,為特定場(chǎng)景的決策和行動(dòng)提供依據(jù),賦予智能汽車真正的記憶能力。
我們的車載類人記憶框架,覆蓋人、車、物、環(huán)境四大類別,總共100多個(gè)記憶維度。動(dòng)態(tài)記憶檢索,可以做到毫秒級(jí)!并且具有自成長(zhǎng)的記憶迭代能力!
都說陪伴是最長(zhǎng)情的告白,只有一直在你身邊,無時(shí)不在地為你準(zhǔn)備著,才算是一個(gè)合格的NEW MEMBER。
絕影業(yè)內(nèi)首創(chuàng)的Always-on持續(xù)運(yùn)行框架,能做到零拷貝傳輸,并支持持續(xù)推理,推理速度高達(dá)96 tokens每秒,真正實(shí)現(xiàn)實(shí)時(shí)響應(yīng)復(fù)雜場(chǎng)景。
絕影的New Member之所以能取得如此優(yōu)異的性能,背后得益于絕影基于英偉達(dá)軟硬件能力開發(fā)出的新一代的AI推理加速引擎,它對(duì)于提升AI系統(tǒng)的性能和效率至關(guān)重要。
絕影聯(lián)合英偉達(dá)在算子開發(fā)、模型量化、精度支持等關(guān)鍵技術(shù)進(jìn)行了一系列的深度開發(fā)與創(chuàng)新,從而實(shí)現(xiàn)GPU利用率從35%提升至 85%、低精度計(jì)算速度提升4倍、更長(zhǎng)的視覺文本支持等一系列成績(jī)。
下面我來具體展示絕影AI加速引擎的關(guān)鍵技術(shù):
第一個(gè)是絕影的Flash-decoding++技術(shù),它可以充分利用空閑計(jì)算單元,極大提高解碼過程中并行的效率,從而在處理長(zhǎng)文本的速度上提高超50%的效果。
第二個(gè)是絕影使用先進(jìn)的Segment Prefill方案研發(fā)的一圖多問能力,使得多張圖片的多個(gè)問題盡可能復(fù)用先前計(jì)算的token,從而大幅度提升系統(tǒng)吞吐效果,將querys延遲性能提升超75%。
第三個(gè)是絕影的continue batching方案,在NVIDIA Drive AGX端側(cè)芯片上提升系統(tǒng)QPS能力,支持同一時(shí)間高效處理多達(dá)76個(gè)請(qǐng)求。實(shí)現(xiàn)用戶駕駛體驗(yàn)提升的同時(shí),還確保了行車過程中的安全性和便利性。
在保障以上技術(shù)性能領(lǐng)先的過程中,絕影對(duì)保障數(shù)據(jù)隱私的關(guān)注是始終不變的重要考慮。在保護(hù)用戶隱私上,我們有三個(gè)原則:數(shù)據(jù)跟人走、隱私數(shù)據(jù)不出車、不該說的不說。并且我們還打造了隱私保護(hù)體系,確保用戶隱私滴水不漏。
如果說,A New Member For U,給智艙以溫度,讓每一次出行溫暖愉悅。那么智能駕駛,會(huì)讓我們的出行更自由。
絕影最早在2022年提出行業(yè)首個(gè)端到端架構(gòu)UniAD,并獲得了CVPR 2023最佳論文的認(rèn)可。這是我們的UniAD技術(shù)的實(shí)車部署,在復(fù)雜路況下也能實(shí)現(xiàn)卓越的行駛效果。它不依賴高精地圖,也不依賴激光雷達(dá),僅通過7個(gè)攝像頭的低成本傳感器方案,就能夠以老司機(jī)的實(shí)力靈活在各種復(fù)雜場(chǎng)景中穿梭自如,獲得「類人」駕駛體驗(yàn)。
去年11月,絕影正式發(fā)布了基于全球領(lǐng)先端到端UniAD技術(shù)打造的,量產(chǎn)端到端智駕方案。這個(gè)方案基于NVIDIA Drive AGX平臺(tái)的MIG技術(shù),實(shí)現(xiàn)了端到端和傳統(tǒng)規(guī)則的雙系統(tǒng)實(shí)時(shí)運(yùn)行,助力更好的對(duì)行車過程中的問題進(jìn)行及時(shí)校驗(yàn)和處理。
影在此基礎(chǔ)上充分發(fā)揮雙系統(tǒng)協(xié)同的作用,設(shè)計(jì)了首個(gè)量產(chǎn)級(jí)的、極致安全的端到端智駕解決方案,能在保障整體對(duì)復(fù)雜場(chǎng)景交互的基礎(chǔ)上,保障行車安全。
同時(shí)在NVIDIA Drive AGX的高精度支持和絕影的方案設(shè)計(jì)配合下,模型不需要轉(zhuǎn)成整形運(yùn)算就可以直接運(yùn)行,避免了量化過程導(dǎo)致的精度損失,提升了開發(fā)迭代效率,有效縮短開發(fā)周期。目前我們正和中國(guó)某頭部車廠合作量產(chǎn)UniAD解決方案的量產(chǎn)落地。
同時(shí),我們還研發(fā)了新一代融合多模態(tài)大模型的端到端智駕方案,依托多模態(tài)大模型強(qiáng)大的感知和推理能力,能夠更好的應(yīng)對(duì)復(fù)雜場(chǎng)景,不斷提升整車智能的上限。
數(shù)據(jù)驅(qū)動(dòng)的端到端技術(shù)的演進(jìn),需要海量高質(zhì)量數(shù)據(jù)的支撐。當(dāng)前特斯拉擁有超7百萬輛高階智駕量產(chǎn)車來實(shí)現(xiàn)數(shù)據(jù)回傳,中國(guó)車廠與特斯拉相比具有一個(gè)數(shù)量級(jí)的差距,想要追趕上必須要通過全新的模式來革新數(shù)據(jù)基礎(chǔ)設(shè)施。
絕影依托在自動(dòng)駕駛和多模態(tài)大模型領(lǐng)域的積累,在去年年底絕影日上率先提出用量產(chǎn)實(shí)車采集真實(shí)數(shù)據(jù),用世界模型生成仿真數(shù)據(jù),形成雙輪驅(qū)動(dòng),“車云一體”的數(shù)據(jù)閉環(huán)新范式。
基于英偉達(dá)云端算力引擎,絕影打造了行業(yè)領(lǐng)先的世界模型“開悟”。
“開悟”可以理解真實(shí)世界中的“物理法則”和“交通規(guī)則”,并在此基礎(chǔ)上,能夠生成“準(zhǔn)確”的場(chǎng)景,具體來說,我們生成的視頻,是11V時(shí)空一致的,時(shí)間最長(zhǎng)可以達(dá)到150秒,分辨率能夠達(dá)到1080P;同時(shí),“開悟”生成的場(chǎng)景也是可控的,能細(xì)微到“元素級(jí)別”,生成場(chǎng)景非常精細(xì),完全滿足端到端模型訓(xùn)練和仿真對(duì)于數(shù)據(jù)質(zhì)量的高要求。
大家可以先看一下我們的世界模型生成的視頻。這些視頻里面,晴天下周邊環(huán)境的投影、夜間車輛近光燈的投射,都符合物理法則,真實(shí)呈現(xiàn)。這是因?yàn)椤搁_悟」通過海量數(shù)據(jù)學(xué)習(xí),懂得了光學(xué)原理這些物理法則。同時(shí),「開悟」還學(xué)會(huì)了交通規(guī)則,視頻中的車輛剎車時(shí)會(huì)適當(dāng)保持車距,在交通信號(hào)燈的指示下合理啟停。
真實(shí)只是基礎(chǔ),世界模型要生成更加準(zhǔn)確場(chǎng)景,需要保證多視角的時(shí)空一致性。這是「開悟」,行人車輛3D框和時(shí)空軌跡,作為精準(zhǔn)的輸入控制信號(hào),生成的11V視頻數(shù)據(jù)。
同時(shí)生成的視角越多,要保持時(shí)空一致性就越難,而這11V視角還包括了4個(gè)魚眼攝像頭,模型要準(zhǔn)確仿真出魚眼視角的畸變。「開悟」做到了11V,可以靈活滿足從1V到11V的各類場(chǎng)景的訓(xùn)練需求。
「開悟」生產(chǎn)數(shù)據(jù)的效率很高。對(duì)比行業(yè)平均水平,我們進(jìn)行了一個(gè)測(cè)算,基于1張 A100 GPU,「開悟」世界模型平均每天可以生成大約20,000個(gè)bundle,相當(dāng)于10臺(tái)真值車,或100臺(tái)路測(cè)車的數(shù)據(jù)采集能力,比得上500臺(tái)量產(chǎn)車的效率。
此外,「開悟」能夠支撐端到端智駕系統(tǒng)迭代的數(shù)據(jù)閉環(huán),構(gòu)建“與自車實(shí)時(shí)互動(dòng)”的閉環(huán)仿真環(huán)境。
具體方案是,第一步,是路測(cè)新問題的發(fā)現(xiàn),右上角邊的視頻就是我們?cè)跍y(cè)試中,發(fā)現(xiàn)車輛向左并線是更好的選擇,但它沒有這么做,需要訓(xùn)練優(yōu)化,我們先用仿真,精準(zhǔn)還原了這個(gè)場(chǎng)景。
第二步,針對(duì)失效案例,生成端到端訓(xùn)練數(shù)據(jù)。中間部分能看到,我們依賴世界模型中仿真智能體,實(shí)現(xiàn)足夠多樣化和真實(shí)的場(chǎng)景推演和專家軌跡生成,生成并線博弈場(chǎng)景數(shù)據(jù)、專家軌跡數(shù)據(jù)、對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。
第三步,進(jìn)行端到端仿真迭代驗(yàn)證。我們可以看到,底下的畫面是訓(xùn)練后,在相同場(chǎng)景下,系統(tǒng)選擇向左并線,通行效率提高。
此外,隨著近期基于強(qiáng)化學(xué)習(xí)的大模型訓(xùn)練的思路得到驗(yàn)證,絕影創(chuàng)造性地提出了“與世界模型協(xié)同交互的端到端技術(shù)路線R-UniAD”。通過“開悟”世界模型生成在線交互的仿真環(huán)境,以此進(jìn)行端到端模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。基于該范式可以大幅降低端到端模型訓(xùn)練的數(shù)據(jù)門檻,并在充分探索各種可能性的基礎(chǔ)上有望實(shí)現(xiàn)遠(yuǎn)超人類的駕駛表現(xiàn)。
以右邊的碰撞場(chǎng)景為例,我們可以看到R-UniAD在復(fù)雜交互場(chǎng)景中,通過長(zhǎng)思維鏈有效提升推理效果,最終自行領(lǐng)悟到在該場(chǎng)景下如何進(jìn)行合理避讓,克服了訓(xùn)練前期容易碰撞的問題。
當(dāng)前,基于英偉達(dá)平臺(tái),我們領(lǐng)先的艙駕產(chǎn)品,已賦能多家行業(yè)領(lǐng)先車企。
座艙方面,我們已于去年底在某國(guó)內(nèi)頭部車企上量產(chǎn)首個(gè)座艙情感引擎NewMember,并且能力還將快速迭代升級(jí);智駕方面,全球最佳UniAD端到端技術(shù)的首款車型也將于今年量產(chǎn)落地,敬請(qǐng)大家期待。
面向未來,絕影將與英偉達(dá)聯(lián)手構(gòu)建的艙駕融合產(chǎn)品應(yīng)用生態(tài)。在今年,絕影將實(shí)現(xiàn)艙駕融合AI域的構(gòu)建,并進(jìn)行多元化的艙駕融合產(chǎn)品的研發(fā)和打磨。明年,絕影將攜手英偉達(dá)完成艙駕融合產(chǎn)品在各大車廠的量產(chǎn)落地,并推動(dòng)智能汽車向朝著超級(jí)智能體持續(xù)進(jìn)化,加速智能汽車駛?cè)階GI時(shí)代。
絕速影領(lǐng),智進(jìn)未來!讓我們一起奔赴AGI的曠野!
謝謝大家!
-
人工智能
+關(guān)注
關(guān)注
1804文章
48677瀏覽量
246346 -
智能汽車
+關(guān)注
關(guān)注
30文章
3049瀏覽量
108163 -
商湯科技
+關(guān)注
關(guān)注
8文章
552瀏覽量
36643
原文標(biāo)題:王曉剛:商湯絕影引領(lǐng)智能汽車進(jìn)入AGI時(shí)代 | GTC 2025
文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
工信部辛國(guó)斌到訪上海車展商湯絕影展臺(tái)
商湯絕影亮相2025上海車展
時(shí)擎科技受邀亮相無錫先進(jìn)封裝產(chǎn)業(yè)發(fā)展高峰論壇并發(fā)表主題演講

研華科技亮相NVIDIA GTC 2025大會(huì)
NVIDIA GTC 2025精華一文讀完 黃仁勛在GTC上的主題演講

黃仁勛GTC2025演講:人工智能的終極形態(tài)物理AI將徹底改變世界

華為李捷亮相MWC 2025并發(fā)表主題演講
NVIDIA GTC 2025大會(huì)即將啟幕
華為趙振龍亮相MWC 2025并發(fā)表主題演講
華為陳浩亮相MWC 2025并發(fā)表主題演講
華為李鵬亮相MWC 2025并發(fā)表主題演講
NVIDIA GTC 2025大會(huì)預(yù)告
商湯絕影在行業(yè)率先實(shí)現(xiàn)原生多模態(tài)大模型的車端部署

NVIDIA CEO黃仁勛在 SIGGRAPH 2024 主題演講中或?qū)⑹状?b class='flag-5'>亮相消費(fèi)級(jí)GPU Blackwell

評(píng)論