女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DiffusionDrive首次在端到端自動駕駛中引入擴散模型

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-03-08 13:59 ? 次閱讀

近年來,端到端自動駕駛成為研究熱點,其核心在于從傳感器數(shù)據(jù)直接學(xué)習(xí)駕駛決策。然而,駕駛行為本質(zhì)上是多模態(tài)的——同一場景下可能存在多種合理軌跡,例如在復(fù)雜路口,車輛可選擇左轉(zhuǎn)、右轉(zhuǎn)或直行。這種多樣性是提升自動駕駛魯棒性和安全性的關(guān)鍵,但現(xiàn)有方法往往受限于單一軌跡回歸或固定錨點采樣,難以全面建模駕駛決策空間。

擴散模型 (Diffusion Model) 憑借強大的多模態(tài)建模能力,已在機器人決策學(xué)習(xí)中得到驗證。其逐步去噪機制能從復(fù)雜數(shù)據(jù)分布中生成多樣性強、符合物理約束的軌跡,使其成為自動駕駛多模態(tài)規(guī)劃的理想選擇。然而,擴散模型直接應(yīng)用于端到端自動駕駛?cè)悦媾R計算開銷高和模式崩潰 (Mode Collapse) 的問題——傳統(tǒng)擴散模型需多輪迭代去噪,導(dǎo)致推理速度難以滿足實時需求,同時在高度動態(tài)的交通場景下,生成軌跡往往趨于重疊,無法充分展現(xiàn)駕駛決策的多樣性。

為此,我們提出截斷擴散策略 (Truncated Diffusion Policy) ,結(jié)合多模態(tài)錨點先驗 (Multi-mode Anchors Prior) ,通過截斷擴散過程,使模型從錨定的高斯分布 (Anchored Gaussian Distribution) 直接去噪至多模態(tài)駕駛軌跡分布。該方法避免了從純隨機噪聲開始的冗長迭代,僅需2步即可完成高質(zhì)量軌跡推理,相比傳統(tǒng)擴散策略加速10倍。此外,我們設(shè)計了級聯(lián)擴散解碼器 (Cascade Diffusion Decoder) ,增強模型對場景信息的交互能力,提升軌跡預(yù)測精度。

我們提出的DiffusionDrive首次在端到端自動駕駛中引入擴散模型,并通過截斷擴散策略與級聯(lián)擴散解碼器,有效解決計算開銷與模式崩潰問題,為構(gòu)建高效、魯棒的多模態(tài)自動駕駛規(guī)劃提供了新思路。

范式對比

6eb03982-fb3d-11ef-9310-92fbcf53809c.png

對比不同的端到端自動駕駛范式:

(a) 單模態(tài)回歸方法,通過Ego Query機制直接預(yù)測單一軌跡,但忽略了駕駛行為的多模態(tài)特性,難以適應(yīng)復(fù)雜交通場景。

(b) 預(yù)定義錨定軌跡采樣方法,通過固定的錨定軌跡集來離散化軌跡空間,并基于評分機制進行選擇,雖然能夠一定程度上捕捉多模態(tài)行為,但受限于錨定軌跡數(shù)量和分布,難以泛化到未見場景。

(c) 傳統(tǒng)擴散策略通過在高斯分布上迭代去噪來生成軌跡,能夠捕捉多模態(tài)駕駛行為,但由于去噪步驟多,計算成本高,并且在復(fù)雜交通環(huán)境中容易出現(xiàn)模式崩潰,導(dǎo)致軌跡多樣性不足。

(d) 我們提出的截斷擴散策略,通過引入錨定高斯分布,利用多模態(tài)錨點作為初始分布,使模型從更合理的軌跡分布開始去噪,從而顯著減少計算開銷,僅需少量去噪步驟即可生成高質(zhì)量的多模態(tài)軌跡,在保證多樣性的同時大幅提升推理效率,使其更適用于實時自動駕駛。

截斷擴散策略

6ed017a2-fb3d-11ef-9310-92fbcf53809c.png

傳統(tǒng)擴散策略在端到端自動駕駛?cè)蝿?wù)中的應(yīng)用面臨兩大核心挑戰(zhàn):高計算成本和模式崩潰。擴散模型的去噪過程通常需要多輪迭代,例如20輪,以逐步將純高斯噪聲轉(zhuǎn)化為可行的駕駛軌跡。然而,這種逐步推理方式導(dǎo)致計算開銷極高,難以滿足實時自動駕駛的要求。此外,由于自動駕駛場景高度動態(tài)且充滿不確定性,擴散模型從隨機噪聲生成軌跡時,可能會產(chǎn)生高度相似、甚至完全重疊的軌跡分布,導(dǎo)致模式崩潰,使得生成的軌跡多樣性不足,難以覆蓋真實世界中的駕駛決策空間。

為了解決這些問題,我們提出截斷擴散策略,通過結(jié)合多模態(tài)錨點先驗,優(yōu)化擴散模型的初始化和去噪過程,使其能夠從更合理的軌跡分布出發(fā),而非從完全隨機的高斯噪聲開始。具體而言,我們首先在訓(xùn)練數(shù)據(jù)中對駕駛軌跡進行聚類,得到一組代表性的錨點軌跡 (Anchor Trajectories) ,這些錨點能夠較好地覆蓋不同駕駛場景下的典型軌跡模式。在訓(xùn)練時,我們不再讓模型從純隨機高斯分布中學(xué)習(xí)去噪,而是在錨點軌跡的基礎(chǔ)上添加少量噪聲,形成一個更具物理合理性的初始分布。相比于傳統(tǒng)擴散模型直接從隨機噪聲學(xué)習(xí)駕駛行為,這種方式大幅減少了去噪步驟的需求,讓模型可以從更接近真實駕駛行為的軌跡分布中進行優(yōu)化。

在推理階段,我們直接從這些錨定的軌跡分布中采樣,而不是從完全隨機的高斯噪聲開始,并大幅縮短去噪過程,僅需2輪去噪步驟即可生成高質(zhì)量的駕駛軌跡,相比傳統(tǒng)擴散策略加速10倍。此外,為了進一步提升軌跡的合理性,我們在去噪過程中引入了置信度評分機制 (Confidence Scoring Mechanism) ,通過對去噪后的軌跡進行動態(tài)評分,篩選出最符合物理約束和場景要求的軌跡。這種評分機制可以有效過濾掉異常或重疊的軌跡,避免模式崩潰問題,使最終生成的軌跡既具備多樣性,又保持合理性。

6eefe7b2-fb3d-11ef-9310-92fbcf53809c.png

此外,我們設(shè)計了一種級聯(lián)擴散解碼器,提升模型在去噪過程中的場景感知能力。傳統(tǒng)擴散模型通常采用單步解碼,即直接在每一步去噪后輸出軌跡,而我們的級聯(lián)擴散解碼器允許模型在每個去噪步驟中與環(huán)境感知信息進行多輪交互,通過層層遞進的方式優(yōu)化軌跡質(zhì)量。這種級聯(lián)機制結(jié)合了稀疏可變形注意力 (Sparse Deformable Attention) ,使得模型能夠高效地從鳥瞰視角 (BEV) 和透視視角 (PV) 提取關(guān)鍵信息,提升軌跡生成的穩(wěn)定性和魯棒性。

綜上,我們的截斷擴散策略不僅保留了擴散模型在多模態(tài)軌跡建模上的強大能力,還通過錨點先驗和去噪優(yōu)化,顯著提升了推理效率,并通過置信度評分和級聯(lián)解碼器,有效解決了模式崩潰問題,最終使得生成的駕駛軌跡更加貼近真實駕駛行為,使其更適用于實時自動駕駛系統(tǒng)。

實驗驗證

我們選擇采用更加嚴格的閉環(huán)評測方式,針對駕駛決策的數(shù)據(jù)集NAVSIM,來驗證我們的設(shè)計:

6f029a1a-fb3d-11ef-9310-92fbcf53809c.png

可以看到DiffusionDrive大幅領(lǐng)先之前所有的端到端方案,僅僅通過學(xué)習(xí)人類駕駛行為,不引入額外監(jiān)督與后處理,我們超過了之前的冠軍方案Hydra-MDP。

EP指標的明顯優(yōu)勢更是凸顯了DiffusionDrive方法的魯棒性。因為EP指標用于評測planning的完成度以及對干擾的魯棒性,而DiffusionDrive在這一指標上具有十分突出的優(yōu)勢。

6f1498fa-fb3d-11ef-9310-92fbcf53809c.png

在消融實驗中,顯示我們提出的截斷式擴散策略和設(shè)計的Diffusion Decoder相比于傳統(tǒng)擴散策略能夠帶來更高的planning質(zhì)量 (PDMS) ,更高的planning多模態(tài)特性 (D) ,更快的速度 (FPS) 。

可視化驗證

我們將模型在驗證集上推理得到的多模態(tài)軌跡可視化出來:

6f1ee878-fb3d-11ef-9310-92fbcf53809c.png

如上圖所示,我們不僅能夠輸出保守的跟車,也能夠輸出合理換道超車的行為。

6f48c30a-fb3d-11ef-9310-92fbcf53809c.png

上圖也是進一步驗證DiffusionDrive魯棒的多模態(tài)特性,輸出多樣化的planning軌跡能夠進一步與環(huán)境交互,避免碰撞。

6f6176d4-fb3d-11ef-9310-92fbcf53809c.png

上圖顯示DiffusionDrive還能和紅綠燈交互,所以在除了跟車行為之外的換道行為時,選擇停在停止線上,而模型在訓(xùn)練中并沒有紅綠燈的標注,通過提出的范式,使得模型學(xué)習(xí)到了潛在的駕駛底層邏輯。

業(yè)務(wù)驗證

DiffusionDrive也在業(yè)務(wù)數(shù)據(jù)集上進行了規(guī)模化驗證。下面是實車測試的視頻

總結(jié)

我們提出DiffusionDrive,一種基于擴散模型的端到端自動駕駛方法,以截斷擴散策略解決傳統(tǒng)擴散方法的高計算成本和模式崩潰問題。通過引入多模態(tài)錨點先驗,我們將去噪過程從錨定的高斯分布開始,而非從純隨機噪聲進行迭代,大幅減少計算量,僅需2步即可生成高質(zhì)量軌跡,相較于傳統(tǒng)擴散策略推理加速10倍。此外,我們設(shè)計了級聯(lián)擴散解碼器,結(jié)合場景感知信息逐步優(yōu)化軌跡,提升軌跡預(yù)測的多樣性和準確性。

實驗表明,DiffusionDrive在NAVSIM和nuScenes數(shù)據(jù)集上均取得最優(yōu)表現(xiàn),顯著提升了規(guī)劃質(zhì)量、軌跡多樣性和計算效率。相比現(xiàn)有SOTA方法,DiffusionDrive在保證實時性的同時,提高了20.8%軌跡精度,降低63.6%碰撞率。此外,我們更是在真實場景中驗證了DiffusionDrive的有效性。

本研究首次將截斷擴散策略引入端到端自動駕駛,突破了擴散模型計算開銷大、模式崩潰的瓶頸,為實時高效的多模態(tài)駕駛決策提供了一種全新范式。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1163

    瀏覽量

    41672
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29446

    瀏覽量

    211399
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3480

    瀏覽量

    49947
  • 自動駕駛
    +關(guān)注

    關(guān)注

    788

    文章

    14182

    瀏覽量

    169364

原文標題:CVPR 2025|DiffusionDrive: 邁向生成式多模態(tài)端到端自動駕駛

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛基于規(guī)則的決策和模型有何區(qū)別?

    自動駕駛架構(gòu)的選擇上,也經(jīng)歷了從感知、決策控制、執(zhí)行的三段式架構(gòu)到現(xiàn)在火熱的模型,尤其
    的頭像 發(fā)表于 04-13 09:38 ?2724次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中</b>基于規(guī)則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何區(qū)別?

    FPGA自動駕駛領(lǐng)域有哪些應(yīng)用?

    是FPGA自動駕駛領(lǐng)域的主要應(yīng)用: 一、感知算法加速 圖像處理:自動駕駛需要通過攝像頭獲取并識別道路信息和行駛環(huán)境,這涉及大量的圖像處
    發(fā)表于 07-29 17:09

    自動駕駛真的會來嗎?

    自動駕駛原理示意GIF圖  特斯拉自動駕駛死亡事故給全世界帶來了極大的震驚,但這并不意味著基于壞消息之上的關(guān)注全然沒有正面意義。  接受新浪科技采訪,多位硅谷相關(guān)人士告訴新浪科技:
    發(fā)表于 07-21 09:00

    駕駛模型的發(fā)展歷程

    尋找駕駛模型的最早嘗試,至少可以追溯1989年的ALVINN
    的頭像 發(fā)表于 03-28 15:26 ?5088次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>駕駛</b><b class='flag-5'>模型</b>的發(fā)展歷程

    如何基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計一個自動駕駛模型

    如何基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計一個自動駕駛模型?如何設(shè)計一個基于增強學(xué)習(xí)的自動駕駛決策系統(tǒng)?
    的頭像 發(fā)表于 04-29 16:44 ?5189次閱讀
    如何基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計一個<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的<b class='flag-5'>自動駕駛</b><b class='flag-5'>模型</b>?

    自動駕駛到底是什么?

    UniAD 統(tǒng)一自動駕駛關(guān)鍵任務(wù),但是的訓(xùn)練難度極大,對數(shù)據(jù)的要求和工程能力的要求比常規(guī)的技術(shù)棧要高,但是由此帶來的全局一致性讓整個系統(tǒng)變得更加簡潔,也能夠防止某個模塊進入局部最
    發(fā)表于 06-28 14:47 ?4202次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>到底是什么?

    理想汽車自動駕駛模型實現(xiàn)

    理想汽車感知、跟蹤、預(yù)測、決策和規(guī)劃等方面都進行了模型化,最終實現(xiàn)了模型。這種
    發(fā)表于 04-12 12:17 ?655次閱讀
    理想汽車<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>實現(xiàn)

    理想汽車加速自動駕駛布局,成立“”實體組織

    近期,理想汽車在其智能駕駛領(lǐng)域邁出了重要一步,正式成立了專注于“自動駕駛”的實體組織,該組織規(guī)模超過200人,標志著理想在
    的頭像 發(fā)表于 07-17 15:42 ?1545次閱讀

    實現(xiàn)自動駕駛,唯有

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?1263次閱讀
    實現(xiàn)<b class='flag-5'>自動駕駛</b>,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    Mobileye自動駕駛解決方案的深度解析

    自動駕駛技術(shù)正處于快速發(fā)展之中,各大科技公司和汽車制造商均在爭相布局,試圖在這個新興領(lǐng)域占據(jù)一席之地。Mobileye作為全球自動駕駛技術(shù)的領(lǐng)軍企業(yè)之一,憑借其獨特的
    的頭像 發(fā)表于 10-17 09:35 ?749次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>解決方案的深度解析

    Waymo利用谷歌Gemini大模型,研發(fā)端自動駕駛系統(tǒng)

    邁新步,為其機器人出租車業(yè)務(wù)引入了一種基于谷歌多模態(tài)大語言模型(MLLM)“Gemini”的全新訓(xùn)練模型——“
    的頭像 發(fā)表于 10-31 16:55 ?1545次閱讀

    連接視覺語言大模型自動駕駛

    自動駕駛大規(guī)模駕駛數(shù)據(jù)上訓(xùn)練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復(fù)雜罕見的
    的頭像 發(fā)表于 11-07 15:15 ?608次閱讀
    連接視覺語言大<b class='flag-5'>模型</b>與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>

    自動泊車的應(yīng)用

    與城市環(huán)境的復(fù)雜性和高速公路駕駛的風(fēng)險相比,停車場景的特點是低速、空間有限和高可控性。這些特點為在車輛逐步部署
    的頭像 發(fā)表于 12-18 11:38 ?818次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>在</b><b class='flag-5'>自動</b>泊車的應(yīng)用

    自動駕駛技術(shù)研究與分析

    編者語:「智駕最前沿」微信公眾號后臺回復(fù):C-0450,獲取本文參考報告:《自動駕駛行業(yè)研究報告》pdf下載方式。 自動駕駛進入202
    的頭像 發(fā)表于 12-19 13:07 ?757次閱讀

    一文帶你厘清自動駕駛架構(gòu)差異

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)
    的頭像 發(fā)表于 05-08 09:07 ?149次閱讀
    一文帶你厘清<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異