女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

詳解RAD端到端強化學習后訓練范式

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-02-25 14:06 ? 次閱讀

RAD

端到端智駕強化學習后訓練范式

受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。當下主流的端到端智駕模型采用模仿學習訓練范式,即從大量的人類駕駛數據中擬合類人的駕駛策略。與大語言模型預訓練范式相對應,模仿學習的 scaling law 也將觸及瓶頸,其上限是人類的駕駛水平,難以實現遠超人類的高階自動駕駛。此外,模仿學習天然存在因果混淆和開環閉環差異性兩方面的局限性,其下限(安全性和穩定性)也難以保證。

我們提出端到端強化學習后訓練范式 RAD(ReinforcedAutonomous Driving),基于 3DGS 技術構建真實物理世界的孿生數字世界,讓端到端模型在數字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環境交互并獲得反饋,基于安全性相關的獎勵函數,通過強化學習微調引導模型建模物理世界的因果關系。強化學習和模仿學習天然地互補,在模仿學習scalinglaw 的基礎上,強化學習scaling law 將進一步拓展端到端智駕模型的能力邊界。

項目主頁:https://hgao-cv.github.io/RAD 論文地址:https://arxiv.org/pdf/2502.13144

概述

受限于算力和數據,大語言模型預訓練的scaling law已經趨近于極限。DeepSeek R1 / OpenAI o1 通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。當下主流的端到端智駕模型采用模仿學習訓練范式,即從大量的人類駕駛數據中擬合類人的駕駛策略。與大語言模型預訓練范式相對應,模仿學習的scaling law也將觸及瓶頸,其上限是人類的駕駛水平,難以實現遠超人類的高階自動駕駛。此外,模仿學習天然存在因果混淆和開環閉環差異性兩方面的局限性,其下限(安全性和穩定性)也難以保證。我們提出端到端強化學習后訓練范式RAD(Reinforced Autonomous Driving),基于3DGS技術構建真實物理世界的孿生數字世界,讓端到端模型在數字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環境交互并獲得反饋,基于安全性相關的獎勵函數,通過強化學習微調引導模型建模物理世界的因果關系。強化學習和模仿學習天然地互補,在模仿學習scaling law的基礎上,強化學習scaling law將進一步拓展端到端智駕模型的能力邊界。

模仿學習的局限性:因果混淆與開環閉環差異

2fefd110-f298-11ef-9310-92fbcf53809c.png

因果混淆(causal confusion)是模仿學習訓練范式的一大痛點。模仿學習的本質是使神經網絡模仿人類駕駛員的駕駛策略,其優化目標是最小化預測軌跡與專家軌跡之間的差異。模仿學習建模的是環境信息和規劃軌跡之間的相關性而非因果關系,容易造成因果混淆的問題。特別是對于端到端自動駕駛而言,輸入的環境信息尤為豐富,很難從高維度信息中找出導致規劃結果的真實原因,容易導致捷徑學習(shortcut learning),例如,從歷史軌跡外推未來軌跡。此外,由于訓練集主要由常見的駕駛行為主導,在僅使用模仿學習訓練的情況下,導致對駕駛的安全性不夠敏感。

另外,開環訓練和閉環部署之間的差距,也是模仿學習訓練范式難以忽視的問題。模仿學習是基于良好的分布內駕駛數據以開環方式進行訓練,但真實世界的駕駛系統是一個閉環系統,開環與閉環間存在極大的差異。在閉環中,單步的微小軌跡誤差會隨時間累積,導致駕駛系統進入一個偏離訓練集分布的場景。僅經過開環訓練的駕駛策略在面對訓練集分布外的場景時往往會失效。

RAD訓練范式

RAD基于3DGS技術構建真實物理世界的孿生數字世界,讓端到端模型在數字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環境交互并獲得反饋,充分地探索狀態空間,學習應對各種復雜和罕見的分布外場景,基于安全性相關的獎勵函數,通過強化學習微調讓模型對安全性保持敏感,并建模物理世界的因果關系。

(1)三階段訓練架構

336f7f66-f298-11ef-9310-92fbcf53809c.png

RAD 采用三階段訓練范式。在感知預訓練階段,通過監督學習的方式,訓練模型識別駕駛場景的關鍵元素,建立對周圍環境的準確認知;規劃預訓練階段,利用大規模的真實世界駕駛示范數據,通過模仿學習來初始化動作的概率分布,避免強化學習訓練的冷啟動問題;在強化后訓練階段,強化學習和模仿學習協同對策略進行微調。強化學習主要負責引導策略建模物理世界的因果關系和適應分布外的場景;模仿學習作為正則,約束與人類駕駛行為相似性。

337cd9ae-f298-11ef-9310-92fbcf53809c.png

(2)安全導向的獎勵函數設計

為了確保自動駕駛汽車在行駛過程中的安全性,RAD 設計了專門的獎勵機制。這個機制主要關注四個方面:碰撞動態障礙物、碰撞靜態障礙物、與專家軌跡的位置偏差和航向偏差。一旦出現不安全的駕駛行為,比如碰撞或者偏離專家軌跡,就會觸發相應的懲罰獎勵。通過這種方式,引導策略有效地應對關鍵安全事件,讓自動駕駛汽車在訓練過程中逐漸學會如何避免危險,更好地理解現實世界中的因果關系。

(3)策略優化與輔助目標設計

為了提高訓練效率和效果,RAD將動作解耦為橫向動作和縱向動作,在 0.5 秒的短時間范圍內構建動作空間,有效降低了動作空間的維度,加快了訓練的收斂速度。此外,在策略優化方面,RAD 使用廣義優勢估計(GAE)來傳播獎勵,優化前面步驟的動作分布。考慮到動作空間的解耦,將獎勵和價值函數也進行解耦,分別計算橫向和縱向的優勢估計,并根據近端策略優化(PPO)來微調策略。

同時,針對強化學習中常見的稀疏獎勵問題,RAD 引入了輔助目標。這些輔助目標基于動態碰撞、靜態碰撞、位置偏差和航向偏差等多種獎勵源設計,能夠對舊策略選擇的動作進行評估,并通過調整動作概率分布來懲罰不良行為。例如,當前方存在潛在碰撞風險時,系統會降低加速動作的概率,并提升減速或制動的概率;當車輛偏離預定軌跡向左偏移時,則增加向右修正方向的動作概率,以減少軌跡偏差。通過這種方式,RAD 為整個動作分布提供密集的指導信息,確保策略能夠更快學會安全合理的駕駛行為,從而加速訓練的收斂。

閉環驗證

RAD 通過基于大規模 3DGS 的強化學習訓練,學習到了更有效的駕駛策略。在相同的閉環評估基準測試中,RAD 的碰撞率相較于傳統的模仿學習策略降低了 3 倍。這一結果表明,RAD 能在復雜的交通狀況下有效避免與動靜態障礙物的碰撞,做出更加安全、合理的決策。例如,在遇到突然闖入道路的行人或車輛時,RAD 能夠迅速做出準確反應,及時調整車速和行駛方向,避免碰撞事故的發生,而模仿學習策略則可能難以應對這種突發情況。 我們提供了一系列典型場景的閉環結果,以直觀展示 RAD 與模仿學習策略在實際駕駛場景中的關鍵差異:

場景1:繞行;右轉

場景2:U形掉頭

場景3:跟車蠕行

場景4:無保護左轉

場景5:擁擠路口通行

場景6:無保護左轉

場景7:繞行;窄道通行

場景8:無保護左轉

場景9:跟車行駛

后續工作

RAD作為創新的端到端自動駕駛后訓練范式,具有廣闊的應用前景和潛力。目前RAD仍存在一些局限性。例如,其他交通參與者的行為是基于場景回放,缺乏交互性的響應;在非剛性物體的渲染、欠觀測視角和低光照場景等方面,3DGS的效果還有提升的空間。在后續工作中,我們將進一步提升3DGS孿生數字世界的真實性和交互性,并繼續探索強化學習scaling law的上限。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3485

    瀏覽量

    49987
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11515
  • 地平線
    +關注

    關注

    0

    文章

    391

    瀏覽量

    15403
  • 算力
    +關注

    關注

    2

    文章

    1142

    瀏覽量

    15444

原文標題:開發者說|RAD:基于3DGS孿生數字世界的端到端強化學習后訓練范式

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰性的問題,從低級的運動控制(如:步行、跑步、打網球)高級的認知任務。
    發表于 07-01 10:29 ?1808次閱讀
    什么是深度<b class='flag-5'>強化學習</b>?深度<b class='flag-5'>強化學習</b>算法應用分析

    反向強化學習的思路

    強化學習的另一種策略(二)
    發表于 04-03 12:10

    深度強化學習實戰

    內容2:課程一: TensoRFlow入門熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識別:課程五:算法實現:1、卷積神經網絡CNN2、循環神經網絡RNN3、強化學習DRL4、對抗性生成
    發表于 01-10 13:42

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發表于 06-29 18:36 ?2.8w次閱讀

    人工智能機器學習強化學習

    強化學習是智能系統從環境行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接主義學習
    發表于 05-30 06:53 ?1517次閱讀

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉多個智能體之間的交互。
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    如何構建強化學習模型來訓練無人車算法

    本文作者通過簡單的方式構建了強化學習模型來訓練無人車算法,可以為初學者提供快速入門的經驗。
    的頭像 發表于 11-12 14:47 ?5077次閱讀

    研究人員開源RAD以改進及強化智能學習算法

    加州大學伯克利分校的一組研究人員本周開放了使用增強數據進行強化學習(RAD)的資源。
    發表于 05-11 23:09 ?1494次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習
    發表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無模型<b class='flag-5'>強化學習</b>算法及研究綜述

    模型化深度強化學習應用研究綜述

    深度強化學習(DRL)作為機器學習的重要分攴,在 Alphago擊敗人類受到了廣泛關注。DRL以種試錯機制與環境進行交互,并通過最大化累積獎賞最終得到最優策略。強化學習可分為無模型
    發表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強化學習</b>應用研究綜述

    基于強化學習的虛擬場景角色乒乓球訓練

    基于強化學習的虛擬場景角色乒乓球訓練
    發表于 06-27 11:34 ?62次下載

    《自動化學報》—多Agent深度強化學習綜述

    突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力,深度強化學習已經成為實現人工智能頗有前景的學習范式.然而,深度
    發表于 01-18 10:08 ?1862次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent深度<b class='flag-5'>強化學習</b>綜述

    ICLR 2023 Spotlight|節省95%訓練開銷,清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2

    大模型時代,模型壓縮和加速顯得尤為重要。傳統監督學習可通過稀疏神經網絡實現模型壓縮和加速,那么同樣需要大量計算開銷的強化學習任務可以基于稀疏網絡進行訓練嗎?本文提出了一種強化學習專用稀
    的頭像 發表于 06-11 21:40 ?893次閱讀
    ICLR 2023 Spotlight|節省95%<b class='flag-5'>訓練</b>開銷,清華黃隆波團隊提出<b class='flag-5'>強化學習</b>專用稀疏<b class='flag-5'>訓練</b>框架RLx2

    什么是強化學習

    強化學習是機器學習的方式之一,它與監督學習、無監督學習并列,是三種機器學習訓練方法之一。 在圍棋
    的頭像 發表于 10-30 11:36 ?4695次閱讀
    什么是<b class='flag-5'>強化學習</b>

    InfiniBand網絡解決LLM訓練瓶頸

    的,這需要大量的計算資源和高速數據傳輸網絡。InfiniBand(IB)網絡作為高性能計算和AI模型訓練的理想選擇,發揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)
    的頭像 發表于 10-23 11:26 ?1097次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網絡解決LLM<b class='flag-5'>訓練</b>瓶頸