在线精品视频福利,黄色在线免费观看av,看黄色电影的网站H

隨著GPT大語言模型的成功，越來越多的工作嘗試使用類GPT架構(gòu)的離散模型來表征駕駛場景中的交通參與者行為，從而生成多智能體仿真。這些方法展現(xiàn)出明顯的性能優(yōu)勢，成為Waymo OpenSim Agents Challenge(WOSAC)中主流的領先方法。

在本文中，我們將GPT-Like離散模型視為采取了特定配置的混合模型(MixtureModel)，嘗試探究目前主流的GPT-Like方法性能優(yōu)勢的來源。在統(tǒng)一的混合模型框架(Unified Mixture Model，UniMM)下，我們從模型和數(shù)據(jù)兩個方面的配置展開研究發(fā)現(xiàn)：GPT-Like離散模型實際上采用了由Tokenization自然引l入的閉環(huán)樣本，這是其性能優(yōu)勢的關鍵。

基于上述發(fā)現(xiàn)，我們嘗試將閉環(huán)樣本應用于更廣泛的混合模型，進一步觀察到并解決了相關的ShortcutLearning和Of-PolicyLearning問題。最終，UniMM框架下的各種變體均在WaymoOpenSim AgentsChallenge(WOSAC)展現(xiàn)了SOTA性能。

? 原文鏈接：

https://arxiv.org/abs/2501.17015

? 項目主頁：

https://longzhong-lin.github.io/unimm-webpage

?代碼倉庫：

https://github.com/Longzhong-Lin/UniMM

多智能體仿真

仿真 (Simulation)是評估自動駕駛系統(tǒng)的重要途徑，生成真實的多智能體 (Multi-Agent) 行為是其中的關鍵。近年來，許多工作采用數(shù)據(jù)驅(qū)動的方法，從真實世界駕駛數(shù)據(jù)集中學習行為模型 (Behavior Model) 來模仿人類交通參與者。要實現(xiàn)真實的多智能體仿真，主要挑戰(zhàn)在于捕捉智能體行為的多模態(tài)性 (Multimodality)和解決模型閉環(huán)運行的分布偏移 (Distributional Shifts)問題。

圖表1 多智能體仿真

智能體行為的多模態(tài)性在運動預測 (Motion Prediction) 領域得到廣泛研究，其中主流方法采用的是混合模型 (Mixture Model)。由于任務的相似性，不少仿真領域的工作也采用類似的連續(xù)混合模型 (Continuous Mixture Model) 來表征智能體行為。最近，受大語言模型的啟發(fā)，越來越多的研究開始嘗試GPT架構(gòu)的離散模型 (GPT-Like Discrete Model) ，將智能體的軌跡離散化為運動Token并進行NTP (Next-Token Prediction) 訓練，在仿真領域展現(xiàn)出了超越連續(xù)混合模型的性能優(yōu)勢。

為了緩解模型閉環(huán)運行的分布偏移，時間序列建模領域的DaD方法繼承在線學習算法DAgger的理論保證，將訓練樣本中的真值輸入替換為自回歸模型預測，不過該方法只討論了單模態(tài) (Unimodal) 模型。TrafficSim將類似方法應用在CVAE行為模型，迭代地將真值軌跡替換為后驗 (Posterior) 預測，從而生成閉環(huán)樣本 (Closed-Loop Sample)。

圖表2 UniMM研究概述

統(tǒng)一混合模型框架

我們注意到，GPT-Like離散模型本質(zhì)上是一種混合模型，其中每個混合組分 (Mixture Component) 代表一個離散類別，而運動Token則是各組分對應的錨點 (Anchor) 。因此，本文建立統(tǒng)一的混合模型框架 (Unified Mixture Model, UniMM)，并從模型和數(shù)據(jù)兩個方面展開研究，探索GPT-Like方法優(yōu)勢的根源，并嘗試推廣到更一般的混合模型中。

圖表3 WOSAC領先方法（可視為混合模型）的配置和指標

模型配置

模型方面，我們關注的配置包括：

正組分匹配 (Positive Component Matching) ：主流范式為無錨點 (Anchor-Free) 和基于錨點 (Anchor-Based) 匹配。

連續(xù)回歸 (Continuous Regression) ：若Anchor-Based模型將錨點直接作為對應混合組分的預測軌跡，則無需連續(xù)回歸。

預測時長 (Prediction Horizon) ：模型預測軌跡的長度。

混合組分數(shù)量 (Number of Components) ：混合模型中混合組分的數(shù)量。

其中，GPT-Like離散模型采用Anchor-Based正組分匹配且不具備連續(xù)回歸，通常使用大量混合組分且預測時長較短。后面的實驗表明：模型配置的差別并不能完全解釋連續(xù)混合模型和GPT-Like離散模型之間的性能差距。采用與GPT-Like方法完全不同的模型配置，也可以達到同樣優(yōu)秀的仿真性能。

圖表4 主流的正組分匹配范式

數(shù)據(jù)配置

數(shù)據(jù)方面，我們借鑒DaD和TrafficSim的設計理念，提出了適用于一般混合模型的閉環(huán)樣本生成方法。具體地，我們基于原始開環(huán)樣本自回歸地運行模型，將樣本中的真值輸入狀態(tài)替換為與之匹配的后驗模型預測（我們稱之為后驗規(guī)劃）。生成的閉環(huán)樣本在盡量接近真值的同時，將模型預測引入到樣本輸入中，使訓練期間模型見到的狀態(tài)更接近在閉環(huán)仿真中遇到的狀態(tài)，從而緩解分布偏移。

圖表5 閉環(huán)樣本生成

對于GPT-Like離散模型，我們證明：上述閉環(huán)樣本生成方法等價于采用滾動匹配 (Rolling Matching) 的智能體運動Tokenization。后面的實驗表明：使用閉環(huán)樣本進行訓練是生成逼真多智能體行為的關鍵。進一步地，為了讓閉環(huán)樣本能夠惠及更廣泛的混合模型，我們識別并解決了Shortcut Learning和Off-Policy Learning問題。

實驗

網(wǎng)絡架構(gòu)

實驗中使用的網(wǎng)絡架構(gòu)包含場景編碼器 (Context Encoder) 和運動解碼器 (Motion Decoder) 。場景編碼器能夠并行處理多智能體在多個時間上的信息；運動解碼器生成特定智能體從指定時間開始的多模態(tài)未來軌跡。特別地，對于帶連續(xù)回歸的Anchor-Based模型，我們的解碼器先對錨點打分、再生成所選取組分對應的軌跡，使得其能夠像離散模型一樣高效地增加混合組分的數(shù)量。

圖表6 混合模型網(wǎng)絡結(jié)構(gòu)

采用開環(huán)樣本訓練

我們首先探索不同預測時長和混合組分數(shù)量下的Anchor-Free和Anchor-Based模型。在這里，我們采用開環(huán)樣本訓練來保證數(shù)據(jù)的一致性，從而更好地體現(xiàn)上述模型配置的影響。

圖表7 采用開環(huán)樣本訓練

預測時長：

更大的預測時長 (Prediction Horizon) 帶來的額外監(jiān)督信號是有效的。

過大的預測時長使模型更關注于遠期預測的優(yōu)化，由于仿真僅會利用模型預測的前面一小段，所以這并不利于提升仿真的效果。

圖表8 不同預測時長的WOSAC指標

混合組分數(shù)量：

增加混合組分的數(shù)量確實能夠提升模型對復雜分布的表征能力。

較多數(shù)量的混合組分可能會阻礙Anchor-Free模型挑選出合理軌跡，從而影響其在仿真中的表現(xiàn)。

Anchor-Based模型持續(xù)受益于混合組分數(shù)量的增長。

圖表9 不同混合組分數(shù)量下的最優(yōu)WOSAC指標

采用閉環(huán)樣本訓練

接下來展開對數(shù)據(jù)配置的研究，我們從開環(huán)樣本實驗中表現(xiàn)最佳的模型配置出發(fā)，從而凸顯閉環(huán)樣本的作用。

圖表10 采用閉環(huán)樣本訓練

Shortcut Learning問題：

生成閉環(huán)樣本時，若后驗策略的規(guī)劃時長 (Posterior Planning Horizon) 超過其重規(guī)劃間隔，模型會學習到捷徑，損害時空交互推理能力。

Off-Policy Learning問題：

若訓練策略的正組分匹配時長 (Positive Matching Horizon) 和樣本生成策略的后驗規(guī)劃時長 (Posterior Planning Horizon) 不一致，則其導致的Off-Policy Learning問題會阻礙閉環(huán)樣本發(fā)揮作用。

對于Anchor-Free模型，Off-Policy Learning問題的影響沒那么嚴重，這可能是因為它們的性能更依賴于各混合組分的靈活預測，而不是對混合組分的挑選。

對齊訓練策略和樣本生成策略的組分選擇Horizon可以有效緩解Off-Policy Learning問題，特別是對于十分依賴其混合組分選擇的Anchor-Based模型。

圖表11 近似后驗策略（左）和連續(xù)回歸（右）

近似后驗策略：

我們?yōu)锳nchor-Based模型設計了近似后驗策略，將后驗組分對應的錨點直接作為執(zhí)行規(guī)劃，可以在顯著減少訓練時間的同時，達到相當?shù)姆抡嫘阅堋?/p>

連續(xù)回歸：

主流離散模型成功的關鍵在于閉環(huán)樣本的使用。

連續(xù)回歸 (Continuous Regression) 帶來的靈活性對于模型性能是有增益的，同時其并不需要顯著增加計算開銷。

Benchmark結(jié)果

基于上述探索，我們提交了UniMM框架下的各種變體（包括離散和連續(xù)、Anchor-Free和Anchor-Based），均在Waymo Open Sim Agents Challenge (WOSAC)中展現(xiàn)了SOTA性能。由此證明了：

模型配置的差別并不能完全解釋之前的連續(xù)混合模型和GPT-Like離散模型之間的性能差距。

仿真性能的關鍵在于閉環(huán)樣本的使用，采用與主流離散方法不同的模型配置也能生成逼真的行為。

通過解決Shortcut Learning和Off-Policy Learning問題，閉環(huán)樣本能夠使廣泛的混合模型受益，尤其是具有更大預測時長的模型。

總結(jié)與展望

本研究首先建立了多智能體仿真的統(tǒng)一混合模型框架，并針對該框架下的模型配置（正組分匹配、連續(xù)回歸、預測時長、混合組分數(shù)量）和數(shù)據(jù)配置（閉環(huán)樣本生成方法）進行深入的分析與實驗。我們通過最優(yōu)的網(wǎng)絡結(jié)構(gòu)設計、參數(shù)配置和訓練方式得到的模型僅需4M參數(shù)量的情況下，在Waymo Open Sim Agents Challenge達到了SOTA的性能?；谝陨隙嘀悄荏w仿真的模型優(yōu)化分析和實驗結(jié)論，我們今后會進一步去探索自動駕駛的運動規(guī)劃問題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

仿真

仿真

+關注

關注
52

文章
4283

瀏覽量
135786
模型

模型

+關注

關注
1

文章
3517

瀏覽量
50398
混合模型

混合模型

+關注

關注
0

文章
6

瀏覽量
6501
多智能體

多智能體

+關注

關注
0

文章
7

瀏覽量
6280

原文標題：開發(fā)者說 | UniMM：重新審視多智能體仿真中的混合模型

文章出處：【微信號：horizonrobotics，微信公眾號：地平線HorizonRobotics】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

多智能體仿真中的統(tǒng)一混合模型框架研究

評論