這篇文章最初發表在加州大學伯克利分校的BAIR博客(https://bair.berkeley.edu/blog/)上。
看上面的圖片。如果我讓你給我帶一條野餐毯到草地上,你能做到嗎?當然了。那如果我讓你帶一輛裝滿食物的車來參加聚會,你會把車推到鋪好的小路上還是推到草地上?當然是鋪好的路啦。
雖然這些問題的答案似乎顯而易見,但今天的移動機器人很可能會在這些任務上失敗:他們會認為高高的草地就像水泥墻,不知道平坦的道路和崎嶇的草地有什么區別。這是因為大多數移動機器人純粹是從幾何學的角度來思考:它們探測障礙物的位置,并圍繞這些感知到的障礙物規劃路徑,以達到目標。這種純粹的幾何世界觀不足以解決許多導航問題 -- 光是幾何學是不夠的。
Photo: UC BerkeleyBADGR consists of a Clearpath Jackal mobile platform equipped with an NVIDIA Jetson TX2 computer, IMU, GPS, and wheel encoders. Forward-facing cameras, a 2D lidar, and a compass were added to the standard configuration.
我們能讓機器人直接從圖像中推理出導航信號嗎?為了探索這個問題,我們開發了一種機器人,它可以通過自己在現實世界中的經驗,自主地學習環境的物理屬性,而無需任何模擬或人類的監督。我們稱我們的機器人學習系統為BADGR:伯克利自主駕駛地面機器人(the Berkeley Autonomous Driving Ground Robot)。
BADGR通過以下方式工作:
1. 自主采集數據
2. 自動標注數據并進行自我監控
3. 基于圖像的神經網絡預測模型的訓練
4. 利用預測模型對未來進行規劃并執行將引導機器人完成所需導航任務的操作
數據收集
Image: UC BerkeleyBADGR autonomously collecting data in off-road (left) and urban (right) environments.
BADGR需要大量多樣的數據才能成功地學習如何導航。機器人使用簡單的時間相關隨機行走控制器收集數據。當機器人收集數據時,如果遇到碰撞或卡住,它會執行一個簡單的重置控制器,然后繼續收集數據。
自監督數據標記
接下來,BADGR利用數據計算特定導航事件的標簽,例如機器人的位置,以及機器人是否碰撞或在崎嶇不平的地形上行駛,然后將這些事件標簽添加回數據集中。這些事件通過讓人編寫一小段代碼來標記,這些代碼將原始傳感器數據映射到相應的標簽。例如,用于確定機器人是否在顛簸地形上的代碼片段將查看IMU傳感器,并在角速度幅值較大時將地形標記為顛簸。
我們將這種標記機制描述為自我監督形式,因為盡管一個人必須手動編寫此代碼段,但可以使用此代碼段標記所有現有和將來的數據,而無需任何額外的人工操作。
神經網絡預測模型
Image: UC BerkeleyThe neural network predictive model at the core of BADGR.
然后BADGR利用這些數據訓練一個深層神經網絡預測模型。該神經網絡將當前攝像機圖像和未來計劃的動作序列作為輸入,并輸出對未來相關事件(如機器人是否會碰撞或在崎嶇不平的地形上行駛)的預測。訓練神經網絡預測模型以盡可能準確地預測這些未來事件。
規劃和導航
Image: UC BerkeleyBADGR predicting which actions lead to bumpy terrain (left) or collisions (right).
在部署BADGR時,用戶首先定義一個獎勵函數,該函數對他們希望機器人完成的特定任務進行編碼。例如,獎勵功能可以鼓勵朝目標駕駛,同時阻止碰撞或在崎嶇不平的地形上駕駛。然后,BADGR使用經過訓練的預測模型、當前圖像觀察和獎勵函數來計劃使獎勵最大化的一系列動作。機器人執行這個計劃中的第一個動作,BADGR繼續在計劃和執行之間交替,直到任務完成。
在我們的實驗中,我們研究了BADGR如何在加州大學伯克利分校(UC Berkeley)附近的一個大型場外設施中了解環境的物理屬性。我們將該方法與使用激光雷達規劃無碰撞路徑的基于幾何體的策略進行了比較。(請注意,BADGR僅使用車載攝像頭。)
Image: UC BerkeleyBADGR successfully reaches the goal while avoiding collisions and bumpy terrain, while the geometry-based policy is unable to avoid bumpy terrain.
我們首先考慮的任務是,城市環境中,在避免碰撞和崎嶇地形的同時,達到目標GPS位置。BADGR總是成功完成任務,且避免顛簸的地形。注意,我們從未告訴過機器人在道路上行駛;BADGR從車載攝像機圖像中自動得知,在具體的道路上行駛比在草地上行駛更加平滑。
Image: UC BerkeleyBADGR successfully reaches the goal while avoiding collisions, while the geometry-based policy is unable to make progress because it falsely believes the grass is an untraversable obstacle.
?我們還考慮了在避免碰撞和被困在越野環境中的同時達到目標GPS位置的任務。基于幾何學的方法幾乎從未發生崩潰或陷入草地,但有時會出現拒絕移動的情況 -- 因為它被草地包圍后,它錯誤將草地地標記為不可規避的障礙。
BADGR幾乎總是通過避免碰撞和卡住來達到目標,而不是錯誤地預測所有的草都是障礙。這是因為BADGR從經驗中學到,大多數草實際上是可以穿越的。
Image: UC BerkeleyBADGR’s navigation capability improves as it gathers more data.
?除了能夠了解環境的物理屬性之外,BADGR的一個關鍵方面是它能夠在收集越來越多的數據時不斷地自我監督和改進模型。為了證明這種能力,我們進行了一項對照研究,其中BADGR收集和訓練來自一個區域的數據,移動到一個新的目標區域,在該區域導航失敗,但在收集和訓練來自該區域的額外數據后,最終在目標區域獲得了成功。
這個實驗不僅證明了BADGR在收集更多的數據時可以改進,而且當BADGR遇到一個新的環境時,以前收集的經驗實際上可以幫助其加速學習。隨著BADGR在越來越多的環境中自動收集數據,在每個新的環境中成功地學習導航所需要的時間也越來越少。
我們還評估了BADGR在從森林到城市建筑等新環境中的導航能力。這一結果表明,如果BADGR能夠在足夠大和多樣的數據集上進行收集和訓練,它可以推廣到新的環境中使用。
BADGR背后的關鍵洞見是,通過直接從現實世界的經驗中自主學習,BADGR可以學習導航功能,在收集更多數據時進行改進,并進行推廣。盡管我們相信BADGR是朝著全自動、自我改進的導航系統邁出的有希望的一步,但仍然存在一些開放的問題:機器人如何在新環境中安全地收集數據,或如何在新數據流進入時適應,或如何應對非靜態環境,如人類走動呢?
我們認為,解決這些和其他挑戰對于使機器人學習平臺能夠在現實世界中學習和行動至關重要。
Gregory Kahn是加州大學伯克利分校BAIR(Berkeley AI Research)實驗室的博士生,師從Sergey Levine教授和Pieter Abbeel教授。他的主要研究目標是開發能夠讓機器人在現實世界中操作的算法。他目前的研究是針對移動機器人的深度強化學習。
-
神經網絡
+關注
關注
42文章
4809瀏覽量
102838 -
移動機器人
+關注
關注
2文章
784瀏覽量
34008 -
人工智能
+關注
關注
1804文章
48746瀏覽量
246685
原文標題:加州大學伯克利分校研發人工智能機器人BADGR 可自行規劃和穿越無障礙路徑
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論