劍橋大學兩位博士創辦的公司使用強化學習算法,無需密集標注的3D地圖,無需人工設計的規則,讓汽車在短短20分鐘內學會了自動駕駛。公司成立不到50天,已經拿到了優步首席科學家的投資。
今天的自動駕駛汽車雖然已經性能不錯,但大多數自動駕駛汽車都使用大量的攝像頭和傳感器、地圖工具和大量的計算機程序,比較不完美。
如何讓一輛自動駕駛汽車以最完美的速度上路?有一種做法是增加操作系統的智能而不是傳感器。
劍橋大學工程系的兩位博士創辦的Wayve團隊使用強化學習算法,第一次實現讓計算機學會像人一樣,通過練習來完成自動駕駛。該算法與人類安全駕駛員一起教會了汽車如何在“15-20分鐘”的時間內保持在一條車道內。
Wayve團隊認為,自動駕駛需要的是一臺更智能的電腦,而不是更多的傳感器或程序,他們的研究也證明了自己的理論。
DeepMind玩Atari游戲需要數百萬次試驗,但深度強化學習讓汽車20分鐘內學會自動駕駛
DeepMind已經證明,深度強化學習方法可以在許多游戲中實現超越人類的表現,包括圍棋、象棋和許多電腦游戲,而且幾乎總是勝過任何基于規則的系統。
Wayve團隊深得DeepMind和OpenAI經常使用的強化學習算法精髓,并且巧妙的用在了自動駕駛車上。
為了證明強化學習+自動駕駛這種方法可行,Wayve團隊配置了一輛雷諾Twizy,它很簡單,只配備了一個攝像頭和油箱、剎車和轉向控制等裝置。算法使用“深度卷積神經網絡”的模型,該模型接收僅使用一個GPU處理的單個圖像的輸入。
在視頻中,最初,汽車就像嬰兒邁出了第一步,步履蹣跚。但當汽車開始轉向車道外時,一名安全駕駛員介入,重新把車轉向車道內。算法了解到每次修正行駛過程時都是在糾錯,并根據它在沒有任何干預的情況下行進了多遠而得到“獎勵”。
通過這種方式,計算機能夠在大約20分鐘內學會如何防止汽車從路上跑偏。在那之后,它可以無限期地行駛下去。
Wayve團隊的這項研究表明,類似的哲學在現實世界中也是可能的,特別是在自動駕駛汽車中。而且,DeepMind玩Atari游戲的算法需要數百萬次試驗才能解決一個任務。而Wayve的團隊在不到20次的試驗中就學會了讓車始終“沿著單行道行駛”。
無需密集標注的3D地圖,無需人工設計的規則
大型科技公司做自動駕駛通常采用工程思維方法,即設計一種基于規則的系統,處理每一個邊緣問題,同時使用更多的傳感器,獲取更多的數據。這可能會在特定的、狹義的環境中產生令人鼓舞的結果,但并不能真正解決自動駕駛問題。
Wayve的團隊是第一個自動駕駛汽車在線學習的例子,每一次嘗試都會使它變得更好。那么,具體是怎么做到的呢?
他們給出了技術細節:
他們采用了一種流行的無模型深度強化學習算法——深度確定性策略梯度(deep deterministic policy gradients,DDPG)來解決車道跟蹤任務。模型輸入是來自單目攝像機的圖像。系統迭代了3個過程:探索,優化和評估。
網絡架構是一個深度網絡,有4個卷積層和3個完全連接層,總共只有不到10k個參數。相比之下,目前表現最優的圖像分類架構有數百萬個參數。
所有的處理都在汽車的一個圖形處理單元(GPU)上進行。
將機器人放到危險的真實環境中工作會帶來很多新問題。為了更好地理解手頭的任務,找到合適的模型架構和超參數,他們在模擬環境中進行了大量的測試。
上圖是一個例子,從不同角度展示了車輛在模擬環境中如何沿著道路行駛。該算法僅看到駕駛員的視角,即上圖中間。在每個episode,隨機生成一條彎曲的車道,以及道路的紋理和車道標記。agent一直在探索,直到偏離了車道,此時一個episode結束。然后根據搜集到的數據進行策略優化,一直重復這個過程。
基于任務的workflow和訓練算法的架構
團隊使用模擬測試來嘗試不同的神經網絡架構和超參數,直到找到僅需很少的訓練次數(也就是在只有很少數據的情況下),始終能解決車道跟蹤任務的設置。例如,一個發現是,使用自動編碼器重建損失來訓練卷積層,這大大提高了訓練的穩定性和數據效率。
使用DDPG+VAE,極大地提高了從原始像素進行DDPG訓練的數據效率,這表明在實際系統上應用強化學習時,state representation是一個重要的考慮因素。實驗使用的250米行駛路線如右圖所示。
下表是在250米道路上實現自動駕駛車輛的強化學習結果。
團隊報告了每個模型的最佳性能。他們觀察到baseline RL智能體可以從頭開始學習車道跟蹤,但VAE變體更有效率,僅在11次訓練后就成功學會沿著車道駕駛。
想象一下,部署一個自動駕駛汽車的車隊,一開始自動駕駛算法是人類駕駛員表現的95%。這樣一個系統不會像視頻中隨機初始化的模型那樣搖搖晃晃,而是幾乎能夠處理交通信號燈、環形路、十字路口等等各種情況。
經過一天的駕駛和人類安全駕駛員接管提供的反饋,系統能夠在線提升,也許能提升到96%。一個星期后,提高到98%;一個月后,達到人類表現的99%。幾個月后,這個系統的表現可能以及超過了人類,因為它能從多名安全駕駛員的反饋中獲益。
在20分鐘內就學會了從零開始沿著車道行駛,那么,想象一下,一整天的話可以學到什么?
兩位劍橋博士創辦,公司成立不到50天已獲優步首席科學家投資
Wayve于今年5月22日剛剛創立,創始人是兩位來自英國劍橋大學的博士Amar Shah和Alex Kendall。
Wayve團隊現有約10名成員,由來自劍橋大學和牛津大學的機器人、計算機視覺和人工智能專家組成,他們之前曾在NASA、谷歌、Facebook、Skydio和微軟等公司工作過。他們專注于利用深度學習解決視覺場景理解、不確定環境中的自主決策等問題。
值得一提的是,劍橋大學教授、Uber首席科學家Zoubin Ghahramani是Wayve的投資人之一。
不同于大部分自動駕駛車輛的傳統思維,Wayve團隊號稱要構建“端到端的機器學習算法”,將強化學習方法用于自動駕駛汽車。他們認為制造真正的自動駕駛汽車的關鍵在于軟件的自學能力,它需要的是更好的協調,這能夠使自主駕駛成為現實。
-
傳感器
+關注
關注
2562文章
52524瀏覽量
763414 -
自動駕駛
+關注
關注
788文章
14189瀏覽量
169418 -
強化學習
+關注
關注
4文章
269瀏覽量
11513
原文標題:強化學習20分鐘,劍橋博士教汽車學會自動駕駛!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論