多任務學習——即允許單個智能體學習如何完成多種不同的的任務——一直是人工智能研究的長期目標。近年來,這一領域出現了不少優秀進展,比如DQN只用同一種算法就能玩包含《打磚塊》和《乓》在內的多種游戲。但事實上,這些算法的本質還是對于每個任務,訓練單獨的智能體。
隨著人工智能研究開始向更復雜的現實任務靠攏,構建一個“多才多藝”的智能體——而不是多個“專家級”智能體——對學習執行多個任務將是至關重要的。很可惜,到目前為止,這已經被證明仍是一項重大挑戰。
其中的一個原因是在不同任務中,強化學習智能體用來判斷自己成功與否的獎勵標準存在差異,這導致它們會陷入“唯獎勵論”,專注于執行所有獎勵更高的任務。舉個例子,在雅達利游戲《乓》中,智能體每執行一個“動作”就可能獲得如下獎勵:-1、0或+1。相比之下,如果是同為街機游戲的《吃豆人小姐》,智能體可能走一步就能獲得成百上千個積分。
即便我們把單個獎勵設置成基本一致,隨著智能體被訓練地越來越好,由于獎勵頻率不同的存在,不同游戲間的獎勵差異還是會變得越來越明顯。
為了解決這些問題,DeepMind開發了PopArt,它可以調整每個游戲中的積分等級,因此無論不同游戲間的獎勵差異有多大,智能體都會對它們“一視同仁”,判斷它們帶給自己的獎勵相同。在他們最新的論文Multi-task Deep Reinforcement Learning with PopArt中,DeepMind把PopArt歸一化用在當前最先進的強化學習智能體上,訓練了一個只用一套權重的單一智能體。在一整套57種不同的Atari游戲上,這個智能體的表現可以達到人類中等水平以上。
從廣義上講,深度學習極度依賴神經網絡權重的更新,使輸出更接近需要的目標輸出。這一點放在深度強化學習上也一樣。
PopArt的工作機制基于估計這些目標的平均值和分布(例如游戲中的得分),在利用這些統計信息更新網絡權重前,它會先對它們做歸一化,目的是形成對獎勵的規模和頻率更穩健的學習經驗。之后,為了獲得更準確的估計——如預期的得分——它再繼續把網絡的輸出重新轉成原始范圍。
如果單純地這么做,那么每次更新統計數據都會改變非歸一化的輸出,包括非常理想的輸出。這不是我們想要的。為了避免這一點,DeepMind提出的解決方案是,每次更新統計數據時,網絡就會進行一次反向更新,這意味著我們既能實現網絡的大規模更新,又能保持先前學習的輸出不變。
出于這種原因,他們把這種方法命名為PopArt:Preserving Outputs Precisely while Adaptively Rescaling Targets(在自適應重新縮放目標的同時精確保留原有輸出)。
用PopArt代替獎勵剪枝
按照以往的做法,如果研究人員要用強化學習算法對獎勵進行剪枝,以此克服獎勵范圍各不相同的問題,他們首先會把大的獎勵設為+1,小的獎勵為-1,然后對預期獎勵做歸一化處理。雖然這種做法易于學習,但它也改變了智能體的目標。
例如,《吃豆人小姐》的目標是吃豆子,每個豆子10分,吃鬼200-1600分。在訓練強化學習智能體時,通過剪枝,智能體會認為自己吃豆子或吃鬼沒有任何區別,再加上吃豆子更容易,研究人員會很容易訓練出一個只會吃豆子、從不追逐鬼的智能體。
而如下面這個視頻所示,用PopArt取代獎勵剪枝后,這個智能體更“聰明”了,它會把追鬼納入自己的吃豆路徑,得分也更高:
用PopArt進行多任務深度強化學習
今年2月,DeepMind曾發布一個多任務集合DMLab-30,為了解決其中的問題,他們還開發了一個高度可擴展的、基于分布式架構的智能體IMPALA。這是目前世界上最先進的強化學習智能體之一,也是DeepMind最常用的深度強化學習智能體之一。
在實驗中,他們把PopArt用于IMPALA,并和基線智能體做對比。結果如下圖所示,PopArt大幅提高了智能體的性能。實驗還對比了獎勵剪枝和未剪枝的情況,可以發現,使用PopArt的智能體在游戲中的得分中位數高于人類玩家的中位數,這比基線表現好很多。而其中未剪枝的基線得分幾乎為0,因為它無法從游戲中學習有意義的表征,所以也無法處理游戲獎勵范圍的巨大變化。
57個Atari上的表現中位數,每一行對應單個智能體的中值性能;實現為經過剪枝,虛線未剪枝
這也是DeepMind第一次在多任務環境中看到智能體有超人表現,這表明PopArt確實在獎勵不平衡上有一定的協調作用。而當未來我們把AI系統用于更復雜的多模態環境時,像這種自適應規范化方法會變得越來越重要,因為智能體必須要學會在面對多個不同目標時,利用它們各自的獎勵做總體權衡。
-
人工智能
+關注
關注
1806文章
49015瀏覽量
249456 -
智能體
+關注
關注
1文章
305瀏覽量
11078 -
強化學習
+關注
關注
4文章
269瀏覽量
11600
原文標題:DeepMind:用PopArt進行多任務深度強化學習
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
什么是深度強化學習?深度強化學習算法應用分析

將深度學習和強化學習相結合的深度強化學習DRL
薩頓科普了強化學習、深度強化學習,并談到了這項技術的潛力和發展方向
《自動化學報》—多Agent深度強化學習綜述

NeurIPS 2023 | 擴散模型解決多任務強化學習問題

評論