绝世馒头逼,让校花呻吟小说,5658xcom拔插拔插

多任務學習——即允許單個智能體學習如何完成多種不同的的任務——一直是人工智能研究的長期目標。近年來，這一領域出現了不少優秀進展，比如DQN只用同一種算法就能玩包含《打磚塊》和《乓》在內的多種游戲。但事實上，這些算法的本質還是對于每個任務，訓練單獨的智能體。

隨著人工智能研究開始向更復雜的現實任務靠攏，構建一個“多才多藝”的智能體——而不是多個“專家級”智能體——對學習執行多個任務將是至關重要的。很可惜，到目前為止，這已經被證明仍是一項重大挑戰。

其中的一個原因是在不同任務中，強化學習智能體用來判斷自己成功與否的獎勵標準存在差異，這導致它們會陷入“唯獎勵論”，專注于執行所有獎勵更高的任務。舉個例子，在雅達利游戲《乓》中，智能體每執行一個“動作”就可能獲得如下獎勵：-1、0或+1。相比之下，如果是同為街機游戲的《吃豆人小姐》，智能體可能走一步就能獲得成百上千個積分。

即便我們把單個獎勵設置成基本一致，隨著智能體被訓練地越來越好，由于獎勵頻率不同的存在，不同游戲間的獎勵差異還是會變得越來越明顯。

為了解決這些問題，DeepMind開發了PopArt，它可以調整每個游戲中的積分等級，因此無論不同游戲間的獎勵差異有多大，智能體都會對它們“一視同仁”，判斷它們帶給自己的獎勵相同。在他們最新的論文Multi-task Deep Reinforcement Learning with PopArt中，DeepMind把PopArt歸一化用在當前最先進的強化學習智能體上，訓練了一個只用一套權重的單一智能體。在一整套57種不同的Atari游戲上，這個智能體的表現可以達到人類中等水平以上。

從廣義上講，深度學習極度依賴神經網絡權重的更新，使輸出更接近需要的目標輸出。這一點放在深度強化學習上也一樣。

PopArt的工作機制基于估計這些目標的平均值和分布（例如游戲中的得分），在利用這些統計信息更新網絡權重前，它會先對它們做歸一化，目的是形成對獎勵的規模和頻率更穩健的學習經驗。之后，為了獲得更準確的估計——如預期的得分——它再繼續把網絡的輸出重新轉成原始范圍。

如果單純地這么做，那么每次更新統計數據都會改變非歸一化的輸出，包括非常理想的輸出。這不是我們想要的。為了避免這一點，DeepMind提出的解決方案是，每次更新統計數據時，網絡就會進行一次反向更新，這意味著我們既能實現網絡的大規模更新，又能保持先前學習的輸出不變。

出于這種原因，他們把這種方法命名為PopArt：Preserving Outputs Precisely while Adaptively Rescaling Targets（在自適應重新縮放目標的同時精確保留原有輸出）。

用PopArt代替獎勵剪枝

按照以往的做法，如果研究人員要用強化學習算法對獎勵進行剪枝，以此克服獎勵范圍各不相同的問題，他們首先會把大的獎勵設為+1，小的獎勵為-1，然后對預期獎勵做歸一化處理。雖然這種做法易于學習，但它也改變了智能體的目標。

例如，《吃豆人小姐》的目標是吃豆子，每個豆子10分，吃鬼200-1600分。在訓練強化學習智能體時，通過剪枝，智能體會認為自己吃豆子或吃鬼沒有任何區別，再加上吃豆子更容易，研究人員會很容易訓練出一個只會吃豆子、從不追逐鬼的智能體。

而如下面這個視頻所示，用PopArt取代獎勵剪枝后，這個智能體更“聰明”了，它會把追鬼納入自己的吃豆路徑，得分也更高：

用PopArt進行多任務深度強化學習

今年2月，DeepMind曾發布一個多任務集合DMLab-30，為了解決其中的問題，他們還開發了一個高度可擴展的、基于分布式架構的智能體IMPALA。這是目前世界上最先進的強化學習智能體之一，也是DeepMind最常用的深度強化學習智能體之一。

在實驗中，他們把PopArt用于IMPALA，并和基線智能體做對比。結果如下圖所示，PopArt大幅提高了智能體的性能。實驗還對比了獎勵剪枝和未剪枝的情況，可以發現，使用PopArt的智能體在游戲中的得分中位數高于人類玩家的中位數，這比基線表現好很多。而其中未剪枝的基線得分幾乎為0，因為它無法從游戲中學習有意義的表征，所以也無法處理游戲獎勵范圍的巨大變化。

57個Atari上的表現中位數，每一行對應單個智能體的中值性能；實現為經過剪枝，虛線未剪枝

這也是DeepMind第一次在多任務環境中看到智能體有超人表現，這表明PopArt確實在獎勵不平衡上有一定的協調作用。而當未來我們把AI系統用于更復雜的多模態環境時，像這種自適應規范化方法會變得越來越重要，因為智能體必須要學會在面對多個不同目標時，利用它們各自的獎勵做總體權衡。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴