女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用PopArt進行多任務深度強化學習

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-16 09:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

多任務學習——即允許單個智能體學習如何完成多種不同的的任務——一直是人工智能研究的長期目標。近年來,這一領域出現了不少優秀進展,比如DQN只用同一種算法就能玩包含《打磚塊》和《乓》在內的多種游戲。但事實上,這些算法的本質還是對于每個任務,訓練單獨的智能體。

隨著人工智能研究開始向更復雜的現實任務靠攏,構建一個“多才多藝”的智能體——而不是多個“專家級”智能體——對學習執行多個任務將是至關重要的。很可惜,到目前為止,這已經被證明仍是一項重大挑戰。

其中的一個原因是在不同任務中,強化學習智能體用來判斷自己成功與否的獎勵標準存在差異,這導致它們會陷入“唯獎勵論”,專注于執行所有獎勵更高的任務。舉個例子,在雅達利游戲《乓》中,智能體每執行一個“動作”就可能獲得如下獎勵:-1、0或+1。相比之下,如果是同為街機游戲的《吃豆人小姐》,智能體可能走一步就能獲得成百上千個積分。

即便我們把單個獎勵設置成基本一致,隨著智能體被訓練地越來越好,由于獎勵頻率不同的存在,不同游戲間的獎勵差異還是會變得越來越明顯。

為了解決這些問題,DeepMind開發了PopArt,它可以調整每個游戲中的積分等級,因此無論不同游戲間的獎勵差異有多大,智能體都會對它們“一視同仁”,判斷它們帶給自己的獎勵相同。在他們最新的論文Multi-task Deep Reinforcement Learning with PopArt中,DeepMind把PopArt歸一化用在當前最先進的強化學習智能體上,訓練了一個只用一套權重的單一智能體。在一整套57種不同的Atari游戲上,這個智能體的表現可以達到人類中等水平以上。

從廣義上講,深度學習極度依賴神經網絡權重的更新,使輸出更接近需要的目標輸出。這一點放在深度強化學習上也一樣。

PopArt的工作機制基于估計這些目標的平均值和分布(例如游戲中的得分),在利用這些統計信息更新網絡權重前,它會先對它們做歸一化,目的是形成對獎勵的規模和頻率更穩健的學習經驗。之后,為了獲得更準確的估計——如預期的得分——它再繼續把網絡的輸出重新轉成原始范圍。

如果單純地這么做,那么每次更新統計數據都會改變非歸一化的輸出,包括非常理想的輸出。這不是我們想要的。為了避免這一點,DeepMind提出的解決方案是,每次更新統計數據時,網絡就會進行一次反向更新,這意味著我們既能實現網絡的大規模更新,又能保持先前學習的輸出不變。

出于這種原因,他們把這種方法命名為PopArt:Preserving Outputs Precisely while Adaptively Rescaling Targets(在自適應重新縮放目標的同時精確保留原有輸出)。

用PopArt代替獎勵剪枝

按照以往的做法,如果研究人員要用強化學習算法對獎勵進行剪枝,以此克服獎勵范圍各不相同的問題,他們首先會把大的獎勵設為+1,小的獎勵為-1,然后對預期獎勵做歸一化處理。雖然這種做法易于學習,但它也改變了智能體的目標。

例如,《吃豆人小姐》的目標是吃豆子,每個豆子10分,吃鬼200-1600分。在訓練強化學習智能體時,通過剪枝,智能體會認為自己吃豆子或吃鬼沒有任何區別,再加上吃豆子更容易,研究人員會很容易訓練出一個只會吃豆子、從不追逐鬼的智能體。

而如下面這個視頻所示,用PopArt取代獎勵剪枝后,這個智能體更“聰明”了,它會把追鬼納入自己的吃豆路徑,得分也更高:

用PopArt進行多任務深度強化學習

今年2月,DeepMind曾發布一個多任務集合DMLab-30,為了解決其中的問題,他們還開發了一個高度可擴展的、基于分布式架構的智能體IMPALA。這是目前世界上最先進的強化學習智能體之一,也是DeepMind最常用的深度強化學習智能體之一。

在實驗中,他們把PopArt用于IMPALA,并和基線智能體做對比。結果如下圖所示,PopArt大幅提高了智能體的性能。實驗還對比了獎勵剪枝和未剪枝的情況,可以發現,使用PopArt的智能體在游戲中的得分中位數高于人類玩家的中位數,這比基線表現好很多。而其中未剪枝的基線得分幾乎為0,因為它無法從游戲中學習有意義的表征,所以也無法處理游戲獎勵范圍的巨大變化。

57個Atari上的表現中位數,每一行對應單個智能體的中值性能;實現為經過剪枝,虛線未剪枝

這也是DeepMind第一次在多任務環境中看到智能體有超人表現,這表明PopArt確實在獎勵不平衡上有一定的協調作用。而當未來我們把AI系統用于更復雜的多模態環境時,像這種自適應規范化方法會變得越來越重要,因為智能體必須要學會在面對多個不同目標時,利用它們各自的獎勵做總體權衡。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    49015

    瀏覽量

    249456
  • 智能體
    +關注

    關注

    1

    文章

    305

    瀏覽量

    11078
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11600

原文標題:DeepMind:用PopArt進行多任務深度強化學習

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用Isaac Gym 來強化學習mycobot 抓取任務

    使用Isaac Gym來強化學習mycobot抓取任務
    的頭像 發表于 04-11 14:57 ?8389次閱讀
    使用Isaac Gym 來<b class='flag-5'>強化學習</b>mycobot 抓取<b class='flag-5'>任務</b>

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰性的問題,從低級的運動控制(如:步行、跑步、打網球)到高級的認知任務。
    發表于 07-01 10:29 ?1861次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>?<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>算法應用分析

    深度學習DeepLearning實戰

    測試)三、主講內容1:課程一、強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、多智能體深度
    發表于 01-09 17:01

    深度強化學習實戰

    測試)三、主講內容1:課程一、強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、多智能體深度
    發表于 01-10 13:42

    強化學習在RoboCup帶球任務中的應用劉飛

    強化學習在RoboCup帶球任務中的應用_劉飛
    發表于 03-14 08:00 ?0次下載

    深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將
    發表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強化學習深度強化學習,并談到了這項技術的潛力和發展方向

    薩頓在專訪中(再次)科普了強化學習深度強化學習,并談到了這項技術的潛力,以及接下來的發展方向:預測學習
    的頭像 發表于 12-27 09:07 ?1.2w次閱讀

    深度強化學習的筆記資料免費下載

    本文檔的主要內容詳細介紹的是深度強化學習的筆記資料免費下載。
    發表于 03-10 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>的筆記資料免費下載

    深度強化學習到底是什么?它的工作原理是怎么樣的

    深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度
    的頭像 發表于 06-13 11:39 ?6687次閱讀

    強化學習在智能對話上的應用介紹

    本文主要介紹深度強化學習任務型對話上的應用,兩者的結合點主要是將深度強化學習應用于任務型對話的
    的頭像 發表于 12-10 19:02 ?1286次閱讀

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質量,釆深度強化學習的方法進行拉深過程旳壓邊力優化控制。提岀一種基于深度
    發表于 05-27 10:32 ?0次下載

    基于深度強化學習的無人機控制律設計方法

    基于深度強化學習的無人機控制律設計方法
    發表于 06-23 14:59 ?46次下載

    《自動化學報》—多Agent深度強化學習綜述

    多Agent 深度強化學習綜述 來源:《自動化學報》,作者梁星星等 摘 要?近年來,深度強化學習(Deep reinforcement le
    發表于 01-18 10:08 ?1940次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>綜述

    ESP32上的深度強化學習

    電子發燒友網站提供《ESP32上的深度強化學習.zip》資料免費下載
    發表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>

    NeurIPS 2023 | 擴散模型解決多任務強化學習問題

    model 能否解決多任務強化學習問題呢?我們最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data
    的頭像 發表于 10-02 10:45 ?1272次閱讀
    NeurIPS 2023 | 擴散模型解決<b class='flag-5'>多任務</b><b class='flag-5'>強化學習</b>問題