影音先锋AV在线电影资源,啪啪啪免费网站,性色av免费播放

智能體（agent）互相爭奪資源的多智能體環境是通向強人工智能（AGI）的必經之路。多智能體環境具有兩種優越的特質：首先，它具備自然的考驗——環境的難易程度取決于競爭對手的技能（如果你正與自己的克隆體對抗，環境則完全符合你的技術水平）。其次，多智能體環境沒有穩定的平衡，即無論一個智能體多么聰明，想變得更聰明總是有困難的。這種環境與傳統模式有很大的不同，在達到目標之前需要進行更多研究。

OpenAI開發了一種名為MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments）的新算法，用于實現多智能體環境中的集中式學習和分散式執行，讓智能體學習互相合作、互相競爭。

用MADDPG算法訓練四個紅色圓點追逐兩個綠色圓點，紅色圓點已經學會彼此合作追逐同一個綠色圓點，以獲得更高的獎勵。與此同時，綠色圓點學會了“分頭行動”，其中一個被紅點追逐，其他的則試圖接近藍色圓點獲得獎勵，同時避開紅色圓點

MADDPG對強化學習算法DDPG進行擴展，從actor-critic（玩家-評委）強化學習技術中獲得靈感；其他團隊也正探索這些想法的變體和并行實現。

研究人員將模擬中的每個智能體看作“actor”（玩家），每個玩家從評委那里獲得建議，讓它們在訓練過程中選擇應該加強哪些動作的訓練。在傳統環境中，評委嘗試預測在某一特定情況下一種動作的價值（即我們期待未來獲得的獎勵），從而讓玩家更新策略。這種方法比直接使用獎勵更穩定，獎勵會導致較大的差異。為了能讓智能體進行全局合作，研究者改進了評委，使它們能夠訪問智能體的觀察和行動，如下圖所示。

測試時，智能體無需具備中間的評委；它們根據觀察以及對其他智能體行為的預測，做出動作。由于一個中心化的評委是為每個智能體獨立學習的，這種方法也可以用來模擬多智能體之間的任意獎勵結構，包括擁有相反獎勵的對抗案例。

OpenAI研究者在多個任務上測試了他們的方法，結果均優于DDPG上的表現。在上圖的動畫中，從上至下可以看到：兩個智能體試圖前往特定位置，并且學習分散，向對手隱藏真實的目的地；一個智能體將位置信息傳遞給另一個智能體，其他三個智能體協調前往此處，并且不會碰撞。

使用MADDPG訓練的紅色圓點比用DDPG訓練的智能體行為更復雜。在上面的動畫中可以看到，用MADDPG技術訓練的智能體和用DDPG訓練的智能體都試圖穿過綠色的圓圈追逐綠色的小圓點，同時不撞到黑色障礙物。新方法訓練出來的智能體抓到的綠色圓點更多，也比用DDPG方法訓練出的動作更協調。

傳統強化學習的困境

傳統的分散式強化學習方法，如DDPG、actor-critic學習、深度Q學習等，都難以在多智能體環境中學習，因為在每個時間段，每個智能體都要嘗試學習預測其他智能體的行為，同時還要分析自己的行為。在競爭的情況下尤其如此。MADDPG采用集中的critic為智能體提供有關同類的觀察和潛在行為的信息，將不可預測的環境轉化為可預測環境。

使用梯度策略的方法會帶來更多挑戰：因為當獎勵不一致時，這種方法所得到的結果差別很大。另外，在提高穩定性的同時，增加critic仍然不能解決一些環境問題，例如合作交流。這樣看來在培訓期間考慮其他智能體的行為對于學習協作策略是很重要的。

最初的研究

在開發MADDPG之前，當使用分散技術時，研究人員注意到如果speaker所發出的關于去哪里不一致的消息，那么listener常常會忽略speaker，智能體將把有關speaker的所有權中設置為0。一旦發生這種情況，就很難恢復訓練，因為沒有任何反饋，speaker永遠不會知道自己所說是否正確。為了解決這個問題，他們研究了最近一個分層強化學習項目中所提到的技術，該技術可以讓強制讓listener在決策過程中考慮speaker的消息。這種修復方法并不奏效，因為它雖然強制listener關注speaker，但并不能幫助listener決定說出什么相關的內容。通過幫助speaker學習哪些信息可能與其他智能體的位置信息有關，集中式的critic方法有助于應對這些挑戰。想了解更多結果，可點擊視頻觀看：

下一步

智能體建模在人工智能的研究中已經有了豐富的成果，但之前的很多研究都只考慮了短時間內簡單的游戲。深度學習能讓我們處理復雜的視覺輸入，強化學習為我們提供了長時間學習行為的工具。現在我們可以用這些功能一次性訓練多個代理，而無需了解環境的變化（即環境在每個時間段發生的變化），我們可以解決更廣泛的包括交流和語言的高維度信息，同時從環境的高維信息中學習。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
34146

瀏覽量
275266

原文標題：OpenAI公布MADDPG代碼，讓智能體學習合作、競爭和交流

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

OpenAI公布MADDPG代碼，讓智能體學習合作、競爭和交流

評論