女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI公布MADDPG代碼,讓智能體學習合作、競爭和交流

zhKF_jqr_AI ? 來源:未知 ? 作者:李建兵 ? 2018-03-16 14:01 ? 次閱讀

智能體(agent)互相爭奪資源的多智能體環境是通向強人工智能(AGI)的必經之路。多智能體環境具有兩種優越的特質:首先,它具備自然的考驗——環境的難易程度取決于競爭對手的技能(如果你正與自己的克隆體對抗,環境則完全符合你的技術水平)。其次,多智能體環境沒有穩定的平衡,即無論一個智能體多么聰明,想變得更聰明總是有困難的。這種環境與傳統模式有很大的不同,在達到目標之前需要進行更多研究。

OpenAI開發了一種名為MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)的新算法,用于實現多智能體環境中的集中式學習和分散式執行,讓智能體學習互相合作、互相競爭。

用MADDPG算法訓練四個紅色圓點追逐兩個綠色圓點,紅色圓點已經學會彼此合作追逐同一個綠色圓點,以獲得更高的獎勵。與此同時,綠色圓點學會了“分頭行動”,其中一個被紅點追逐,其他的則試圖接近藍色圓點獲得獎勵,同時避開紅色圓點

MADDPG對強化學習算法DDPG進行擴展,從actor-critic(玩家-評委)強化學習技術中獲得靈感;其他團隊也正探索這些想法的變體和并行實現。

研究人員將模擬中的每個智能體看作“actor”(玩家),每個玩家從評委那里獲得建議,讓它們在訓練過程中選擇應該加強哪些動作的訓練。在傳統環境中,評委嘗試預測在某一特定情況下一種動作的價值(即我們期待未來獲得的獎勵),從而讓玩家更新策略。這種方法比直接使用獎勵更穩定,獎勵會導致較大的差異。為了能讓智能體進行全局合作,研究者改進了評委,使它們能夠訪問智能體的觀察和行動,如下圖所示。

測試時,智能體無需具備中間的評委;它們根據觀察以及對其他智能體行為的預測,做出動作。由于一個中心化的評委是為每個智能體獨立學習的,這種方法也可以用來模擬多智能體之間的任意獎勵結構,包括擁有相反獎勵的對抗案例。

OpenAI研究者在多個任務上測試了他們的方法,結果均優于DDPG上的表現。在上圖的動畫中,從上至下可以看到:兩個智能體試圖前往特定位置,并且學習分散,向對手隱藏真實的目的地;一個智能體將位置信息傳遞給另一個智能體,其他三個智能體協調前往此處,并且不會碰撞。

使用MADDPG訓練的紅色圓點比用DDPG訓練的智能體行為更復雜。在上面的動畫中可以看到,用MADDPG技術訓練的智能體和用DDPG訓練的智能體都試圖穿過綠色的圓圈追逐綠色的小圓點,同時不撞到黑色障礙物。新方法訓練出來的智能體抓到的綠色圓點更多,也比用DDPG方法訓練出的動作更協調。

傳統強化學習的困境

傳統的分散式強化學習方法,如DDPG、actor-critic學習、深度Q學習等,都難以在多智能體環境中學習,因為在每個時間段,每個智能體都要嘗試學習預測其他智能體的行為,同時還要分析自己的行為。在競爭的情況下尤其如此。MADDPG采用集中的critic為智能體提供有關同類的觀察和潛在行為的信息,將不可預測的環境轉化為可預測環境。

使用梯度策略的方法會帶來更多挑戰:因為當獎勵不一致時,這種方法所得到的結果差別很大。另外,在提高穩定性的同時,增加critic仍然不能解決一些環境問題,例如合作交流。這樣看來在培訓期間考慮其他智能體的行為對于學習協作策略是很重要的。

最初的研究

在開發MADDPG之前,當使用分散技術時,研究人員注意到如果speaker所發出的關于去哪里不一致的消息,那么listener常常會忽略speaker,智能體將把有關speaker的所有權中設置為0。一旦發生這種情況,就很難恢復訓練,因為沒有任何反饋,speaker永遠不會知道自己所說是否正確。為了解決這個問題,他們研究了最近一個分層強化學習項目中所提到的技術,該技術可以讓強制讓listener在決策過程中考慮speaker的消息。這種修復方法并不奏效,因為它雖然強制listener關注speaker,但并不能幫助listener決定說出什么相關的內容。通過幫助speaker學習哪些信息可能與其他智能體的位置信息有關,集中式的critic方法有助于應對這些挑戰。想了解更多結果,可點擊視頻觀看:

下一步

智能體建模在人工智能的研究中已經有了豐富的成果,但之前的很多研究都只考慮了短時間內簡單的游戲。深度學習能讓我們處理復雜的視覺輸入,強化學習為我們提供了長時間學習行為的工具。現在我們可以用這些功能一次性訓練多個代理,而無需了解環境的變化(即環境在每個時間段發生的變化),我們可以解決更廣泛的包括交流和語言的高維度信息,同時從環境的高維信息中學習。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    34146

    瀏覽量

    275266

原文標題:OpenAI公布MADDPG代碼,讓智能體學習合作、競爭和交流

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    學習智能開發

    智能是大模型的應用落地,正在學習中,這本書太及時了,非常想看看。
    發表于 03-27 15:48

    云電云安“智能”領跑安防行業

      隨著安防逐漸IT化及國內安防廠商精工制造的崛起,產品的互聯互通及產品的工業設計逐漸成為市場競爭的重頭戲。2015年伊始,云電信息在市場提出“智能”的新主張,作為行業的領先者,在“智能
    發表于 03-30 11:35

    一種基于聚類和競爭克隆機制的多智能免疫算法

    包含分布式電源的配電網無功優化matlab源代碼代碼按照高水平文章復現,保證正確,可先發您文章看是否滿足您的要求利用分布式電源的無功補償能力,提出了一種基于聚類和競爭克隆機制的多智能
    發表于 12-29 06:50

    OpenAI分析機器學習的進化策略

    OpenAI總監Ilya Sutskever昨天在EmTech Digital大會上介紹了人工智能領域下一個可能的爆發點。OpenAI是一家獨立研究機構,EmTech Digital是MIT
    發表于 09-30 13:09 ?0次下載

    基于強化學習MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    OpenAI與新聞集團簽署內容合作協議

    人工智能領域的領軍企業OpenAI近日宣布,已與美國傳媒巨頭新聞集團(News Corp)達成多年全球合作伙伴關系。
    的頭像 發表于 05-24 09:45 ?580次閱讀

    蘋果與OpenAI自2023年中開始接觸,微軟擔心合作競爭

    據悉,蘋果有意在定于今年6月11日凌晨1點舉行的WWDC 2024全球開發者大會上公開與OpenAI合作事宜。此外,除了計劃引入OpenAI的ChatGPT聊天服務至iOS外,蘋果并借機邀請
    的頭像 發表于 05-30 10:18 ?728次閱讀

    蘋果宣布與OpenAI構建合作伙伴關系

    近日,蘋果公司宣布與人工智能領域的領軍企業OpenAI達成合作伙伴關系,計劃將OpenAI的ChatGPT技術整合至其產品中。
    的頭像 發表于 06-12 16:15 ?997次閱讀

    歐盟加強對人工智能行業審查,微軟與OpenAI合作受關注

    在人工智能(AI)領域日益激烈的競爭中,歐盟正展現出其加強監管的決心。6月29日,美聯社報道指出,歐盟高級官員近期已明確表示,他們正在重新審視這一領域的多項合作關系,特別是微軟與OpenAI
    的頭像 發表于 06-29 16:46 ?742次閱讀

    OpenAI公布2025年目標,AGI位列首位

    ,Altman正式公布OpenAI的2025年目標清單。其中,通用人工智能(AGI)的開發被置于首要位置,這體現了OpenAI對于實現真正智能
    的頭像 發表于 01-02 11:03 ?730次閱讀

    OpenAI公布2025年發展目標

    OpenAI的首席執行官Sam Altman近日在社交媒體上公布了公司2025年的發展目標。這些目標不僅反映了OpenAI對未來的展望,也體現了其致力于推動人工智能領域發展的決心。 在
    的頭像 發表于 01-03 10:40 ?545次閱讀

    OpenAI將發布更智能GPT模型及AI智能工具

    OpenAI近日透露了其未來發展的重要動向。據OpenAI首席產品官凱文·維爾(Kevin Weil)介紹,公司計劃推出更智能的GPT o3模型,并首次亮相AI智能
    的頭像 發表于 01-24 13:54 ?481次閱讀

    OpenAI發布深度研究智能功能

    近日,OpenAI正式推出了面向深度研究領域的智能產品——深度研究(Deep Research)功能。這一創新功能旨在支持多領域的高強度知識工作者,提升他們的工作效率和研究質量。 深度研究功能由
    的頭像 發表于 02-05 15:05 ?475次閱讀

    OpenAI對DeepSeek持開放競爭態度

    近日,OpenAI首席執行官奧爾特曼在一次公開場合明確表示,OpenAI不會對中國AI初創企業杭州深度求索人工智能基礎技術研究有限公司(簡稱DeepSeek)采取法律訴訟行動。 奧爾特曼在表態中強調
    的頭像 發表于 02-05 15:29 ?519次閱讀

    Figure AI宣布終止與OpenAI合作,專注內部研發

    近日,人形機器人領域的獨角獸企業Figure AI宣布了一個重要決定:因已取得“重大突破”,將終止與OpenAI合作,并專注于內部人工智能技術的研發。這一決定距離Figure AI宣布
    的頭像 發表于 02-06 14:33 ?556次閱讀